8/15/2019 ANÁLISIS DISCRIMINANTE, FACTORIAL Y REGRESIÓN LINEAL
http://slidepdf.com/reader/full/analisis-discriminante-factorial-y-regresion-lineal 1/29
UNIVERSIDAD DE CONCEPCIÓN
CAMPUS CONCEPCIÓN
ANÁLISIS ESTADÍSTICO MULTIVARIADO
PRIMER SEMESTRE 2015
Resumen
El estudio muestra un análisis que permite conocer cuáles son las características que hace que un posible
cliente compre o no a través de Internet, como también cuales son las variables que influyen en el nivel
de compra. Para realizar el análisis se ha obtenido una muestra de 112 casos extraídos de la guía
telefónica. Los encuestados a través de llamadas respondieron una serie de preguntas que facilitaron la
recolección de datos asociados a cada variable. Para realizar el análisis, se utilizaron tres métodos: Análisis
Discriminante, Análisis de Regresión Lineal Múltiple y Análisis Factorial. El primero fue efectuado solo con
111 observaciones, la faltante fue eliminada ya que fue considerada un caso atípico; se consideraron 68
observaciones de selección y 43 de validación, la muestra cumplió con todos los supuestos. Las variables
, y tuvieron un gran desempeño clasificatorio, con un 92,6% de casos bien clasificados en la
muestra de análisis y un 90,7% en la muestra de validación. Para el segundo la muestra utilizada fue solo
de 68 observaciones, ya que el propósito es saber qué tanto compran los usuarios, al reducir la muestra
no hubo inconveniente con los supuestos que demanda este análisis. La capacidad predictiva de las
variables , y fue solo de un 40,5%, valor considerado pequeño, esto se puede deber a que tal
vez las variables explicativas no fueron escogidas de manera adecuada. Para el tercero se utilizó la
totalidad de la muestra y en primera instancia todas las variables métricas independientes. A medida que
se realizaba el análisis, se fueron observando indicios de que una variable debía ser excluida, al suprimirla,
se mostró una mejora en el KMO lográndose un valor de 0,763, lo cual nos permite clasificarlo como un
análisis adecuado, además las variables restantes fueron representadas por un único factor. Se observó
la existencia de dos factores, los cuales fueron denominados como “logros del servicio” y “entorno”.
8/15/2019 ANÁLISIS DISCRIMINANTE, FACTORIAL Y REGRESIÓN LINEAL
http://slidepdf.com/reader/full/analisis-discriminante-factorial-y-regresion-lineal 2/29
UNIVERSIDAD DE CONCEPCIÓN
CAMPUS CONCEPCIÓN
ANÁLISIS ESTADÍSTICO MULTIVARIADO
PRIMER SEMESTRE 2015
Abstract
This study shows an analysis that allows to define the different characteristics that make a client buy using
the internet or not, as well as to specify which are the variables involved on the purchase level. The
analysis is based on data collected among a sample of 112 cases extracted from the phone book. Through
numerous phone calls, the respondants answered to a series of questions designed to collect the data
asssociated with every variable. Three methods were used in order to execute the analysis: Discriminating
Analysis, Multiple Linear Regression Analysis and Factorial Analysis. Being the first of them effected with
only 111 cases, the case missing was excluded due to be considered an atypical case; 68 observations
were contemplated as selection and 43 as validation observations, tha sample fulfilled all the
assumptions. Variables X 3 , X 6 , X 8 and X 12 strongly performed as classificatory variables, with a 92,6% of
cases well classified from the analysis sample, and a 90,7% on the validation sample. For the following
analysis, only 68 observations were used, considering that the target now is to know how much do the
customers buy. There was no inconvenience with the assumptions this analysis demands, reducing the
sample. The predictive capacity from the samples X 2 , X 6 and X 11 was only of a 40,5%, value considered
short. This might be explained with the variables being selected not in the best adequate way. For the
third analysis, the totality of the sample was used, conjointly with all the independent metric variables.
While the analysis was being done, there was the inkling that a variable should be excluded. Once
removed, the KMO showed a noteworthy improvement, achieving a 0,763 value, that allowed us to
classifly it as a adequate analysis, furthermore, the residuary variables were represented by an only factor.
Two factors were discerned, being called: “Service achievements” and “Enviroment”.
8/15/2019 ANÁLISIS DISCRIMINANTE, FACTORIAL Y REGRESIÓN LINEAL
http://slidepdf.com/reader/full/analisis-discriminante-factorial-y-regresion-lineal 3/29
UNIVERSIDAD DE CONCEPCIÓN
CAMPUS CONCEPCIÓN
ANÁLISIS ESTADÍSTICO MULTIVARIADO
PRIMER SEMESTRE 2015
Introducción
En enero de 1992 se realizó la primera conexión a internet en Chile, marcando una nueva herramienta
que sin duda llegó para quedarse entre los chilenos, muchas son los beneficios que aporta Internet a la
sociedad, por ejemplo; la búsqueda de información, comunicación a distancia en tiempo real, y uno de
los más importantes, la gran cantidad de recursos que aporta para el desarrollo del conocimiento y la
investigación
Internet ya no sólo cumple las mismas funciones de hace diez años atrás, una de las tendencias que se ha
ido quedado con el tiempo, es el hecho de que los consumidores están optando por realizar sus compras
vía internet ya que ahí pueden encontrar miles de productos, incluso más que en las mismas tiendas desde
la comodidad de sus hogares. Es por esto que las empresas se han visto obligadas a realizar cambios en
8/15/2019 ANÁLISIS DISCRIMINANTE, FACTORIAL Y REGRESIÓN LINEAL
http://slidepdf.com/reader/full/analisis-discriminante-factorial-y-regresion-lineal 4/29
UNIVERSIDAD DE CONCEPCIÓN
CAMPUS CONCEPCIÓN
ANÁLISIS ESTADÍSTICO MULTIVARIADO
PRIMER SEMESTRE 2015
sus tecnologías y métodos de pago para cubrir las necesidades de sus usuarios, brindando un servicio
eficaz, seguro y fácil de usar.
Es por lo anterior, que se realizará una investigación de mercado, con el fin de detectar aquellas
características que definan el comportamiento de quienes se han vueltos adherentes a esta tendencia y
a su vez detectar aquellas que mejor expliquen el hecho de que cada día sea algo más masivo.
Para lo anterior se emplazarán tres técnicas de análisis multivariado: análisis discriminante, regresión
lineal múltiple y análisis factorial. Es importante tener presente lo útil que pueden ser estas técnicas en la
cotidianidad, por ejemplo; análisis discriminante lo vemos en bancos para ver si ¿devolverá o no el cliente
el crédito? también para estudiar la aceptación de un nuevo producto que se planea lanzar en el mercado
¿será aceptado o no?, así mismo las técnicas de regresión sirven por ejemplo, para explicar el estrés de
una persona, por medio de variables como; cantidad de días que se trabaja por semana, exceso de
actividades, etc, y el análisis factorial representando en muchas ocasiones aspectos de la vida cotidiana.
En nuestra investigación se comenzará por un análisis discriminante con el fin de distinguir las
características que más diferencian a aquellos que compran a través de internet de aquellos que aún no
son partícipes de esta tendencia, se seguirá con una regresión lineal múltiple para ver que características
influyen que una persona compre más o menos y para terminar se empleará un análisis factorial para
resumir y reducir los datos en factores que expliquen las relaciones presentes entre las características de
los usuarios.
Metodología
La población de interés para llevar a cabo este estudio son todas las personas residentes en el Gran
Concepción, reduciendo a nuestro marco muestral solo a las personas que están registradas en la guía
telefónica del año 2011. La muestra en estudio serán aquellas personas que contesten la encuesta a través
de llamadas telefónicas.
Tipo de muestreo: Como nuestro marco muestral esta reducido a las personas registradas en la guía
telefónica, cada una de las personas pertenecientes a esta tiene la misma probabilidad de salir sorteada.
Así el mejor tipo de muestreo posible es el de Muestreo Aleatorio Simple (MAS).
8/15/2019 ANÁLISIS DISCRIMINANTE, FACTORIAL Y REGRESIÓN LINEAL
http://slidepdf.com/reader/full/analisis-discriminante-factorial-y-regresion-lineal 5/29
UNIVERSIDAD DE CONCEPCIÓN
CAMPUS CONCEPCIÓN
ANÁLISIS ESTADÍSTICO MULTIVARIADO
PRIMER SEMESTRE 2015
Recolección de datos: El procedimiento para escoger cada individuo fue el siguiente; se ingresaron en
Excel el número de cada página de la guía telefónica, para escoger así las páginas que entrarían en el
proceso, luego se le asignaron números a las columnas de esta misma, y del mismo modo anterior se eligió
una columna específica, cuando ya contábamos con la columna, se eligió de modo aleatorio 5 números
del 1 al 100 en Excel y se buscó la posición correspondiente a ese número en la columna seleccionada,
con eso ya se contaba al menos con cinco números por página, luego cada integrante del grupo tenía la
misión de conseguir alrededor de 40 personas dispuestas a responder la encuesta telefónica. Se contaba
con una gran cantidad de números ya que se predecía que muchas personas rechazarían el responder la
encuesta.
Grado de confianza deseado y tamaño de la muestra: Para este estudio se utilizará un nivel de confianza
dado, α= 0,05 (margen de error), para cualquier requerimiento durante los análisis.
El tamaño de la muestra está dado por:
Lo que da como resultado 384,16 ≈ 385. Es decir, es necesario mínimo 385 personas encuestadas,
pero en vista a los recursos necesarios para realizar las encuestas, como lo es el gasto económico en
realizar cada una de las llamadas, solo es posible efectuar 112 observaciones.
Cuestionario realizado: La encuesta efectuada contaba de 16 preguntas, cada una de ellas asociada a una
variable.
1.- Edad ____
2.- Sexo ____
3.- Cantidad de miembros en el núcleo familiar ____
4.- Cantidad de años que ha tenido acceso a internet ____
5.- Cantidad de equipos electrónicos con conectividad a Internet que manipula ____
Donde
K : Constante que depende del nivel de confianza (K=1,96)
: Proporción de individuos que poseen en la población la
característica de estudio
: Proporción de individuos que no poseen esa característica
e: error de margen
8/15/2019 ANÁLISIS DISCRIMINANTE, FACTORIAL Y REGRESIÓN LINEAL
http://slidepdf.com/reader/full/analisis-discriminante-factorial-y-regresion-lineal 6/29
UNIVERSIDAD DE CONCEPCIÓN
CAMPUS CONCEPCIÓN
ANÁLISIS ESTADÍSTICO MULTIVARIADO
PRIMER SEMESTRE 2015
6.- Cantidad de horas diarias de navegación en Internet ____
7.- Cantidad de horas recreativas diarias ____
8.- ¿Posee Internet móvil? ____
9.- ¿Conoce a alguien que haya comprado a través de internet? ____
10.- ¿Conoce los medios de pago para efectuar compras a través de Internet? ____
11.- ¿Tiene acceso a tarjetas de crédito o débito? ____
12.- ¿Alguna vez ha comprado algún producto a través de Internet? ____
13.- Si usted ha comprado. ¿Cuál es la cantidad promedio anual de productos
comprados?________
Calificación
14.- Respecto a su ingreso, califique su situación
económica
1 2 3 4 5 6 7 8 9 10
15.- Confianza percibida al navegar por Internet 1 2 3 4 5 6 7 8 9 10
16.- Percepción de las ofertas que se encuentran
en Internet
1 2 3 4 5 6 7 8 9 10
Todos los datos presentados a continuación fueron obtenidos al efectuar el análisis correspondiente en
el software IBM SPSS Statistics.
Resultados y Discusión
i) Análisis Discriminante
En este análisis se querrá responder la siguiente interrogante¿Compra o no compra a través de internet? ,
para ello se considerarán nueve variables métricas (independientes) y una no métrica (dependiente) que
será en este caso nuestra variable de agrupación
Variables métricas - Independientes Descripción
: Edad Edad del encuestado
8/15/2019 ANÁLISIS DISCRIMINANTE, FACTORIAL Y REGRESIÓN LINEAL
http://slidepdf.com/reader/full/analisis-discriminante-factorial-y-regresion-lineal 7/29
UNIVERSIDAD DE CONCEPCIÓN
CAMPUS CONCEPCIÓN
ANÁLISIS ESTADÍSTICO MULTIVARIADO
PRIMER SEMESTRE 2015
En primera instancia se realizó la prueba M de Box, obteniendo el resultado deseado, el cual es que la
matriz de varianzas – covarianzas combinadas es igual en ambos grupos de interés, condición necesaria
para realizar el análisis. Lo anterior se pudo afirmar ya que la significancia de la prueba F es de 0,185, este
valor es mayor que 0,05, por ende se acepta la hipótesis de interés. Con esto se puede comprobar uno
de los supuestos más importantes del análisis discriminante, “Matriz de varianzas y covarianzas
desconocidas pero iguales entre los grupos”
: Ingresos Calificación de 1 a 10 a la situación económica
: Integrantes Integrantes del núcleo familiar
: Años internet Años que lleva con acceso a internet
: Confianza internet Calificación de 1 a 10 a la confianza que percibe con
internet
: Equipos electrónicos Cantidad de equipos con conectividad a internet que
manipula
: Horas navegación Horas de navegación promedio al día en internet
: Horas libres Horas de recreación promedio al día
: Percepción ofertas Calificación de 1 a 10 a la ofertas que percibe en internet
Variable no métrica - Dependiente Descripción
: Comportamiento Comportamiento del encuestado con el servicio
1 = compra por internet y 0 = no compra por internet
M de Box 14,739
F
Aprox. 1,375
gl1 10
gl2 18329,767
Sig. ,185
Para continuar es necesario comprobar el resto de los supuestos, la “Normalidad mul tivariante de las variables
independientes” , como se trata de una muestra grande, por teorema del límite central, cualquier combinación
Tabla 1: Variables métricas y su correspondiente descripción empleadas en el AD
Tabla 2: Variable dependiente y su correspondiente descripción empleada en el AD
Tabla 3: Resultados prueba M de Box
8/15/2019 ANÁLISIS DISCRIMINANTE, FACTORIAL Y REGRESIÓN LINEAL
http://slidepdf.com/reader/full/analisis-discriminante-factorial-y-regresion-lineal 8/29
UNIVERSIDAD DE CONCEPCIÓN
CAMPUS CONCEPCIÓN
ANÁLISIS ESTADÍSTICO MULTIVARIADO
PRIMER SEMESTRE 2015
En cuanto a los “casos atípicos” se identificó una observación y fue eliminada, luego de eso se indicó que
no se mostraban anomalías según los criterios especificados.
Una vez cumplidos los supuestos, se procede a estimar la función discriminante y a la evaluación del
ajuste global. Las variables introducidas luego de realizar la prueba de igualdad de medias fueron ,
y que corresponden a aquellas cuyas significancias fueron menores a 0,05, por ende rechazaron
la hipótesis nula que indica que las media del grupo 1 es igual a la media del grupo 2 para cada variable
independiente, en este caso se tuvieron nueve pruebas de hipótesis con sus respectivos valores – p, siendo
las anteriores quienes pasaron la prueba y entraron al análisis
lineal de las variables hará que estas se distribuyan de forma independiente. Para verificar la “ausencia de
multicolinealidad” , se calcula la matriz de correlaciones, donde se puede ver que la relación entre las variables
independiente no es alta, por ende, entre ellas no están muy relacionadas y permiten discriminar con claridad
entre un grupo y otro.
X1 X3 X4 X5 X6 X7 X8 X9 X12
Correlación
X1 1,000 ,100 ,036 -,113 -,232 -,553 -,226 ,192 -,122
X3 ,100 1,000 ,068 -,013 -,186 -,075 -,145 -,145 -,070
X4 ,036 ,068 1,000 -,130 -,157 -,028 ,096 -,131 -,138
X5 -,113 -,013 -,130 1,000 ,399 ,200 ,451 ,305 ,091
X6 -,232 -,186 -,157 ,399 1,000 ,275 ,278 ,237 ,043
X7 -,553 -,075 -,028 ,200 ,275 1,000 ,240 ,035 ,220
X8 -,226 -,145 ,096 ,451 ,278 ,240 1,000 ,249 -,153
X9 ,192 -,145 -,131 ,305 ,237 ,035 ,249 1,000 ,038
X12 -,122 -,070 -,138 ,091 ,043 ,220 -,153 ,038 1,000
Tabla 5: Muestra las variables introducidas con sus respectivas Lambdas de Wilks y significanciaTabla 4: Matriz de correlaciones de las variables independientes
8/15/2019 ANÁLISIS DISCRIMINANTE, FACTORIAL Y REGRESIÓN LINEAL
http://slidepdf.com/reader/full/analisis-discriminante-factorial-y-regresion-lineal 9/29
UNIVERSIDAD DE CONCEPCIÓN
CAMPUS CONCEPCIÓN
ANÁLISIS ESTADÍSTICO MULTIVARIADO
PRIMER SEMESTRE 2015
A continuación se presenta una tabla que muestra el autovalor de la función discriminante y su respectiva
correlación canónica, se desea que haya un autovalor grande ya que representa el cociente entre la
variación debido a las diferencias entre los grupos y la variación que se da dentro de cada grupo, como no
tiene un valor máximo es difícil interpretarlo por sí solo y se recurre al Lambda de Wilks ahora asociado a
la función discriminante
Como la correlación canónica es la correlación entre la función discriminante y nuestra variable
dicotómica ( ) deseamos que ésta sea alta para que así indique con claridad que las variables
discriminantes ingresadas permiten diferenciar entre los grupos. En la tabla se ven valores satisfactorios,
un autovalor de 2,003 y una correlación canónica de un 81,7% que demuestran que las variables escogidas
discriminarán de buena forma entre sí los encuestados compran o no a través de internet.
Sumado a lo anterior, se tiene la prueba de Bartlett donde el interés es rechazar la hipótesis nula, que
plantea que el promedio multivariante de las p funciones discriminantes, en este caso p = 4, es igual en
los grupos comparados, como el estadístico V de la prueba carece de distribución propia se comparará
con uno chí-cuadrado. El valor V obtenido es de 70,375 y el chí-cuadrado asociado a esta prueba con
cuatro grados de libertad es 9,49, por lo tanto como el estadístico V es considerablemente mayor que
9,49 se rechaza la hipótesis nula y se asume la diferencia entre ambos promedios comparados. Como la
prueba de Bartlett requiere del Lambda de Wilks de la función discriminante, un procedimiento análogo
sería detenerse a analizar éste por separado.
Paso Introducidas Lambda de Wilks
Estadístico gl1 gl2 gl3 F exacta
Estadístico gl1 gl2 Sig.
1 X3 ,593 1 1 66,000 45,261 1 66,000 ,000
2 X6 ,418 2 1 66,000 45,246 2 65,000 ,000
3 X12 ,360 3 1 66,000 37,982 3 64,000 ,000
4 X8 ,333 4 1 66,000 31,544 4 63,000 ,000
Función Autovalor % de varianza % acumulado Correlación canónica
1 2,003a 100,0 100,0 ,817
Contraste de las funciones Lambda de Wilks Chi-cuadrado gl Sig.
1 ,333 70,371 4 ,000
Tabla 6: Autovalor asociado a la función discriminante y su respectiva correlación canónica
Tabla 7: Resultados asociados al Lambda de Wilks de la función discriminante
8/15/2019 ANÁLISIS DISCRIMINANTE, FACTORIAL Y REGRESIÓN LINEAL
http://slidepdf.com/reader/full/analisis-discriminante-factorial-y-regresion-lineal 10/29
UNIVERSIDAD DE CONCEPCIÓN
CAMPUS CONCEPCIÓN
ANÁLISIS ESTADÍSTICO MULTIVARIADO
PRIMER SEMESTRE 2015
Como el Lambda de Wilks expresa la proporción de variabilidad total no debida a las diferencias entre los
grupos; a medida que los grupos se vayan separando más y más, es decir, se vayan diferenciando, la
variabilidad inter-grupos irá aumentando y la variabilidad intra-grupos se irá haciendo menos respecto a
la variabilidad total, disminuyendo así, el valor del Lambda de Wilks, es por eso que valores cercanos a 0
son los que nos interesan porque demuestran una gran diferencia entre los grupos. En la tabla anterior
podemos ver un Lambda de Wilks de 0,333, un valor relativamente pequeño, y una significancia menor a
0,05 por ende se rechaza la hipótesis nula, procedimiento que ya se había hecho con el estadístico chi –
cuadrado.
Además con los valores obtenidos del Lambda de Wilks y la correlación canónica, se puede comprobar
que la suma del Lambda más la bondad de ajuste da un valor de 1,00048, cercano a 1, esto se debe a quela suma de ambos elementos está representando la suma de cuadrados del error más la suma de
cuadrados de la regresión respecto a la suma total, por lo tanto debe ser uno.
Con todo lo anterior se concluye que las variables introducidas en el análisis serán suficientes para
discriminar entre ambos grupos de interés.
Ahora se procede a formar la función discriminante gracias a los coeficientes no tipificados de las
funciones discriminantes canónicas
Por lo tanto la función discriminante asociada al análisis resulta
= -5,478 + 0,368 + 0,307 + 0.151 + 0,277
Función
1
X3 ,368
X6 ,307
X8 ,151
X12 ,277
(Constante) -5,478
Tabla 8: Coeficientes no tipificados de las funciones canónicas
8/15/2019 ANÁLISIS DISCRIMINANTE, FACTORIAL Y REGRESIÓN LINEAL
http://slidepdf.com/reader/full/analisis-discriminante-factorial-y-regresion-lineal 11/29
UNIVERSIDAD DE CONCEPCIÓN
CAMPUS CONCEPCIÓN
ANÁLISIS ESTADÍSTICO MULTIVARIADO
PRIMER SEMESTRE 2015
Donde : Ingresos en la k observación
: Confianza internet en la k observación
: Horas navegación en la k observación
: Percepción ofertas en la k observación
Si nuestro objetivo consistiera en saber en que difieren ambos grupos con lo ya analizado bastaría, sin
embargo, la mayor utilidad de una función discriminante radica en su capacidad para clasificar nuevos
casos, es por esto, que se comparará la puntuación discriminante de cada observación con el puntaje de
corte asociado, como se trata de grupos de diferente tamaño, el punto de corte será desplazado hacia el
centroides del grupo de menor tamaño buscando así igualar los errores de clasificación
Con los centroides mostrados en tabla y sabiendo que el tamaño de la muestra de quienes compran es 38
y de quienes no compran es 30 (68 observaciones seleccionadas), se tiene que el −0,330
aproximadamente, por lo tanto, si la puntuación del encuestado es menor que entonces quedará
clasificado como que “no compra a través de internet”, y aquellos cuya puntuación discriminante supereel valor de quedarán clasificados como que “compra a través de internet”.
A continuación se presentan los resultados de la clasificación en nuestro análisis, donde se consideraron
68 observaciones en la muestra de selección y 43 en la de validación.
X15 Función
1
No compra a través de internet -1,569
Compra a través de internet 1,239
Tabla 9: Centroides de los grupos de interés
8/15/2019 ANÁLISIS DISCRIMINANTE, FACTORIAL Y REGRESIÓN LINEAL
http://slidepdf.com/reader/full/analisis-discriminante-factorial-y-regresion-lineal 12/29
UNIVERSIDAD DE CONCEPCIÓN
CAMPUS CONCEPCIÓN
ANÁLISIS ESTADÍSTICO MULTIVARIADO
PRIMER SEMESTRE 2015
Los resultados de la clasificación son satisfactorios, con un 92,6% de casos bien clasificados en la muestra
de análisis y un 90,7 % en la muestra de validación, en la primera muestra se tuvo que 3 encuestados que
no compraban quedaron clasificados como que compraban, a su vez 2 encuestados que compraban
quedaron clasificados en el grupo de los que no compran a través de internet, así mismo en la muestra de
validación fueron 2 en ambos grupos los que quedaron mal clasificados.
Como medida adicional de bondad del modelo se puede comprobar que la precisión clasificatoria es
superior al límite marcado por el criterio de aleatoriedad proporcional que en nuestro análisis
corresponde a 50,6%, la cual efectivamente es mayor por ende
superamos el umbral del Cpro. Ahora un nivel más alto de
valoración para el ajuste sería compararlo con el criterio de aleatoriedad máxima que se obtiene al asignar
todas las observaciones al grupo con la mayor probabilidad de ocurrencia, en este caso, toma un valor de
55,8%, y nuestra precisión clasificatoria sigue siendo superior, dado que el CMA > Cpro el modelo debería
alcanzar el nivel del 55,8% , ahora considerando un umbral un poco más alto correspondiente al CMA más
el 25%, es decir, un 69,7%, nuestra precisión vuelve a superar la barrera, por lo tanto concluimos que la
clasificación fue bien realizada por ende se obtuvieron grupos muy cercanos a la realidad.
Para terminar, es necesario realizar la prueba del estadístico Q de Press con el fin de contrastar la
capacidad discriminatoria de la matriz de clasificación al compararla con un modelo de aleatoriedad.
Dentro del grupo de los seleccionados, el estadístico toma un valor de 49,47 y en el grupo de los no
seleccionados un valor de 28,48, estos valores se compararán con un ,, , que tiene un valor de 3,84,
siendo el Q de Press de la muestra de análisis y de validación considerablemente mayor, por lo tanto,
puede concluirse que en ambas muestras la precisión clasificatoria es mejor a la esperada si esta fuese
aleatoria.
Tabla 10: Resultados de la clasificación
8/15/2019 ANÁLISIS DISCRIMINANTE, FACTORIAL Y REGRESIÓN LINEAL
http://slidepdf.com/reader/full/analisis-discriminante-factorial-y-regresion-lineal 13/29
UNIVERSIDAD DE CONCEPCIÓN
CAMPUS CONCEPCIÓN
ANÁLISIS ESTADÍSTICO MULTIVARIADO
PRIMER SEMESTRE 2015
ii) Regresión lineal múltiple
Para el caso en estudio, se está interesado en saber qué variables explicativas están relacionadas con el
nivel de compra que tienen los usuarios que han utilizado la compra por internet. Para la realización de
este estudio solo tomaremos en cuenta las observaciones que si han hecho uso de la compra a través de
internet, si bien no se considerarán todas las observaciones utilizadas en el análisis anterior no podía ser
de otra forma para el propósito de la regresión
Las variables utilizadas en este análisis de regresión múltiple son:
Variables explicativas Descripción
: Edad Edad del encuestado.
: Sexo Sexo del encuestado.
1= Mujer y 0= Hombre
Ingreso Calificación de 1 a 10 a la situación económica.
: Integrantes Integrantes del núcleo familiar
Tabla 11: Variables explicativas o dependientes
8/15/2019 ANÁLISIS DISCRIMINANTE, FACTORIAL Y REGRESIÓN LINEAL
http://slidepdf.com/reader/full/analisis-discriminante-factorial-y-regresion-lineal 14/29
UNIVERSIDAD DE CONCEPCIÓN
CAMPUS CONCEPCIÓN
ANÁLISIS ESTADÍSTICO MULTIVARIADO
PRIMER SEMESTRE 2015
Años internet Años en que usuario ha tenido acceso a Internet
: Confianza internet Calificación de 1 a 10 la confianza que percibe con Internet
: Equipos electrónicos Cantidad de equipos electrónicos que manipula
: Horas navegación Horas de navegación promedio al día en Internet
: Horas libres Horas de recreación promedio al día
: Internet móvil Posesión de internet móvil.
1= Si posee y 0=No posee
: Referencia Referencia de alguien que ha comprado por internet
1= Tiene referencia y 0= No tiene referencia
: Percepción Calificación de 1 a 10 a las ofertas que percibe en Internet
: Forma de Pago Conocimiento de las formas de pago a través de internet
1= Si tiene conocimiento y 0= No tiene conocimiento
: Tarjeta de crédito o
débito
Posesión de tarjetas de crédito o débito
1= Posee tarjetas y 0= No posee tarjetas
EL modelo de regresión queda determinado de la siguiente forma:
+ + X + X + X + … … … . . +X + X + X + X +ε
Donde:
Y: Variable dependiente (respuesta)
: Intercepto poblacional
: Pendientes poblacionales
: Variables independientes (explicativas)
: Error aleatorio
Variable independiente Descripción
: Nivel de compra Cantidad promedio de productos comprados en un año por los
encuestados
Tabla 12: Variables explicada o independiente
8/15/2019 ANÁLISIS DISCRIMINANTE, FACTORIAL Y REGRESIÓN LINEAL
http://slidepdf.com/reader/full/analisis-discriminante-factorial-y-regresion-lineal 15/29
UNIVERSIDAD DE CONCEPCIÓN
CAMPUS CONCEPCIÓN
ANÁLISIS ESTADÍSTICO MULTIVARIADO
PRIMER SEMESTRE 2015
Las variables X13 y X14 fueron eliminadas del análisis ya que el software arrojo que estas columnas eran
constantes. Para empezar con el análisis primero se comprobaran los supuestos que debe cumplir el
modelo.
Para tener un buen modelo de regresión no es suficiente que los residuos sean pequeños, también se
requiere que estos se distribuyan de
forma normal, con media igual a cero y
varianza igual a σ2. Para chequear el
“Supuesto de normalidad” se utiliza la
prueba de Kolmogorov-Smirnov, con la hipótesis nula de que los residuos se distribuyen de modo normal.
El resultado obtenido es el deseado ya que la significancia arrojada para este test es de 0,307, el cual es
mayor a 0,05 (ver Tabla 13); por lo tanto se acepta la hipótesis nula de que los errores se distribuyen de
forma normal.
El “Supuesto de Homocedasticidad” exige igualdad de varianza para los residuos. Si se observa el Gráfico
A podemos ver que existe una gran dispersión de los valores alrededor de la media igual cero. Además en
Unstandardized Residual
N 68
Parámetros normalesa,b Media ,0000000
Des. típica 10,63469471
Z de Kolmogorov-Smirnov ,967
Sig. asintót. (bilateral) ,307
Tabla 13: Prueba de Kolmogorov - Smirnov
8/15/2019 ANÁLISIS DISCRIMINANTE, FACTORIAL Y REGRESIÓN LINEAL
http://slidepdf.com/reader/full/analisis-discriminante-factorial-y-regresion-lineal 16/29
UNIVERSIDAD DE CONCEPCIÓN
CAMPUS CONCEPCIÓN
ANÁLISIS ESTADÍSTICO MULTIVARIADO
PRIMER SEMESTRE 2015
el Grafico B no se detecta ninguna pauta de asociación entre los pronósticos y los residuos, es decir, el
tamaño de los residuos es independiente del tamaño de los pronósticos. Por lo tanto no existe presencia
de heterocedasticidad.
El supuesto de “no auto-correlación” postula que los residuos con diferentes subíndices no están
correlacionados entre sí (E (ui,u j)=0). Para detectar la existencia o no de auto-correlación se observará el
resultado de la prueba de Durbin-Watson, con la cual veremos si los valores presentan algún tipo de
dependencia en cuanto al orden de obtención. Si fuera así se estaría incumpliendo una de las condiciones
del modelo. Si observamos la Tabla 14 el estadístico de Durbin-Watson arroja un valor igual a 1,942 el cual
se encuentra dentro del intervalo de aceptación de la hipótesis nula (IC= [1,87 2,103]). Por lo tanto se
puede afirmar que no existe auto-correlación entre los residuos, es decir, los residuos se distribuyen
aleatoriamente por encima y por debajo de la media igual a cero.
Para verificar el “supuesto de no multicolinealidad” se utilizó el Factor de Inflación de la Varianza (VIF) los
cuales están tabulados en la Tabla 15. Cuando un VIF se acerca a uno para alguna variable sugiere que la
multicolinealidad para esa variable no es un problema. En este caso todos los VIF son cercanos a uno, por
ello podemos asegurar que no existe evidencia de multicolinealidad entre las variables.
Luego de haber chequeado los supuestos del modelo, daremos paso a la interpretación de los resultados
asociados a la regresión.
El modelo estimado para lo observación i-ésima con los tabulados en la Tabla 15 y las variables
anteriormente señaladas está dado por:
−29,142 + 0,139 − 6,420X + 0,848X − 0370X + 0,278X + 4,434X − 0,462X − 0,144X −
−0,800X − 1,364X + 11,161 X − 0,736X
Modelo R R cuadrado R cuadrado
corregida
Error típ. de la
estimación
Durbin-Watson
1 ,636a ,405 ,275 11,738 1,942
Tabla 14: Resumen del modelo
Gráfico BGráfico A
8/15/2019 ANÁLISIS DISCRIMINANTE, FACTORIAL Y REGRESIÓN LINEAL
http://slidepdf.com/reader/full/analisis-discriminante-factorial-y-regresion-lineal 17/29
UNIVERSIDAD DE CONCEPCIÓN
CAMPUS CONCEPCIÓN
ANÁLISIS ESTADÍSTICO MULTIVARIADO
PRIMER SEMESTRE 2015
Los coeficiente miden el efecto parcial de la variable Xi, manteniendo las otras variables fijas, es
decir, mide el cambio en Y cuando Xi aumenta en 1 unidad.
Modelo Coeficientes no
estandarizados
Coeficient
es
tipificados
t Sig. Intervalo de confianza de
95,0% para B
Estadísticos de
colinealidad
B Error típ. Beta Límite
inferior
Límite
superior
Toleranci
a
FIV
(Constante) -26,142 16,204 -1,613 ,112 -58,616 6,333
X1_Edad ,139 ,120 ,142 1,157 ,252 -,101 ,379 ,722 1,385
X2_Sexo -6,420 3,091 -,233 -2,077 ,043 -12,615 -,225 ,860 1,163
X3_Ingreso ,848 ,882 ,121 ,961 ,341 -,920 2,615 ,687 1,455
X4_Integrantes -,370 1,121 -,036 -,330 ,743 -2,617 1,877 ,889 1,124
X5_AñosInternet ,278 ,368 ,089 ,756 ,453 -,459 1,016 ,788 1,269
X6_Confianza 4,434 1,113 ,451 3,983 ,000 2,203 6,666 ,843 1,186
X7_Equipos -,462 2,543 -,022 -,182 ,856 -5,558 4,634 ,766 1,305
X8_HorasInternet -,144 ,721 -,024 -,200 ,842 -1,590 1,302 ,760 1,316
X9_HorasLibres -,800 ,586 -,167 -1,364 ,178 -1,975 ,375 ,720 1,388
X10_IntMovil -1,364 4,087 -,038 -,334 ,740 -9,555 6,826 ,835 1,198
X12_Percepción -,736 ,842 -,095 -,874 ,386 -2,423 ,951 ,912 1,096
X11_Referencia 11,161 3,533 ,377 3,159 ,003 4,081 18,242 ,760 1,315
En primer lugar se obtuvo la tabla Anova para saber si la regresión es significativa, obteniendo el resultado
deseado para la prueba F, de que por lo menos algún ≠ 0 para todo i desde 1 hasta 12. Esto se puede
respaldar con los datos tabulados en la Tabla 16, el valor de F estimado es de 3,114, mayor al valor de F
de tabla igual a 1,875 aproximadamente, además la significancia arrojada es de 0,002 que es menor que
0,05, por lo tanto se tiene evidencia suficiente para asegurar que existe al menos un que está explicando
el modelo de regresión.
Modelo Suma de
cuadrados
Gl Media
cuadrática
F Sig.
1
Regresión 5147,990 12 428,999 3,114 ,002b
Residual 7577,481 55 137,772
Total 12725,471 67
Tabla 15: Tabla de coeficientes
8/15/2019 ANÁLISIS DISCRIMINANTE, FACTORIAL Y REGRESIÓN LINEAL
http://slidepdf.com/reader/full/analisis-discriminante-factorial-y-regresion-lineal 18/29
UNIVERSIDAD DE CONCEPCIÓN
CAMPUS CONCEPCIÓN
ANÁLISIS ESTADÍSTICO MULTIVARIADO
PRIMER SEMESTRE 2015
Como ya es sabido que la regresión es significativa, es de interés saber cuáles de los coeficientes son
realmente los que están explicando la variable independiente Y. Para que los sean significativos su
valor-p correspondiente debe ser menor que 0,05, por ende será necesario tener doce pruebas de
hipótesis para probar la significancia de cada , el objetivo de estas pruebas será rechazar la hipótesis
de que cada 0. Observando los datos de la Tabla 16 los coeficientes que son significativos son los
que están asociados a las variables X2: Sexo, X6: Confianza y X11: Referencia.
Por lo tanto el modelo de regresión asociado al estudio quedaría de la siguiente forma
−29,142 − 6,420X + 4,434X + 11,161 X
Las variables X, X y X nos dan indicio de que dependiendo del género, en este caso mujeres, y la
confianza que el usuario perciba en internet, además de poseer referencia de alguien que haya usado el
servicio, el nivel de compra se verá influenciado, en este caso, como solo X es una variable métrica, a
mayor valor de esta y tratándose de mujeres y de personas que sí tengan referencia de un tercero, mayor
será el valor de Y, y por ende, mayor la demanda del servicio.
Luego de saber que variables explican la variable independiente del modelo, es de importancia saber cuál
es la capacidad predictiva de las variables independientes, es decir, el porcentaje de la variación total en
la variable independiente y, que está siendo explicada por las variables explicativas X i . Para ello se obtiene
el “Coeficiente de Determinación Múltiple, R2” . Idealmente se espera que este número sea un valor alto
para que exista un gran porcentaje de explicación, en este caso el R2 obtenido es de 0,405, es decir, las
variables independientes X i explican en un 40,5% la variable independiente Y . Como el R2 conseguido es
pequeño, se puede asegurar que las variables independientes no están muy relacionadas con la variable
dependiente, esto se puede deber a que, las variables seleccionadas no fueron las adecuadas para explicar
la variable dependiente, también puede estar influenciado por el hecho de que no se está ocupando la
totalidad de las observación obtenidas, y además puede existir una error arrastrado de haber realizado el
análisis discriminante antes que el de regresión.
Con lo que respecta a las observaciones influyentes en el modelo, el intervalo de confianza para los
residuos típicos es [-1,9921 1,9921], con ello se puede asegurar que existen 18 observaciones que tienen
Tabla 16: Tabla ANOVA
8/15/2019 ANÁLISIS DISCRIMINANTE, FACTORIAL Y REGRESIÓN LINEAL
http://slidepdf.com/reader/full/analisis-discriminante-factorial-y-regresion-lineal 19/29
UNIVERSIDAD DE CONCEPCIÓN
CAMPUS CONCEPCIÓN
ANÁLISIS ESTADÍSTICO MULTIVARIADO
PRIMER SEMESTRE 2015
gran influencia en el modelo, por tanto los 50 observaciones restantes tienen residuos atípicos. El tener
tal cantidad de observaciones no influyentes perjudicó la explicación del modelo.
iii) Análisis Factorial
El objetivo de este análisis es reducir el número de variables utilizadas a un número más pequeño de
factores o componentes, de tal modo que estos las representen en su totalidad y así logar explicarlas
en términos de sus características comunes.
En el siguiente análisis se utilizarán las variables mostradas a continuación, todas ellas independientes.
Variables métricas - Independientes Descripción
: Edad Edad del encuestado
8/15/2019 ANÁLISIS DISCRIMINANTE, FACTORIAL Y REGRESIÓN LINEAL
http://slidepdf.com/reader/full/analisis-discriminante-factorial-y-regresion-lineal 20/29
UNIVERSIDAD DE CONCEPCIÓN
CAMPUS CONCEPCIÓN
ANÁLISIS ESTADÍSTICO MULTIVARIADO
PRIMER SEMESTRE 2015
En
primera instancia analizaremos la matriz de correlaciones para verificar que se cumpla el supuesto
principal del análisis; “C orrelaciones entre las variables deben ser altas” . La tabla 18 ofrece la matriz de
correlaciones (coeficientes de correlación de Pearson) entre cada par de variables. Se desea que la matriz
indique grupos de variables que se correlacionen fuertemente entre ellas, en el caso contrario, cada
variable será su propio factor. Para valores mayores a 0.30, las correlaciones son consideradas
sustanciales. Además, la tabla 4 muestra la significancia de cada correlación; un nivel crítico menor que
0,05 indica que la correlación poblacional entre el par asociado de variables puede ser considerada
significativamente distinta de cero (esto es deseable).
Para nuestro análisis, se obtuvo 17 correlaciones significativas (47.2%) a un nivel de 0.01de un total de 36,
lo que resulta un indicio de que nuestro análisis podría ser no apropiado.
X1 X3 X4 X5 X6 X7 X8 X9 X12
Correlación
X1 1,000 -,182 -,125 -,307 -,337 -,584 -,368 ,141 -,248
X3 -,182 1,000 ,134 ,291 ,272 ,219 ,137 -,090 ,332
X4 -,125 ,134 1,000 ,130 ,003 ,140 ,211 -,078 ,013
X5 -,307 ,291 ,130 1,000 ,501 ,306 ,521 ,168 ,269
X6 -,337 ,272 ,003 ,501 1,000 ,351 ,354 ,121 ,315
X7 -,584 ,219 ,140 ,306 ,351 1,000 ,345 ,047 ,282
: Ingresos Calificación de 1 a 10 a la situación económica
: Integrantes Integrantes del núcleo familiar
: Años internet Años que lleva con acceso a internet
: Confianza internet Calificación de 1 a 10 a la confianza que percibe con
internet
: Equipos electrónicos Cantidad de equipos con conectividad a internet que
manipula
: Horas navegación Horas de navegación promedio al día en internet
: Horas libres Horas de recreación promedio al día
: Percepción ofertas Calificación de 1 a 10 a la ofertas que percibe en internet
Tabla 17: Variables métricas y su correspondiente descripción empleadas en el AF
8/15/2019 ANÁLISIS DISCRIMINANTE, FACTORIAL Y REGRESIÓN LINEAL
http://slidepdf.com/reader/full/analisis-discriminante-factorial-y-regresion-lineal 21/29
UNIVERSIDAD DE CONCEPCIÓN
CAMPUS CONCEPCIÓN
ANÁLISIS ESTADÍSTICO MULTIVARIADO
PRIMER SEMESTRE 2015
X8 -,368 ,137 ,211 ,521 ,354 ,345 1,000 ,173 ,081
X9 ,141 -,090 -,078 ,168 ,121 ,047 ,173 1,000 ,014
X12 -,248 ,332 ,013 ,269 ,315 ,282 ,081 ,014 1,000
Sig.
(Unilateral)
X1 ,027 ,094 ,000 ,000 ,000 ,000 ,069 ,004
X3 ,027 ,080 ,001 ,002 ,010 ,076 ,174 ,000
X4 ,094 ,080 ,086 ,485 ,070 ,013 ,208 ,446
X5 ,000 ,001 ,086 ,000 ,001 ,000 ,038 ,002
X6 ,000 ,002 ,485 ,000 ,000 ,000 ,102 ,000
X7 ,000 ,010 ,070 ,001 ,000 ,000 ,313 ,001
X8 ,000 ,076 ,013 ,000 ,000 ,000 ,034 ,198
X9 ,069 ,174 ,208 ,038 ,102 ,313 ,034 ,442
X12 ,004 ,000 ,446 ,002 ,000 ,001 ,198 ,442Tabla 18. Muestra la matriz de correlaciones entre las variables.
Para continuar con nuestro análisis aplicamos los estadísticos KMO y prueba de esfericidad de Bartlett
que permiten valorar si el análisis ha sido el apropiado.
La Medida de Suficiencia Muestral (KMO) es un índice que compara la magnitud de los coeficientes de
correlación con la magnitud de los coeficientes de correlación parcial entre las variables. Los valores de la
medida de suficiencia muestral varían entre 0 y 1. Se considera que es pertinente utilizar el análisis en
cuestión si presenta valores de KMO próximos a 1.
La Prueba de Esfericidad de Bartlett contrasta la hipótesis nula de que la matriz de correlaciones es una
matriz identidad (lo que indicaría correlaciones entre variables iguales a 0). De esta forma, se esperan
valores de significancia mayores a 0,05 para poder así rechazar la hipótesis mencionada, para luego
clasificar de buena forma al análisis.
En nuestro análisis se puede observar un valor de KMO de 0,736, por lo que es considerado como
aceptable, además la significancia de Bartlett es la esperada.
Medida de adecuación muestral de Kaiser-Meyer-Olkin. ,736
Prueba de esfericidad de
Bartlett
Chi-cuadrado aproximado 203,339
gl 36
Sig. ,000
Tabla 19. Muestra dos estadísticos usados para valorar que el análisis factorial sea apropiado.
8/15/2019 ANÁLISIS DISCRIMINANTE, FACTORIAL Y REGRESIÓN LINEAL
http://slidepdf.com/reader/full/analisis-discriminante-factorial-y-regresion-lineal 22/29
UNIVERSIDAD DE CONCEPCIÓN
CAMPUS CONCEPCIÓN
ANÁLISIS ESTADÍSTICO MULTIVARIADO
PRIMER SEMESTRE 2015
Ahora analizaremos la matriz de correlación anti-imagen para así observar si la medida de adecuación
muestral de cada variable (MSA) se encuentra dentro los rangos esperados.
La matriz de correlación anti-imagen es el negativo de la matriz de correlaciones parciales entre dos
variables. Recordemos que las correlaciones parciales son estimaciones de las correlaciones entre los
factores únicos, además de que las correlaciones deben ser próximas a cero, es por esto que se desea que
la matriz de correlaciones anti-imagen contenga coeficientes bajos, logrando así, clasificar como adecuado
nuestro análisis.
Es importante mencionar que la diagonal de ésta matriz, representa los coeficientes MSA, los cuales son
considerados como una medida de adecuación muestral para cada variable (similar a KMO).
Nuestro análisis presenta en su mayoría valores de MSA cercanos a 1 (deseable) a excepción de la variable
X9, la cual podría ser excluida del análisis.
X1 X3 X4 X5 X6 X7 X8 X9 X12
Correlación
anti-imagen
X1 ,694a -,033 7,833E-005 ,046 ,103 ,480 ,193 -,268 ,084
X3 -,033 ,758a
-,102 -,153 -,106 -,070 ,026 ,139 -,233
X4 7,833E-005 -,102 ,634a -,048 ,115 -,074 -,166 ,097 ,035
X5 ,046 -,153 -,048 ,762a -,306 ,010 -,371 -,113 -,113
X6 ,103 -,106 ,115 -,306 ,823a -,104 -,090 -,069 -,143
X7 ,480 -,070 -,074 ,010 -,104 ,742a -,091 -,119 -,118
8/15/2019 ANÁLISIS DISCRIMINANTE, FACTORIAL Y REGRESIÓN LINEAL
http://slidepdf.com/reader/full/analisis-discriminante-factorial-y-regresion-lineal 23/29
UNIVERSIDAD DE CONCEPCIÓN
CAMPUS CONCEPCIÓN
ANÁLISIS ESTADÍSTICO MULTIVARIADO
PRIMER SEMESTRE 2015
X8 ,193 ,026 -,166 -,371 -,090 -,091 ,741a -,155 ,138
X9 -,268 ,139 ,097 -,113 -,069 -,119 -,155 ,411a -,027
X12 ,084 -,233 ,035 -,113 -,143 -,118 ,138 -,027 ,768a
Tabla 20. Muestra matriz de correlación anti-imagen
En nuestra Tabla 21, correspondiente a la tabla de porcentajes de varianza explicada, se ofrece un listado
de los autovalores de la matriz de correlación y del porcentaje de varianza y varianza acumulada que
representa cada uno de ellos. Recordemos que los autovalores expresan la cantidad de varianza total que
está explicada por cada factor. Utilizamos el criterio de la raíz latente para seleccionar el número de
componentes que se va a mantener para un análisis posterior, el método consiste en seleccionar tantos
componentes como autovalores mayores a 1 existan en la matriz analizada, por lo que el procedimiento
extrae tres componentes que explican un %59,49 de la varianza de los datos originales.
Componente Autovalores iniciales
Total % de la varianza % acumulado
1 2,974 33,045 33,045
2 1,256 13,952 46,997
3 1,125 12,499 59,496
4 ,973 10,806 70,302
5 ,757 8,408 78,710
6 ,609 6,768 85,478
7 ,534 5,929 91,407
8 ,404 4,486 95,894
9 ,370 4,106 100,000
A continuación se muestra la matriz de correlaciones reproducidas y la matriz residual.
La matriz de correlaciones reproducidas contiene las correlaciones que es posible reproducir utilizando
tan sólo la información contenida en la solución factorial.
La matriz residual posee los residuos del análisis factorial, cabe mencionar que cada residuo representa
la diferencia entre la correlación observada ente dos variables y la correlación reproducida por la
estructura factorial para esas dos variables.
Para que el análisis sea clasificado como adecuado, el número de residuos con valores altos debe ser
mínimo y la mayoría de las correlaciones reproducidas se deben parecer a las correlaciones observadas.
Tabla 21. Muestra los nueve posibles factores, sus respectivos autovalores y porcentajes de varianza que representa
cada uno de ellos.
8/15/2019 ANÁLISIS DISCRIMINANTE, FACTORIAL Y REGRESIÓN LINEAL
http://slidepdf.com/reader/full/analisis-discriminante-factorial-y-regresion-lineal 24/29
UNIVERSIDAD DE CONCEPCIÓN
CAMPUS CONCEPCIÓN
ANÁLISIS ESTADÍSTICO MULTIVARIADO
PRIMER SEMESTRE 2015
Para nuestro análisis, se obtuvieron 27 residuos no redundantes (75.0%), lo que resulta
negativo a la hora de clasificar fructífero a nuestro análisis.
X1 X3 X4 X5 X6 X7 X8 X9 X12
Correlación
reproducida
X1 ,595a -,363 -,371 -,405 -,368 -,548 -,428 ,201 -,298
X3 -,363 ,471a -,017 ,260 ,363 ,348 ,072 -,196 ,516
X4 -,371 -,017 ,524a ,099 -,033 ,291 ,332 -,242 -,177
X5 -,405 ,260 ,099 ,623a ,570 ,466 ,574 ,322 ,313
X6 -,368 ,363 -,033 ,570 ,586a ,429 ,422 ,252 ,453
X7 -,548 ,348 ,291 ,466 ,429 ,530a ,462 -,066 ,317
X8 -,428 ,072 ,332 ,574 ,422 ,462 ,698a ,301 ,039
X9 ,201 -,196 -,242 ,322 ,252 -,066 ,301 ,706a -,074
X12 -,298 ,516 -,177 ,313 ,453 ,317 ,039 -,074 ,620a
Residualb
X1 ,181 ,246 ,098 ,031 -,035 ,060 -,060 ,049
X3 ,181 ,151 ,031 -,092 -,129 ,065 ,106 -,184
X4 ,246 ,151 ,031 ,037 -,151 -,121 ,165 ,190
X5 ,098 ,031 ,031 -,068 -,160 -,053 -,153 -,043
X6 ,031 -,092 ,037 -,068 -,077 -,068 -,131 -,139
X7 -,035 -,129 -,151 -,160 -,077 -,116 ,113 -,035
X8 ,060 ,065 -,121 -,053 -,068 -,116 -,127 ,042X9 -,060 ,106 ,165 -,153 -,131 ,113 -,127 ,088
X12 ,049 -,184 ,190 -,043 -,139 -,035 ,042 ,088
Tabla 22. Muestra la matriz de correlaciones reproducidas.
Luego procedemos a analizar la matriz de coeficientes para el cálculo de las cargas factoriales, la cual
ofrece las ponderaciones que recibe cada variable en el cálculo de dichas cargas.
Las puntuaciones factoriales deben ser cercanas a 0 o 1, las variables con puntuaciones próximas a 1 se
explican en gran parte por el factor, mientras que las que tengas puntuaciones próximas a 0 no se explican
por el factor. Cabe mencionar que cada variable debe tener puntuaciones factoriales altas con un único
factor y que no deben existir factores con similares puntuaciones factoriales.
8/15/2019 ANÁLISIS DISCRIMINANTE, FACTORIAL Y REGRESIÓN LINEAL
http://slidepdf.com/reader/full/analisis-discriminante-factorial-y-regresion-lineal 25/29
UNIVERSIDAD DE CONCEPCIÓN
CAMPUS CONCEPCIÓN
ANÁLISIS ESTADÍSTICO MULTIVARIADO
PRIMER SEMESTRE 2015
En nuestro análisis notamos poca claridad al momento de explicar la relación de las variables con los
factores ya que las puntuaciones no muestran una preferencia notoria ante algún factor. Se realiza una
rotación ortogonal (VARIMAX) para mejorar esta situación.
Componente
1 2 3
X1 Edad -,124 -,345 ,095
X3 Ingreso ,410 -,053 -,151
X4 Integrantes -,239 ,539 -,130
X5 Años Internet ,079 ,054 ,327
X6 Confianza ,242 -,084 ,247
X7 Equipos ,126 ,259 ,013
X8 Horas Internet -,184 ,307 ,337
X9 Horas Libres -,170 -,262 ,589
X12 Percepción ,503 -,225 -,066
Tabla23. Muestra la matriz de coeficientes para el cálculo de
las puntuaciones en los componentes
Luego de realizar la rotación VARIMAX se muestra la matriz de componentes rotados. La idea de aplicar
una rotación es redistribuir las varianzas de los factores y así mejorar la saturación de las variables en su
respectivo factor y disminuirla en los componentes a los que no pertenece.
En nuestro análisis se puede observar que a pesar de haber aplicado una rotación, continúa existiendo
poca claridad en las saturaciones de las variables con sus factores representativos. Por lo tanto
excluiremos la variable X9 la cual presentaba el menor MSA entre las variables en cuestión (Tabla 20).
Componente
1 2 3
X12percepción ,782
X3ingreso ,674
X6confianza ,550 ,512
X4integrantes ,700
X1edad -,429 -,637
8/15/2019 ANÁLISIS DISCRIMINANTE, FACTORIAL Y REGRESIÓN LINEAL
http://slidepdf.com/reader/full/analisis-discriminante-factorial-y-regresion-lineal 26/29
UNIVERSIDAD DE CONCEPCIÓN
CAMPUS CONCEPCIÓN
ANÁLISIS ESTADÍSTICO MULTIVARIADO
PRIMER SEMESTRE 2015
X7equipos ,434 ,542
X9horaslibres ,769
X5añosinternet ,622
X8horasinternet ,565 ,613Tabla 24. Muestra la matriz de componentes rotados
Tras la exclusión de la variable X9 (Horas Libres) se observa un aumento en el índice KMO. Al analizar la
matriz de correlación Anti-Imagen se muestra una mejora en los valores de los MSA de las variables (se
omitió esta tabla), además se puede observar que los factores extraídos han disminuido de tres a dos.
Recordemos que un análisis factorial satisfactorio se caracteriza por tener puntuaciones factoriales altas
con un único factor y que no deben existir factores con similares puntuaciones factoriales.
La matriz de componentes principales muestra poco claridad en las saturaciones de las variables con sus
factores representativos, por lo que se realizó una rotación oblicua (OBLIMIN) y esta situación ha sido
mejorada; cada variable presenta una saturación relativamente alta con un único factor (no se usó una
rotación VARIMAX ya que ésta tampoco logró mejorar la situación de poca claridad entre factores y
variables).
Medida de adecuación muestral de Kaiser-Meyer-Olkin. ,763
Prueba de esfericidad de
Bartlett
Chi-cuadrado aproximado 187,969
gl 28
Sig. ,000
Componente1 2
X5añosinternet ,726
X7equipos ,702
X6confianza ,696
X1edad -,689
X8horasinternet ,652 -,458
Tabla 25. Muestra KMO y prueba de Bartlett luego de la exclusión de la variable X9.
8/15/2019 ANÁLISIS DISCRIMINANTE, FACTORIAL Y REGRESIÓN LINEAL
http://slidepdf.com/reader/full/analisis-discriminante-factorial-y-regresion-lineal 27/29
UNIVERSIDAD DE CONCEPCIÓN
CAMPUS CONCEPCIÓN
ANÁLISIS ESTADÍSTICO MULTIVARIADO
PRIMER SEMESTRE 2015
X3ingreso ,493 ,408
X12percepción ,510 ,598
X4integrantes -,565
Tabla 26. Muestra la matriz de componentes
luego de la exclusión de la variable X9.
Luego de la exclusión de la variable en cuestión, se puede observar una mejora al momento de explicar la
relación de las variables con los componentes ya que las puntuaciones reflejan una preferencia notoria
ante los factores representativos.
Conclusiones
El objetivo inicial era detectar aquellas características que definan el comportamiento de quienes
compran o no a través de internet y a su vez detectar aquellas que mejor expliquen el nivel de compra de
los encuestados, las conclusiones de las técnicas empleadas en el análisis son:
X8horasinternet ,742
X5añosinternet ,717
X1edad -,704
X7equipos ,704
X6confianza ,627
X12percepción ,703
X3ingreso ,514
X4integrantes -,489
Tabla 27. Muestra la matriz de componentes
rotados luego de la exclusión de la variable X9.
8/15/2019 ANÁLISIS DISCRIMINANTE, FACTORIAL Y REGRESIÓN LINEAL
http://slidepdf.com/reader/full/analisis-discriminante-factorial-y-regresion-lineal 28/29
UNIVERSIDAD DE CONCEPCIÓN
CAMPUS CONCEPCIÓN
ANÁLISIS ESTADÍSTICO MULTIVARIADO
PRIMER SEMESTRE 2015
i) La función discriminante quedó conformada por las siguientes variables: ingresos, confianza
hacia internet, horas de navegación y percepción de las ofertas, obteniendo una precisión
clasificatoria de un 92,6% en la muestra de análisis y un 90,7 % en la muestra de validación,
el análisis cumplió todos los supuestos requeridos, por ende se concluye que serán estas
variables las encargadas de distinguir y por ende clasificar cualquier caso entre sí “compra a
través de internet” o “no compra a través de internet” .
ii) Terminado el análisis de regresión se puede decir que el modelo obtenido es significativo y
que el nivel de compra de quienes son adherentes al servicio es explicado por las variables,
sexo, confianza y referencia de compra en un 40.5%, si bien nuestro no es un valor
satisfactorio, concluimos que las variables elegidas en la encuesta no fueron las adecuadas
para explicar nuestra variable dependiente para la regresión.
iii) Del análisis factorial se concluye que este es adecuado debido a los resultados obtenidos y
exclusión de una variable que no lograba ser clasificada correctamente en un único factor.
Además se han obtenido dos factores; el primero ha sido denominado como “logros del
servicio”, el cual contiene a las variables; horas de internet, años de internet, edad, equipos y
confianza. Para el segundo factor se le ha dado la etiqueta de “entorno”, el cual contiene a
las variables; percepción, ingreso e integrantes.
Respecto a los errores que se presentaron en el desarrollo del análisis, los justificamos en el proceso
de recolección de datos, ya que limitarse a la disponibilidad de la gente a responder una encuesta vía
teléfono no fue una tarea sencilla, y abarcar el tamaño de la muestra mínimo fue algo que superó
nuestro alance.
La importancia que se asocia al estudio es más bien en el ámbito sociológico ya que apunta a
comprender conductas de las personas respecto a esta tendencia que se están presentando en la
sociedad.
Referencias
- DAMODAR N.GUJARTI, Econometría, traducido de la quinta edición de Basic econometrics, by
Damodar N. Gujarati, and Dawn C. Porter, México. Parte uno “Modelos de regresión
uniecuacionales”
8/15/2019 ANÁLISIS DISCRIMINANTE, FACTORIAL Y REGRESIÓN LINEAL
http://slidepdf.com/reader/full/analisis-discriminante-factorial-y-regresion-lineal 29/29
UNIVERSIDAD DE CONCEPCIÓN
CAMPUS CONCEPCIÓN
ANÁLISIS ESTADÍSTICO MULTIVARIADO
PRIMER SEMESTRE 2015
- HAIR, ANDERSON, TATHAM & BLACK, Análisis Multivariante, traducción Esme Prentice y Diego
Cano, Universidad autónoma de Madrid, Madrid, Capítulo 1: Introducción, Capítulo 2: Análisis
previo de los datos, Capítulo 3: Análisis factorial.