certamen_n1_ii-2011_pauta

26
CERTAMEN Nº1 MAT4201 Análisis Multivariado Alba Martínez Ruiz Departamento de Ingeniería Industria Universidad Católica de la Ssma. Concepción Primavera 2011, Chile Problema 1 1 Análisis de Correspondencias En esta nueva era de la información Internet se ha convertido en una fuente inconmensurable de datos. Los usuarios de Internet cuando visitan un sitio web dejan una gran cantidad de información que los webmasters se encargan de recopilar en unos archivos llamados “log files”. Algunos de estos datos son: de dónde provienen los usuarios que visitan un determinado sitio web, qué páginas visitan o en qué links cliquean, incluso es posible saber cuánto tiempo un usuario visita una determinada página web. Analizando por ejemplo las estadísticas generadas en estos archivos “log” es posible examinar el comportamiento y preferencias de los consumidores (¿para qué piensa usted que puede servir esto? 2 ). Además, también permite a los webmaster mejorar el contenido y el diseño de los sitios web. La tabla que se muestra a continuación presenta datos extraídos de estos “files log”. Los datos se generan cuando los usuarios visitan la página web del Departamento de Ingeniería Industrial en una Universidad en Chile. Las variables presentadas son seis: Hits y Files para las visitas efectuadas a un sitio web durante los meses de Mayo, Junio y Julio. Las filas representan los países desde donde fueron visitadas las páginas web. Se considera un total de 13 países y se incluye un desglose para Estados Unidos. Se discrimina entre aquellas visitas generadas desde sitios educacionales (USEducation) o comerciales (USCommercial). Los hits representan el número de solicitudes realizadas a un servidor durante un periodo de tiempo. Suponga usted que el número de solicitudes hechas al servidor nos entrega una idea de las visitas que son efectuadas al un sitio web (web traffic). Los files representan el número total de solicitudes exitosas, es decir aquellas solicitudes que finalmente resultaron en algo enviado al usuario. Por ejemplo, una página web. No todos los hits enviarán datos a los usuarios 3 . Si se mira la diferencia entre hits y files es posible tener un indicador de las visitas repetidas de los usuarios. Mientras más grande sea la diferencia, más visitantes están solicitando páginas que ya han revisado con anterioridad. Se aplica un análisis de correspondencias a la tabla de frecuencias. Uno de los objetivos es examinar el comportamiento de los consumidores y analizar si es posible encontrar diferencias entre países. Por supuesto, analizamos el modelo de independencia entre las variables categóricas 1 Inspirado en Koutsoupias, N. (2002) Exploring Web Access Logs with Correspondence, 2nd Hellenic Conf. on Artificial Intelligence, SETN-2002, 11-12 April 2002, Thessaloniki, Greece. Proceedings, Companion Volume, pp. 229-236. 2 Por ejemplo identificar tendencias de acceso, tener una visión amplia de cómo los usuarios aceden al sitio y responder algunas preguntas sobre el contenido del sitio (Koutsoupias, 2002, p. 229). 3 http://www.webalizer.org/

Upload: gustavo-chavez-errazuriz

Post on 24-Sep-2015

4 views

Category:

Documents


0 download

DESCRIPTION

pauta certamen analisis multivariado

TRANSCRIPT

  • CERTAMEN N1

    MAT4201 Anlisis Multivariado

    Alba Martnez Ruiz Departamento de Ingeniera Industria

    Universidad Catlica de la Ssma. Concepcin Primavera 2011, Chile

    Problema 11 Anlisis de Correspondencias

    En esta nueva era de la informacin Internet se ha convertido en una fuente inconmensurable de datos. Los usuarios de Internet cuando visitan un sitio web dejan una gran cantidad de informacin que los webmasters se encargan de recopilar en unos archivos llamados log files. Algunos de estos datos son: de dnde provienen los usuarios que visitan un determinado sitio web, qu pginas visitan o en qu links cliquean, incluso es posible saber cunto tiempo un usuario visita una determinada pgina web. Analizando por ejemplo las estadsticas generadas en estos archivos log es posible examinar el comportamiento y preferencias de los consumidores (para qu piensa usted que puede servir esto?2). Adems, tambin permite a los webmaster mejorar el contenido y el diseo de los sitios web. La tabla que se muestra a continuacin presenta datos extrados de estos files log. Los datos se generan cuando los usuarios visitan la pgina web del Departamento de Ingeniera Industrial en una Universidad en Chile. Las variables presentadas son seis: Hits y Files para las visitas efectuadas a un sitio web durante los meses de Mayo, Junio y Julio. Las filas representan los pases desde donde fueron visitadas las pginas web. Se considera un total de 13 pases y se incluye un desglose para Estados Unidos. Se discrimina entre aquellas visitas generadas desde sitios educacionales (USEducation) o comerciales (USCommercial). Los hits representan el nmero de solicitudes realizadas a un servidor durante un periodo de tiempo. Suponga usted que el nmero de solicitudes hechas al servidor nos entrega una idea de las visitas que son efectuadas al un sitio web (web traffic). Los files representan el nmero total de solicitudes exitosas, es decir aquellas solicitudes que finalmente resultaron en algo enviado al usuario. Por ejemplo, una pgina web. No todos los hits enviarn datos a los usuarios3. Si se mira la diferencia entre hits y files es posible tener un indicador de las visitas repetidas de los usuarios. Mientras ms grande sea la diferencia, ms visitantes estn solicitando pginas que ya han revisado con anterioridad. Se aplica un anlisis de correspondencias a la tabla de frecuencias. Uno de los objetivos es examinar el comportamiento de los consumidores y analizar si es posible encontrar diferencias entre pases. Por supuesto, analizamos el modelo de independencia entre las variables categricas

    1 Inspirado en Koutsoupias, N. (2002) Exploring Web Access Logs with Correspondence, 2nd Hellenic Conf.

    on Artificial Intelligence, SETN-2002, 11-12 April 2002, Thessaloniki, Greece. Proceedings, Companion Volume, pp. 229-236. 2 Por ejemplo identificar tendencias de acceso, tener una visin amplia de cmo los usuarios aceden al sitio y

    responder algunas preguntas sobre el contenido del sitio (Koutsoupias, 2002, p. 229). 3 http://www.webalizer.org/

  • pas y estadsticas de Internet (qu piensa usted las estadsticas que se generan dependern del pas de procedencia del usuario que visita el sitio web?).

    Preguntas Se entrega la siguiente informacin: el test chi-2 de hiptesis de independencia, la tabla de frecuencias absolutas observadas, la tabla de frecuencias absolutas esperadas, la matriz de residuos y la matriz de residuos en porcentajes, las tablas de perfiles fila y columna que incluyen los perfiles marginales fila y columna, los valores propios de la matriz Z y la varianza explicada y acumulada, las coordenadas de los puntos fila y columna en el plano determinado por las dimensiones 1 y 2, la representacin conjunta de filas y columnas en el plano determinado por las dimensiones 1 y 2. Con base en esta informacin responda las siguientes preguntas:

    1. Usted rechazara o aceptara la hiptesis de independencia entre las variables categricas? Por qu?

    2. Cules son los pases que con ms frecuencia han visita el sitio web y en base a qu informacin usted concluira esto?

    3. Cules son los meses en los que se visita con ms frecuencia el sitio web y en base a qu informacin usted concluira esto?

    4. Qu variables determinan la dimensin 1? Por qu? Qu informacin utiliza usted para responder a estas preguntas?

    5. Qu variables determinan la dimensin 2? Por qu? Qu informacin utiliza usted para responder a estas preguntas?

    6. Interprete el primer plano de proyeccin. Qu grupos identifica usted en el plano? Por qu?

    Solucin

    Tabla de frecuencias absolutas esperadas y observadas, test chi-2 y descomposicin chi-2

    Rechazamos la hiptesis de independencia si > ,(,)

    . El valor de es de 1737.368 con

    60 grados de libertad ((I-1)x(J-1)=(13-1)x(6-1)=60) y un p-valor inferior a 2,2e-16 ( muy grande y

    p-valor muy pequeo). Esto entrega evidencia suficiente para rechazar la hiptesis de independencia entre las dos variables categricas. Es decir, el nmero de visitas o las estadsticas generadas en los log files dependern del pas desde donde se realice la visita. La matriz de residuos y la matriz de residuos en porcentajes entregan informacin sobre aquellas categoras que ms contribuyen a la desviacin de los datos del modelo de independencia. En el modelo de independencia asumimos que las estadsticas que se generan para el sitio web no dependen del pas de procedencia del usuario que lo visita. Se puede decir que las frecuencias que ms contribuyen a la deviacin del modelo de independencia son:

    - Las visitas que se realizaron en el mes de Mayo desde Canada explican un 5.19% (HitsMay) y un 5.79% (FilesMay) de las diferencias que existen entre las frecuencias absolutas observadas y esperadas. Frecuencia observada 83, frecuencia esperada 30.5 y 40, respectivamente. Esto quiere decir que se esperaban muchos menos hits y files de los que

  • realmente ocurrieron, es decir se esperaba un nmero menor de solicitudes al servidor durante el mes de Mayo. El nmero de solicitudes exitosas tambin fue mucho mayor.

    - Las visitas que se realizaron en el mes de Mayo desde Espaa explican un 4.41% (HitsMay) y 5.01% (FilesMay) de las diferencias que existen entre las frecuencias absolutas observadas y esperadas. Frecuencia observada 56 y 4, frecuencia esperada 58.7 y 37.6, respectivamente.

    - Las visitas que se realizaron en el mes de Junio desde USEducation explican un 6.52% (HitsJune) de las diferencias que existen entre las frecuencias absolutas observadas y esperadas. Frecuencias observadas 180 y 88, frecuencias observadas 83 y 53.1, respectivamente.

    - Las visitas que se realizaron en el mes de Julio desde Chipre explican un 3.82% (HitsJuly) y 3.6% (FilesJuly) de las diferencias que existen entre las frecuencias absolutas observadas y esperadas. Frecuencias observadas 75 y 64, frecuencias esperadas 30.2 y 24.7, respectivamente.

    - Las visitas que se realizaron en el mes de Julio desde Yugoslavia explican un 3.90% (FilesJuly) de las diferencias que existen entre las frecuencias absolutas observadas y esperadas. Frecuencia observada 60, frecuencia esperada 25.2.

    Si se observan las matrices de frecuencias observadas y esperadas, adems de las de residuos, es posible mencionar tambin:

    - En el caso de Alemania, las frecuencias observadas en el mes de Mayo fueron mucho ms altas de las esperadas. Las frecuencias observadas fueron menores a las esperadas en el mes de Junio. En el mes de Julio el nmero de solicitudes (hits) observado fue mayor al esperado, pero el nmero de solicitudes exitosas (files) observado fue menor al esperado. Puede encontrar alguna razn que ayude a explicar este comportamiento? Por qu se realizan ms visitas al sitio web en el mes de Mayo? por qu el nmero de solicitudes exitosas fue menor al esperado en el mes de Julio, an cuando el nmero de solicitudes observado fue mayor al esperado?

    - En el caso de UK. - En el caso de Yugoslavia

    Pefiles marginales fila y columna

    El perfil marginal fila nos entrega el comportamiento promedio de una columna en cada una de las categoras de la variable fila. En este caso como se distribuyen el nmero de solicitudes (hits) y el nmero de solicitudes exitosas (files), o en general las estadsticas generadas por las visitas del usuario en cada mes dependiendo del pas desde donde se genere la visita. El perfil marginal columna entrega el comportamiento promedio de una fila en cada una de las categoras de la variable columna; cmo se distribuiran en promedio para cada pas el nmero de solicitudes (hits) y solicitudes exitosas (files) en cada mes. Los vectores perfil marginal fila y perfil marginal columna se muestran en las tablas de perfiles fila y columna, respectivamente. Recuerda que el perfil marginal columna es el centro de gravedad de los I puntos fila en el espacio RJ y el perfil marginal fila es el centro de gravedad de los J puntos columna en el espacio RI.

  • El perfil marginal fila muestra que en promedio el nmero de solicitudes generadas (dato general) provenga en un 42.94% de usuarios de US (instituciones comerciales), un 19.94% de UK, un 8.65% de Alemania, un 5.10% de US (instituciones de educacin), etc. Estos son los pases que con ms frecuencia han visitado el sitio web. El perfil marginal columna muestra el comportamiento promedio de una fila (hits y files) en los meses de Mayo, Junio y Julio. Podramos decir que en promedio se espera que 16.25% de solicitudes (hits) y un 15.43% de solicitudes exitosas (files) en el mes de Mayo, un 21.12% de solicitudes (hits) y un 13.51% de solicitudes exitosas (files) en el mes de Junio, y un 18.54% de solicitudes (hits) y un 15.16% de solicitudes exitosas (files) en el mes de Julio. Es decir, se espera que exista ms trfico en los meses de Junio y Julio. Valores propios y varianza acumulada

    Se muestran los valores propios de la matriz ZZ o ZZ, los porcentajes de varianza que explican cada una de las dimensiones, y los porcentajes de varianza acumulada. Un total de 5 dimensiones explican el 100% de la variabilidad de los datos (min(I-1,J-1) = min(13-1,6-1) = 5). La dimensin 1 explica el 61.42% de la variabilidad de los datos o desviacin de las frecuencias observadas del modelo de independencia entre las variables categricas. La segunda dimensin explica el 31.82% de la variabilidad. En conjunto las dimensiones 1 y 2 explican el 93.24% de la desviacin de las frecuencias observadas del modelo de independencia. Este porcentaje es suficiente para la representacin adecuada de las filas y columnas. Representacin de los puntos fila y puntos columna

    La tabla coordenadas de los puntos fila y los puntos columna en los planos factoriales, entrega las coordenadas de cada una de las modalidades de las categoras, en el plano de terminado por las dimensiones 1 y 2. Por ejemplo:

    - Las coordenadas de la modalidad/pas Australia en el plano (1,2) es (-0.2431,-0.5011) - Las coordenadas de la modalidad HitsMay en el plano (1,2) es (0.5005,-0.1285)

    Las coordenadas, adems de permitir posicionar las modalidades en el plano, nos permiten apreciar cules son las categoras que influyen ms en la formacin de cada una de las dimensiones. Usted puede observar la representacin conjunta de filas y columnas en los planos (1,2). Recordar que en el origen de los planos estn ubicados los perfiles marginales fila (fi.) y columna (f.j), es decir el comportamiento promedio de la variable categrica pas y el comportamiento promedio de la variable categrica estadsticas de Internet, respectivamente. Aquellos puntos fila que se encuentran ms alejados del origen se encuentran ms alejados del comportamiento promedio o perfil marginal columna (f.j). Aquellos puntos columna que se encuentran ms alejados del origen se encuentran ms alejados del comportamiento promedio o perfil marginal fila (fi.). Al observar la representacin conjunta de los perfiles fila y columna en el plano (1,2) y las coordenadas de los puntos fila podemos decir:

  • - La dimensin 1 est fuertemente determinada por el comportamiento de los usuarios que visitan el sitio web y que provienen de Canad y Espaa en el sentido positivo del eje, y de Chipre y Yugoslavia en el sentido negativo de la dimensin 1.

    - La dimensin 1 tambin est determinada por las modalidades HitsMay y FilesMay en el sentido positivo del eje, y por FilesJuly en el sentido negativo del de la dimensin.

    - Por otro lado, la dimensin 2 est determinada por el comportamiento de los usuarios que visitan el sitio web y que provienen de Yugoslavia y Chipre en el sentido positivo de la dimensin, y de USEducation y Australia en el sentido negativo del eje.

    - La dimensin 2 tambin est determinada por las variables HitsJune y FilesJune. Podemos decir de forma general que los pases Canad y Espaa, y Chipre y Yugoslavia muestran valores parecidos para cada una de las variables columnas o de las estadsticas de Internet generadas (nmero de solicitudes, hits, y nmero de solicitudes exitosas, files). Qu piensa usted de este resultado? Por qu los usuarios de Canad y Espaa tendrn comportamientos similares? Lo mismo sucede con las visitas generadas desde Chipre y Yugoslavia, y tambin desde Australia y USEducation. Tambin los pases que se encuentran cercanos al origen se encuentran cercanos al comportamiento promedio de filas y columnas, es decir al perfil marginal fila y al perfil marginal columna. Es el caso de USCommercial y Netherlands. Si se examina la tabla de frecuencias absolutas observadas es posible observar que tanto los usuarios de Canad y Espaa generaron altos valores para las estadsticas en el mes de Mayo. Esto tambin se puede apreciar en el plano (1,2) puesto que estos pases se posicionan cercanos a las categoras HitsMay y FilesMay. Lo mismo sucede con Australia y USEducation. El nmero de solicitudes (hits) y de solicitudes exitosas (Files) son ms altas en el mes de Junio para ambos pases. En el caso de Chipre y Yugoslavia los valores altos de las variables ocurren en el mes de Julio. Cmo interpretamos esta informacin en el plano de proyeccin? La dimensin 1 distribuye los pases de acuerdo al tiempo. Aquellos que tienen valores altos en las categoras columna en el mes de Mayo se posicionan al lado derecho del eje (en el sentido positivo del eje). Los pases que tienen valores altos de las variables en los meses de Junio y Julio se posicionan cada vez ms al lado izquierdo del eje (sentido negativo).

  • Tabla de frecuencias absolutas observadas

    Estadsticas Internet

    Country HitsMay FilesMay HitsJune FilesJune HitsJuly FilesJuly Total

    Pas

    Australia 20 20 102 79 43 34 298

    Bulgaria 16 16 43 27 89 66 257

    Canada 83 83 6 6 5 5 188

    Croatia 12 12 5 5 12 12 58

    Cyprus 6 6 7 5 75 64 163

    Germany 171 158 90 42 171 35 667

    Netherlands 60 36 90 44 64 42 336

    Romania 19 19 21 16 7 7 89

    Spain 104 104 56 4 5 5 278

    UK 303 293 412 194 171 165 1538

    USCommercial 440 424 609 526 682 631 3312

    USEducation 17 17 180 88 46 45 393

    Yugoslavia 2 2 8 6 60 58 136

    Total 1253 1190 1629 1042 1430 1169 7713

    Test chi-2 de hiptesis de independencia

    X-squared = 12, df = 60, p-value < 2.2e-16

    Tabla de frecuencias absolutas esperadas

    Estadsticas Internet

    Country HitsMay FilesMay HitsJune FilesJune HitsJuly FilesJuly Total

    Pas

    Australia 48.40 46.00 62.90 40.30 55.20 45.20 298.00

    Bulgaria 41.80 39.70 54.30 34.70 47.60 39.00 257.10

    Canada 30.50 29.00 39.70 25.40 34.90 28.50 188.00

    Croatia 9.40 8.90 12.20 7.80 10.80 8.80 57.90

    Cyprus 26.50 25.10 34.40 22.00 30.20 24.70 162.90

    Germany 108.40 102.90 140.90 90.10 123.70 101.10 667.10

    Netherlands 54.60 51.80 71.00 45.40 62.30 50.90 336.00

    Romania 14.50 13.70 18.80 12.00 16.50 13.50 89.00

    Spain 45.20 42.90 58.70 37.60 51.50 42.10 278.00

    UK 249.90 237.30 324.80 207.80 285.10 233.10 1538.00

    USCommercial 538.00 511.00 699.50 447.40 614.00 502.00 3311.90

    USEducation 63.80 60.60 83.00 53.10 72.90 59.60 393.00

    Yugoslavia 22.10 21.00 28.70 18.40 25.20 20.60 136.00

    Total 1253.10 1189.90 1628.90 1042.00 1429.90 1169.10 7712.90

  • Matriz de residuos

    Estadsticas Internet

    Country HitsMay FilesMay HitsJune FilesJune HitsJuly FilesJuly Total

    Pas

    Australia 16.67 14.68 24.24 37.28 2.72 2.76 98.35

    Bulgaria 15.88 14.11 2.34 1.72 35.89 18.78 88.72

    Canada 90.11 100.51 28.61 14.82 25.57 19.37 278.99

    Croatia 0.71 1.04 4.29 1.03 0.14 1.17 8.38

    Cyprus 15.84 14.58 21.85 13.16 66.35 62.50 194.28

    Germany 36.22 29.49 18.37 25.69 18.12 43.21 171.10

    Netherlands 0.54 4.84 5.11 0.04 0.05 1.56 12.14

    Romania 1.43 2.02 0.26 1.32 5.47 3.12 13.62

    Spain 76.66 87.06 0.13 29.98 42.03 32.73 268.59

    UK 11.31 13.08 23.39 0.91 45.69 19.90 114.28

    USCommercial 17.87 14.81 11.71 13.79 7.52 33.16 98.86

    USEducation 34.37 31.40 113.35 22.95 9.90 3.56 215.53

    Yugoslavia 18.27 17.17 14.95 8.33 47.99 67.81 174.52

    Total 335.88 344.79 268.60 171.02 307.44 309.63 1737.36

    Matriz de residuos en porcentajes

    Estadsticas Internet

    Country HitsMay FilesMay HitsJune FilesJune HitsJuly FilesJuly Total

    Pas

    Australia 0.96 0.84 1.40 2.15 0.16 0.16 5.67

    Bulgaria 0.91 0.81 0.13 0.10 2.07 1.08 5.10

    Canada 5.19 5.79 1.65 0.85 1.47 1.11 16.06

    Croatia 0.04 0.06 0.25 0.06 0.01 0.07 0.49

    Cyprus 0.91 0.84 1.26 0.76 3.82 3.60 11.19

    Germany 2.08 1.70 1.06 1.48 1.04 2.49 9.85

    Netherlands 0.03 0.28 0.29 0.00 0.00 0.09 0.69

    Romania 0.08 0.12 0.01 0.08 0.31 0.18 0.78

    Spain 4.41 5.01 0.01 1.73 2.42 1.88 15.46

    UK 0.65 0.75 1.35 0.05 2.63 1.15 6.58

    USCommercial 1.03 0.85 0.67 0.79 0.43 1.91 5.68

    USEducation 1.98 1.81 6.52 1.32 0.57 0.20 12.40

    Yugoslavia 1.05 0.99 0.86 0.48 2.76 3.90 10.04

    Total 19.32 19.85 15.46 9.85 17.69 17.82 99.99

  • Tabla de perfiles fila

    Estadsticas Internet

    Country HitsMay FilesMay HitsJune FilesJune HitsJuly FilesJuly Total

    Pas

    Australia 0.067 0.067 0.342 0.264 0.145 0.114 1.000

    Bulgaria 0.063 0.063 0.168 0.105 0.345 0.258 1.003

    Canada 0.443 0.443 0.033 0.033 0.025 0.025 1.000

    Croatia 0.213 0.213 0.080 0.080 0.213 0.213 1.013

    Cyprus 0.038 0.038 0.043 0.028 0.460 0.393 1.000

    Germany 0.257 0.237 0.135 0.062 0.257 0.052 1.000

    Netherlands 0.179 0.108 0.268 0.131 0.190 0.124 1.000

    Romania 0.217 0.217 0.235 0.183 0.078 0.078 1.009

    Spain 0.375 0.375 0.203 0.014 0.017 0.017 1.000

    UK 0.197 0.191 0.268 0.126 0.111 0.107 1.000

    USCommercial 0.133 0.128 0.184 0.159 0.206 0.190 1.000

    USEducation 0.043 0.043 0.457 0.224 0.118 0.114 0.998

    Yugoslavia 0.017 0.017 0.057 0.046 0.443 0.426 1.006

    Perfil Marginal Columna

    0.1625 0.1543 0.2112 0.1351 0.1854 0.1516

    Tabla de perfiles columna

    Estadsticas Internet

    Country HitsMay FilesMay HitsJune FilesJune HitsJuly FilesJuly Perfil

    Marginal Fila

    Pas

    Australia 0.0160 0.0170 0.0620 0.0760 0.0300 0.0290 0.0386

    Bulgaria 0.0130 0.0140 0.0260 0.0260 0.0620 0.0570 0.0333

    Canada 0.0660 0.0700 0.0040 0.0060 0.0030 0.0040 0.0244

    Croatia 0.0100 0.0100 0.0030 0.0040 0.0090 0.0110 0.0075

    Cyprus 0.0050 0.0050 0.0040 0.0040 0.0520 0.0550 0.0211

    Germany 0.1370 0.1330 0.0550 0.0400 0.1200 0.0300 0.0865

    Netherlands 0.0480 0.0300 0.0550 0.0420 0.0450 0.0360 0.0436

    Romania 0.0150 0.0160 0.0130 0.0160 0.0050 0.0060 0.0115

    Spain 0.0830 0.0880 0.0350 0.0040 0.0030 0.0040 0.0360

    UK 0.2420 0.2460 0.2530 0.1860 0.1200 0.1410 0.1994

    USCommercial 0.3510 0.3560 0.3740 0.5050 0.4770 0.5400 0.4294

    USEducation 0.0140 0.0140 0.1100 0.0840 0.0320 0.0380 0.0510

    Yugoslavia 0.0020 0.0020 0.0050 0.0060 0.0420 0.0500 0.0176

    Total 1.0010 1.0020 1.0000 0.9990 1.0000 0.9990

  • Valores propios y varianza acumulada

    Dimensin Valores Propios % de varianza explicada % de varianza acumulada

    1 0.1387 61.42 61.42

    2 0.0719 31.82 93.24

    3 0.0090 3.99 97.23

    4 0.0057 2.54 99.77

    5 0.0005 0.23 100.00

    Coordenadas de los puntos fila y los puntos columna

    en el plano determinado por las dimensiones 1 y 2

    Yf1 Yf2 Yc1 Yc2

    Australia -0.2431 -0.5011 HitsMay 0.5005 -0.1285

    Bulgaria -0.5165 0.2521 FilesMay 0.5182 -0.1348

    Canada 1.1389 0.3937 HitsJune -0.0237 0.3913

    Croatia 0.0867 0.3845 FilesJune -0.1928 0.3113

    Cyprus -0.8037 0.7211 HitsJuly -0.3388 -0.2835

    Germany 0.3376 0.2829 FilesJuly -0.4466 -0.1993

    Netherlands -0.0164 -0.1095

    Romania 0.3196 -0.1997

    Spain 0.9697 0.0867

    UK 0.2173 -0.1494

    USCommercial -0.1534 0.0349

    USEducation -0.2704 -0.6749

    Yugoslavia -0.8949 0.6669

  • Representacin conjunta de filas y columnas

    en el plano determinado por las dimensiones 1 y 2

  • Problema 2 Anlisis de Componentes Principales UNIDO (United Nations Industrial Development Organization) estima el desarrollo industrial o la capacidad industrial competitiva de las economas, es decir la capacidad de los pases para fabricar y exportar manufacturas de forma competitiva, usando seis indicadores (ONUDI, 2009): a. Valor aadido a la manufactura per cpita (VAM, dlares), pone de manifiesto el nivel de

    industrializacin de un pas, que puede ser competitivo o no. b. Exportaciones de productos manufacturados per cpita (MEC, dlares), permite determinar el

    grado de competitividad del sector industrial en un conjunto de mercados. Mide tambin la capacidad de la industria nacional para mantenerse a la par de la evolucin tecnolgica, al menos en relacin a los productos de exportacin.

    c. Proporcin de manufactura con valor agregado en relacin al PIB (SVAM_GDP, porcentaje). Este indicador captura el rol o la importancia de los productos manufacturados en la economa de un pas.

    d. Proporcin de exportaciones manufacturadas del total de exportaciones (SME_TE, porcentaje). Este indicador captura el rol o la importancia de los productos manufacturados en las exportaciones.

    e. Proporcin de actividades de mediana y alta tecnologa en el VAM (SMHTP_VAM, porcentaje). Cuanto ms elevada sea esta proporcin, mayor es la complejidad tecnolgica que tiene la estructura industrial de un pas y ms competitivo ser su rendimiento industrial.

    f. Proporcin de productos de mediana y alta tecnologa en las exportaciones de manufacturas (SMHTE_ME, porcentaje). Indica la complejidad tecnolgica de las exportaciones, la capacidad de un pas para exportar productos de mayor valor agregado y de llegar a mercados que demandan productos ms complejos.

    Tenemos una tabla de datos con el valor de estos seis indicadores en el ao 2000 para un total de 122 pases. Los datos fueron extrados del Industrial Development Report 2009. Se desea hacer un anlisis de componentes principales y examinar si es posible reducir la dimensionalidad de los datos y encontrar un conjunto de variables ortogonales que permitan explicar la variabilidad de los individuos y variables. Se presentan los resultados de un ACP Normalizado.

    Preguntas Se entrega la siguiente informacin: matriz de correlaciones entre las variables, valores propios, varianza explicada y varianza acumulada por cada componente, vectores propios de la matriz de correlaciones, combinaciones lineales de las primeras dos componentes, representacin de los individuos en el plano principal (1,2), proyeccin de las variables o crculo de correlaciones, correlaciones entre las variables y las componentes. Con base en esta informacin responda las siguientes preguntas:

    1. Qu interpretacin dara usted a la primera componente? Por qu? Qu informacin utiliza para responder a estas preguntas?

    2. Qu interpretacin dara usted a la segunda componente? Por qu? Qu informacin utiliza para responder a estas preguntas?

  • 3. Cul es la interpretacin que usted da la distribucin de pases en el plano? Logra identificar grupos de pases? Por qu? Qu informacin utiliza para responder a estas preguntas?

    4. Interprete el crculo de correlaciones. Qu variables se correlacionan ms con una componente u otra? Cmo ayuda esta informacin a la interpretacin de las componentes 1 y 2?

    Solucin Correlaciones

    La matriz de correlaciones entre las variables muestra varios grupos de variables con correlaciones medias:

    - Valor aadido de la manufactura (VAM) y exportaciones de productos manufacturados per cpita (MEC)

    - Valor aadido de la manufactura (VAM) y proporcin de actividades de mediana y alta tecnologa en el VAM (SMHTP_VAM)

    - Valor aadido de la manufactura (VAM) y proporcin de productos de mediana y alta tecnologa en las exportaciones de manufacturas (SMHTE_ME)

    - Proporcin de manufactura con valor agregado en relacin al PIB (SVAM_GDP) y proporcin de actividades de mediana y alta tecnologa en el VAM (SMHTP_VAM)

    - Proporcin de actividades de mediana y alta tecnologa en el VAM (SMHTP_VAM) y proporcin de productos de mediana y alta tecnologa en las exportaciones de manufacturas (SMHTE_ME)

    Valores propios y varianza explicada

    Recuerde que cuando se realiza el anlisis de componentes principales lo que hacemos es proyectar el conjunto de vectores fila/individuos (que estn en Rp) en un espacio de dimensin menor (plano principal) tratando de preservar al mximo las distancias originales entre los individuos. Cuando observemos los individuos proyectados en el plano principal, podremos ver ms cerca aquellos casos que tienen valores ms parecidos en las variables y ms alejados aquellos casos que tienen valores ms distintos. Si se realiza un ACP de las variables, logramos representar (reducir) la informacin contenida en las 6 variables originales en 3 componentes que explican el 84.6% de la varianza de los individuos. Si se observa el grfico de varianza explicada, es posible notar que a partir de la tercera dimensin los valores propios se tornan pequeos y ms similares entre s. Note lo siguiente. Todos los valores propios son reales y positivos y distintos de cero. Esto es debido a que el rango de la matriz de 6 variables seleccionadas es mximo. Tenemos p=6 variables linealmente independientes. Los vectores propios extrados de la matriz de correlaciones de las variables son las direcciones/vectores unitarios que determinan los planos donde se proyectarn los individuos y definen los coeficientes de cada variable en cada componente principal.

  • Componente 1

    Si se observa con detencin, se puede constatar que la componente y1 es una combinacin lineal donde los pesos de ponderacin de cada una de las variables son muy parecidos. Esto sucede porque la correlacin entre todas las variables es positiva, por lo que todos los coeficientes tendrn el mismo signo y la componente puede interpretarse como un factor global de tamao. Los coeficientes ms grandes en valor absoluto son para proporcin de productos de mediana y alta tecnologa en las exportaciones de manufacturas (SMHTE_ME, -0.471) y proporcin de actividades de mediana y alta tecnologa en el VAM (SMHTP_VAM, -0.465). Esto quiere decir que la primera componente distinguir un poco ms aquellos pases con valores grandes en estas variables (si la componente y1 se representa en el eje horizontal, entonces los pases con valores grandes en estas variables estarn ms alejadas del origen en el sentido negativo). Si usted observa la distribucin de los individuos/pases en el sentido de la primera componente observar que los pases con valores grandes en las variables se posicionan en el sentido negativo del eje. Se puede mencionar pases como Singapore, Ireland, Japan, Switzerland, etc. A medida que los valores que toman las variables decrecen en tamao los pases se van ubicando cada vez ms a la derecha del plano o el sentido positivo de la primera componente. Usted puede observar como en el extremo derecho se ubican pases como Gabon, Etiopa, Camerun, Mongolia, Uganda, etc. Componente 2

    Al contrario, la segunda componente y2, es principalmente una combinacin lineal de las variables: proporcin de manufactura con valor agregado en relacin al PIB (SVAM_GDP, -0.651) y proporcin de exportaciones manufacturadas del total de exportaciones (SME_TE, -0.419). Aquellos pases que tengan valores grandes en las variables se encontrarn en el sentido negativo de la componente 2. Tambin los coeficientes de las variables valor aadido de la manufactura (VAM, 0.352) y exportaciones de productos manufacturados per cpita (MEC, 0.526) son importantes, pero contribuyen a la formacin de la componente 2 en el sentido inverso; aquellos pases con valores grandes en estas variables tendern a ubicarse en el sentido positivo de la dimensin 2. Las contribuciones de las variables proporcin de actividades de mediana y alta tecnologa en el VAM (SMHTP_VAM, 0.015) y proporcin de productos de mediana y alta tecnologa en las exportaciones de manufacturas (SMHTE_ME, 0.002) son muy pequeas. Al observar el plano de proyeccin de los individuos podemos encontrar ms evidencia a favor de los resultados encontrados. Si se observa la disposicin de los individuos en el sentido del eje 2, podremos ver que pases como Tailandia, China y Malaysia, que son pases que tienen valores grandes en las variables: proporcin de manufactura con valor agregado en la relacin al PIB (SVAM_DGP) y proporcin de exportaciones manufacturadas del total de exportaciones (SME_TE) se ubican en el sentido negativo de la dimensin 2. Por el contrario, en el sentido positivo de la dimensin 2 se encuentran aquellos pases que tienen valores grandes en las variables: exportaciones de productos manufacturados (MEC) y valor

  • aadido de la manufactura (VAM). Note como pases como Singapore, Hong Kong y Luxemburgo se ubican ms alejados del resto en el sentido positivo de la dimensin 2. stos corresponden a pases con valores grandes en el VAM y MEC. Al observar el plano de proyeccin tambin es posible decir que Singapore y Hong Kong son los pases que ms se alejan del resto (ms distantes del origen del grfico o del centro de gravedad de la nube de puntos). Estos corresponden a los pases que tienen valores ms diferentes en las variables comparndolos con el resto de los pases, por lo tanto las distancias entre estos individuos y el centro de gravedad es la ms grande. Pases como New Zealand, Argentina o Grecia se encuentran muy cerca del origen o centro de gravedad de la nube de puntos. Por lo tanto, las diferencias ente estos individuos y el centro de gravedad son muy pequeas, los pases se comportan de forma muy similar al promedio. Crculo de correlaciones

    La proyeccin de las variables o crculo de correlaciones muestra las correlaciones entre las variables y las componentes, y la posicin relativa entre las variables. Como este es un anlisis normalizado, las correlaciones coincidirn con las puntuaciones obtenidas al proyectar las variables (que estn en Rn) sobre el plano principal obtenido al calcular las direcciones .

    En el primer plano principal se observan claramente como algunas variables correlacionan ms con la componente 1 y otras con la componente 2. La variable valor aadido de la manufactura (VAM) correlaciona de forma negativa con las componentes 1 y 2; la correlacin de VAM con la componente 1 es muy alta, por lo tanto los pases que adems de tener valores altos en la proporcin de productos de mediana y alta tecnologa en las exportaciones de manufacturas (SMHTE_ME, -0.471) y proporcin de actividades de mediana y alta tecnologa en el VAM (SMHTP_VAM, -0.465), tengan valores altos en el VAM, se encontrarn muy cercanos a la componente 1. La variable exportaciones de productos manufacturados per cpita (MEC) tambin correlaciona con las dos componentes, pero de forma positiva. La correlacin de MEC con la componente 2 es ms alta. Por lo tanto, los pases que tengan valores altos en proporcin de manufactura con valor agregado en relacin al PIB (SVAM_GDP, -0.651) y proporcin de exportaciones manufacturadas del total de exportaciones (SME_TE, -0.419), y que adems tengan valores altos en el MEC, se encontrarn ms cerca de la componente 2. El crculo de correlaciones muestra tambin que la correlacin de las variables: - Proporcin de manufactura con valor agregado en relacin al PIB (SVAM_GDP) se correlaciona

    poco con la componente 1 - Proporcin de productos de mediana y alta tecnologa en las exportaciones de manufacturas

    (SMHTE_ME) se correlaciona poco con la componente 1 - Proporcin de exportaciones manufacturadas del total de exportaciones (SME_TE) se

    correlaciona poco con las componentes 1 y 2.

  • Conclusiones

    - Componente 1. Los pases con valores altos en el valor aadido de la manufactura, la proporcin de productos de mediana y alta tecnologa en las exportaciones de manufactura y proporcin de actividades de mediana y alta tecnologa en el VAM sern bien representados por esta componente. Probablemente sern pases con bien economas consolidadas, con un tejido industrial importante y enfocado en las exportaciones y productos de valor agregado.

    - Componente 2. Los pases con valores altos en la proporcin de manufactura con valor agregado en relacin al PIB, la proporcin de exportaciones manufacturadas del total de exportaciones y exportaciones de productos manufacturados per cpita estarn bien representados por esta dimensin.

  • Matriz de correlaciones entre las variables

    VAM00 MEC00 SVAM_GDP00 SME_TE00 SMHTP_VAM00 SMHTE_ME00

    VAM00 1 0.641 0.344 0.352 0.652 0.671

    MEC00 0.641 1 0.193 0.348 0.473 0.466

    SVAM_GDP00 0.344 0.193 1 0.430 0.502 0.491

    SME_TE00 0.352 0.348 0.430 1 0.358 0.414

    SMHTP_VAM00 0.652 0.473 0.502 0.358 1 0.794

    SMHTE_ME00 0.671 0.466 0.491 0.414 0.794 1

    Valores propios, varianza explicada y varianza acumulada

    Componente Valor propio Varianza explicada Varianza acumulada

    1 3.433 57.222 57.222

    2 0.925 15.417 72.638

    3 0.718 11.970 84.608

    4 0.432 7.198 91.807

    5 0.292 4.867 96.673

    6 0.200 3.327 100.000

    Varianza explicada por cada componente

  • Vectores propios de la matriz de correlaciones

    Variable U1 U2 U3 U4 U5 U6

    VAM00 -0.448 0.352 -0.030 -0.063 0.808 -0.131

    MEC00 -0.372 0.526 0.399 -0.471 -0.440 0.103

    SVAM_GDP00 -0.342 -0.651 -0.188 -0.648 0.045 0.054

    SME_TE00 -0.327 -0.419 0.755 0.370 0.044 -0.092

    SMHTP_VAM00 -0.465 0.015 -0.380 0.259 -0.366 -0.663

    SMHTE_ME00 -0.471 -0.002 -0.300 0.389 -0.124 0.722

    Combinaciones lineales de las primeras dos componentes

    = 0.448 00 0.372 00 0.342 _"#$00 0.327 _%00

    0.465 (%$_00 0.471 (%_00

    = 0.352 00 + 0.526 00 0.651 _"$00 0.419 _%00 + 0.015

    (%$_00 0.002*SMHTE_ME00

    Representacin de los individuos en el plano principal (1,2)

  • Detalle de la representacin del primer plano principal (1,2)

  • Proyeccin de las variables o crculo de correlaciones

    Correlaciones entre las variables y las componentes

    Variable Y1 Y2

    VAM00 -0.830 -0.690

    MEC00 0.338 0.506

    SVAM_GDP00 -0.026 0.338

    SME_TE00 -0.041 -0.309

    SMHTP_VAM00 0.437 -0.238

    SMHTE_ME00 -0.059 0.046

  • Tabla de Datos

    Pais VAM00 MEC00 SVAM_GDP00 SME_TE00 SMHTP_VAM00 SMHTE_ME00

    Pais VAM00 MEC00 SVAM_GDP00 SME_TE00 SMHTP_VAM00 SMHTE_ME00

    1 Albania 120.4 79 10.2 92 9.3 6.5 62 Macao 1128.3 5686 8.6 99 5.9 8.8

    2 Algeria 127.7 196 7 27.1 15.6 2.2 63 Madagascar 26.9 35 11.1 68.7 6.1 2.9

    3 Argentina 1264.4 376 16.5 52.7 30.2 35.3 64 Malawi 17.8 7 11.6 20.3 23.3 18.9

    4 Australia 2410.4 159 11.6 47.8 28.5 36 65 Malaysia 1280.3 3815 32.6 89.3 54.9 76.4

    5 Austria 4362.9 6894 18.2 86.7 36.6 57.5 66 Malta 2006.1 6203 20.2 99.2 40.2 75.4

    6 Bahamas 655.6 1449 4 78.7 27.3 55.8 67 Mauritius 774.1 1234 20.5 98.3 7.5 4.9

    7 Bangladesh 50.2 39 14.7 92.3 21.3 3.3 68 Mexico 1083.5 1471 18.4 86.7 44.6 75.8

    8 Barbados 500.5 975 5.3 95.1 23.6 33.1 69 Mongolia 17.7 124 4.7 63.8 4 1.8

    9 Belgium 3876.1 15972 17.1 88.6 44.8 52.9 70 Morocco 201.2 198 17.6 76 24.8 23.1

    10 Benin 31.8 4 8.8 14 9.8 14.8 71 Mozambique 25.3 7 12 35.2 12 10.4

    11 Bolivia 133.7 106 13.2 60.5 7.9 24.1 72 Namibia 180.4 525 10 75 7.4 6

    12 BosniaHerzeg 117.7 206 9.3 78.6 30.5 29.6 73 Nepal 20.6 21 8.8 72.8 10.1 12

    13 Botswana 146.8 1515 4.1 96.2 21.6 4.1 74 Netherlands 3365.8 9625 13.8 85.1 29.6 60.5

    14 Brazil 700.4 245 20 77.4 36.6 47.8 75 NewZealand 2181.4 1784 15.7 51.8 26.2 27.5

    15 Bulgaria 245 458 15.7 76.6 36.1 26.7 76 Nicaragua 117 35 15.1 27.1 15 10.8

    16 Cambodia 44.5 107 16 98.5 0.3 1 77 Niger 11.4 19 6.8 69.5 19.5 24.3

    17 Cameroon 62.2 18 9.3 14.8 9.7 6.1 78 Nigeria 14.4 0 3.6 0.2 35.9 60.7

    18 Canada 4207.8 6883 18.1 76.4 41.9 60.8 79 Norway 3601.1 359 9.7 26.9 34.7 46.9

    19 CenAfricRep 21.9 16 8.5 78.3 11.4 3.4 80 Oman 413.4 755 5.4 17 11.9 56.3

    20 Chile 870.5 595 17.6 50.3 16.4 13.2 81 Pakistan 70.8 58 13.8 87 29.7 11

    21 China 307.2 182 32.1 92.1 43.1 45.3 82 Panama 372.7 100 9.5 38.3 8.9 12.2

    22 Colombia 289.8 134 14.6 42.6 28.2 36.8 83 Paraguay 199.8 54 15.5 33.4 13.6 5.9

    23 CostaRica 935.9 1024 23.1 73.3 22.1 66.3 84 Peru 296.3 145 14.4 54.7 17.9 5.3

    24 CoteIvoire 142.7 105 21.7 48.6 15 10 85 Philippines 221.4 486 22.2 96.6 34.2 81.1

    25 Cyprus 1037.7 1238 8.9 87.6 13.8 30.4 86 Poland 729.4 726 16.5 88.3 27.5 47.2

    26 CzechRep 1342.7 269 24.3 95.1 27.3 56.5 87 Portugal 1675.4 2284 14.9 95.9 25.6 43.1

    27 Denmark 4182.3 7009 13.9 76 34.6 52.1 88 Qatar 2253.8 2432 7.4 16.7 21.6 37.1

    28 Ecuador 174.8 91 13.6 23.3 8.3 15.8 89 Korea 2855.3 3582 26.1 97.8 53.7 69.6

    29 Egypt 265.1 52 18 74.5 39.5 19.3 90 Moldova 42.8 83 14.2 72.9 8.1 12.9

    30 ElSalvador 488.1 145 23.1 68 23.1 26.4 91 Romania 361.4 429 21.9 92.8 23.6 26.2

  • 31 Eritrea 17.7 3 10.4 60.3 7.7 8.5 92 RussianFed 349.6 271 19.6 38.5 31.5 33.9

    32 Estonia 594 2534 14.8 90.6 17.7 46.8 93 Rwanda 26.5 3 11.3 39.9 6.7 4.8

    33 Ethiopia 6.4 1 5.4 18.3 8.3 0.5 94 SaintLucia 197.1 132 4.3 47.4 11.6 29.9

    34 Fiji 259.2 463 12.8 80 7.7 1.9 95 SaudiArabia 822.3 731 9.7 19.5 54 21.7

    35 Finland 5302.8 8422 22.8 95.9 43.7 54.8 96 Senegal 60.5 36 13 54 28.2 20.9

    36 France 3211.9 4563 14.3 91 51.1 65.3 97 Singapore 5945.4 33314 25.8 97.1 71.4 77.8

    37 Gabon 163.2 368 4.2 18 5.4 2.8 98 Slovakia 782.7 2102 20.9 95.3 33.3 50.7

    38 Georgia 100.4 57 17.3 82.7 20.4 30.9 99 Slovenia 2233.8 4147 23 94.5 40 53.7

    39 Germany 4769.9 5914 20.7 88.5 61 72.2 100 SouthAfrica 521.1 419 17.3 61 28.3 39.8

    40 Ghana 22.9 56 9 66.5 14.6 2.8 101 Spain 2399.4 2467 16.8 87.6 34.7 60.4

    41 Greece 1115.1 756 10.6 75.3 27.6 27.7 102 SriLanka 132.2 196 15.1 78.5 13.8 9.3

    42 Guatemala 222.4 118 13.2 48.7 35.1 29.3 103 Sudan 30.5 38 7.7 76.1 8.5 7.3

    43 Honduras 156.9 73 17 43.5 10.4 16.4 104 Swaziland 331.3 804 24.9 94.3 0.2 13.5

    44 HongKong 1275.5 29613 5.1 97.4 36.8 52.8 105 Sweden 5269.6 9041 19.3 92.2 50 64

    45 Hungary 974.9 2516 20.8 91.5 41.8 73 106 Switzerland 6483.3 10697 18.9 94.3 53.9 66.2

    46 Iceland 3414.5 2507 11.2 37.1 8.5 25.8 107 SyrianArabRep 146.7 44 18 16 9.7 6.4

    47 India 64.7 37 14.3 83.5 43.3 19.8 108 Taiwan 3425.9 6494 23.8 97.5 49.4 71.3

    48 Indonesia 216.4 210 27.7 69.7 31.6 34.1 109 Thailand 676.7 957 33.6 85.5 34.7 59.5

    49 Iran 199.2 42 13.1 9.4 34.7 18.1 110 Yugoslav 306.8 558 17.3 84.7 17.2 16

    50 Ireland 7495.5 18389 29.8 91.7 57.4 57.7 111 TrinidadTobago 446.5 256 7.1 77 28.8 15.8

    51 Israel 2982.4 4821 15.6 96.5 48 50.1 112 Tunisia 372.8 522 18.2 85.4 19.7 24.8

    52 Italy 3571.9 4019 18.7 95.2 40.6 52.9 113 Turkey 395.3 361 13.5 88.6 30.6 31.9

    53 Jamaica 394.9 462 12.7 91.5 18 6.4 114 Uganda 22.4 5 8.9 29.4 9.9 12.1

    54 Japan 8129.6 3598 22.2 95.2 54.2 85.2 115 UK 3921.4 3978 16 84 48.1 67.9

    55 Jordan 226.1 215 13.5 79.9 25.4 49.8 116 Tanzania 17.9 7 6.9 37 12.4 3.9

    56 Kenya 42.9 20 10.3 38.2 21.4 14.8 117 US 5414 248 15.8 89.7 57 74.5

    57 Kuwait 1160.7 3739 6.9 42.2 8.3 11.6 118 Uruguay 1044.4 392 16.9 56.3 14.1 25.2

    58 Latvia 405.8 736 12.3 93.4 13.7 15.3 119 Venezuela 894.1 471 18.5 37 16.9 12.2

    59 Lebanon 577.3 162 11.9 85.7 10.8 24 120 VietNam 74.1 87 18.6 46.8 20.6 21.5

    60 Lesotho 73.4 185 15.2 98.2 17.7 8.1 121 Zambia 31.6 31 10.2 36.7 22.4 5.6

    61 Luxembourg 4677.2 15616 10.1 91.6 9.2 42.6 122 Zimbabwe 79.3 61 13.6 39.8 35.8 30

  • Problema 3 Preguntas Descripcin estadstica de Datos Una empresa que ensambla componentes para computadores desea caracterizar el rendimiento de diferentes modelos de CPU. Para esto mide las siguientes variables:

    - MYCT: tiempo de procesamiento de la mquina en nanosegundos - MMIN: capacidad mnima de la memoria principal en kilobytes - MMAX: capacidad mxima de la memoria principal en kilobytes - CACH: capacidad memoria cache en kilobytes - CHMIN: cantidad mnima de canales en unidades - CHMAX: cantidad mxima de canales en unidades

    Preguntas Se entrega la siguiente informacin: estadsticos descriptivos, matriz de varianzas y covarianzas, matriz de correlaciones, dispersin de los datos e histogramas, box-plots o diagramas de caja. Con base en esta informacin responda las siguientes preguntas:

    1. Interprete cada uno de los estadsticos descriptivos en al menos tres variables. Qu informacin nos entregan?

    2. Interprete la matriz de varianzas y covarianzas. Qu informacin nos entrega esta matriz?

    3. Interprete la matriz de correlaciones. Qu informacin nos entrega esta matriz? 4. Interprete los diagramas de dispersin e histogramas. Qu informacin podemos

    extraer de los diagramas? 5. Interprete los diagramas de caja. Para qu nos sirve la informacin entregada por los

    diagramas de caja?

    Solucin Interpretacin estadsticos descriptivos

    - En general las medias y medianas de todas las variables son muy diferentes. - Medianas siempre menores que las medias. - Valores mximos de las variables muy grandes en comparacin con las medias y valores

    mnimos. - Coeficientes de asimetra todos mayores que 1. - Todos estos resultados confirman la asimetra de la distribucin de las variables. - Los histogramas de las variables debieran mostrar la distribucin de las variables con

    presencia de datos atpicos con valores superiores a la media. - Los coeficientes de kurtosis todos mayores que 3, esto quiere decir un alto apuntalamiento

    (distribucin de datos ms apuntalados que una distribucin normal) y distribucin de los valores en torno a la media y presencia de valores atpicos.

    Estos resultados entonces nos permiten afirmar que la distribucin de los valores que toman las variables se concentra en torno a la media, pero que hay presencia de valores atpicos que se distribuyen sobre la media.

  • Interpretacin de matriz de varianzas y covarianzas

    - La matriz de varianzas y covarianzas nos entrega una medida de la asociacin lineal que

    existe entre las variables. Sin embargo, no considera que las variables estn en diferentes unidades de medida.

    - En general se observa que las varianzas de las variables son muy grandes. - La varianza de la capacidad mxima de la memoria principal (MMAX, kbytes) es mucho ms

    grande que la varianza de la capacidad mnima de la memoria principal (MMIN, kbytes). La varianza de CACH (la capacidad de la memoria en cache de las CPUs, kbytes) es la ms pequea.

    - La varianza de la cantidad mxima de canales (CHMAX) es mucho ms grande que la varianza de la cantidad mnima de canales (CHMIN).

    - La covariacin entre las variables MMIN, MMAX y CACH es positiva y alta, lo que entrega evidencia acerca de una relacin lineal positiva entre estas variables.

    - La covariacin entre la variable MYCT y el resto de las variables es negativa, los valores no son muy altos, esto entrega evidencia a favor de una relacin lineal negativa entre esta variable y las dems.

    Interpretacin de la matriz de correlaciones

    - La matriz de correlaciones entrega una medida de asociacin lineal entre las variables. - Todas las correlaciones son significativas. - Las correlaciones entre la capacidad mnima de la memoria principal de una CPU (MMIN) y

    la capacidad mxima de la memoria principal (MMAX) es alta, 0.758, lo que entrega evidencia a favor de una relacin lineal positiva entre las variables.

    - Las correlaciones entre MMIN y la capacidad de la memoria cache (CACH) y la cantidad mnima de canales (CHMIN) es mediana, 0.535 y 0.517, respectivamente. Esto entrega evidencia a favor de una relacin lineal positiva entre las variables.

    - La correlacin entre CACH y el resto de las variables tambin es moderada. - La variable MYCT, tiempo de procesamiento de la mquina, es la nica variable que tiene

    correlacin negativa con el resto de las variables. La correlacin es de moderada a baja. Interpretacin de diagramas de dispersin e histogramas

    - Los histogramas confirman los resultados obtenidos a travs de los estadsticos

    descriptivos. La distribucin de los valores que toman las variables se concentran en torno a la media y hay presencia de datos atpicos sobre el valor que toma la media.

    - Lo mismo muestran los diagramas de dispersin. En todos los grficos se observa una concentracin de observaciones hacia los valores en torno a la media, ms cerca del valor mnimo que del valor mximo.

    - Tambin en los diagramas de dispersin se observa la presencia de puntos aislados y alejados del resto de los puntos. Algunos de estos puntos pueden ser datos atpicos.

    Interpretacin de diagramas de caja

    - Los diagramas de caja tambin confirman los resultados obtenidos con los estadsticos

    descriptivos. Es posible observar por ejemplo que: o La media es siempre mayor a la mediana en todas las variables. o Los valores que toman las variables estn ms cerca de la media y de los

    valores mnimos que de los mximos. o Las variables toman valores que caen fuera del lmite superior establecido, lo

    que indica presencia de datos atpicos.

  • Estadsticos descriptivos

    Estadstico MYCT MMIN MMAX CACH CHMIN CHMAX

    Media 203.8 2,867.9 11,796.1 25.2 4.6 18.2

    Dev tip 260.2 3,878.7 11,726.5 40.6 6.8 25.9

    Mnimo 17 64 64 0 0 0

    Cuartil inferior 50 768 4,000 0 1 5

    Mediana 110 2,000 8,000 8 2 8

    Cuantil superior 225 4,000 16,000 32 6 24

    Mximo 1,500 32,000 64,000 256 52 176

    N 209 209 209 209 209 209

    Kurtosis 9.8 20.1 8.7 13.0 24.9 18.4

    Asimetra 2.5 3.4 2.1 2.8 3.9 3.5

    Matriz de covarianzas y covarianzas

    MYCT MMIN MMAX CACH CHMIN CHMAX

    MYCT 67,736.8 -338,828.4 -1,155,363.2 -3,394.3 -534.1 -1,694.9

    MMIN -338,828.4 15,044,645.4 34,484,276.5 84,267.1 13,673.7 26,914.1

    MMAX -1,155,363.2 34,484,276.5 137,512,312.1 256,317.4 44,802.7 160,735.9

    CACH -3,394.3 84,267.1 256,317.4 1,650.7 161.2 515.3

    CHMIN -534.1 13,673.7 44,802.7 161.2 46.5 97.2

    CHMAX -1,694.9 26,914.1 160,735.9 515.3 97.2 675.9

    Matriz de correlaciones

    Prob > |r| suponiendo H0: Rho=0

    MYCT MMIN MMAX CACH CHMIN CHMAX

    MYCT 1 -0.336 -0.379 -0.321 -0.301 -0.251

  • Dispersin de los datos e histogramas

  • Box-plots o diagramas de caja