nuevos mÉtodos de anÁlisis multivariantes

8/13/2019 NUEVOS MTODOS DE ANLISIS MULTIVARIANTES

1/285

NUEVOS MTODOS DE ANLISISMULTIVARIANTE

Carles M. Cuadras

21 de junio de 2010


2/285

2

Es propiedad del autor.

cC. M. CuadrasCMC EditionsManacor 3008023 Barcelona, Spain


3/285

ndice general

1. DATOS MULTIVARIANTES 111.1. Introduccin . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11

1.2. Matrices de datos . . . . . . . . . . . . . . . . . . . . . . . . . 111.3. La matriz de centrado . . . . . . . . . . . . . . . . . . . . . . 121.4. Medias, covarianzas y correlaciones . . . . . . . . . . . . . . . 131.5. Variables compuestas . . . . . . . . . . . . . . . . . . . . . . . 141.6. Transformaciones lineales . . . . . . . . . . . . . . . . . . . . . 141.7. Teorema de la dimensin . . . . . . . . . . . . . . . . . . . . . 151.8. Medidas globales de variabilidad y dependencia . . . . . . . . 161.9. Distancias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 171.10. Dos aspectos del clculo matricial . . . . . . . . . . . . . . . . 19

1.10.1. Descomposicin singular . . . . . . . . . . . . . . . . . 191.10.2. Inversa generalizada . . . . . . . . . . . . . . . . . . . 19

1.11. Un ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20

2. NORMALIDAD MULTIVARIANTE 232.1. Introduccin . . . . . . . . . . . . . . . . . . . . . . . . . . . . 232.2. Distribucin normal multivariante . . . . . . . . . . . . . . . . 24

2.2.1. Denicin . . . . . . . . . . . . . . . . . . . . . . . . . 242.2.2. Propiedades . . . . . . . . . . . . . . . . . . . . . . . . 252.2.3. Caso bivariante . . . . . . . . . . . . . . . . . . . . . . 26

2.3. Distribucin de Wishart . . . . . . . . . . . . . . . . . . . . . 272.4. Distribucin de Hotelling . . . . . . . . . . . . . . . . . . . . . 28

2.5. Distribucin de Wilks . . . . . . . . . . . . . . . . . . . . . . . 292.6. Relaciones entre Wilks, Hotelling y F . . . . . . . . . . . . . . 312.7. Distribucin multinomial . . . . . . . . . . . . . . . . . . . . . 322.8. Distribuciones con marginales dadas . . . . . . . . . . . . . . . 322.9. Complementos . . . . . . . . . . . . . . . . . . . . . . . . . . . 34

3


4/285

4 NDICE GENERAL

3. INFERENCIA MULTIVARIANTE 37

3.1. Conceptos bsicos . . . . . . . . . . . . . . . . . . . . . . . . . 373.2. Estimacin de medias y covarianzas . . . . . . . . . . . . . . . 383.3. Tests multivariantes . . . . . . . . . . . . . . . . . . . . . . . . 39

3.3.1. Test sobre la media: una poblacin . . . . . . . . . . . 393.3.2. Test sobre la media: dos poblaciones . . . . . . . . . . 403.3.3. Comparacin de medias . . . . . . . . . . . . . . . . . 40

3.4. Teorema de Cochran . . . . . . . . . . . . . . . . . . . . . . . 413.5. Construccin de tests multivariantes . . . . . . . . . . . . . . 44

3.5.1. Razn de verosimilitud . . . . . . . . . . . . . . . . . . 443.5.2. Principio de unin-interseccin . . . . . . . . . . . . . . 46

3.6. Ejemplos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47

3.7. Anlisis de perles . . . . . . . . . . . . . . . . . . . . . . . . 533.8. Complementos . . . . . . . . . . . . . . . . . . . . . . . . . . . 54

4. ANALISIS DE CORRELACION CANONICA 574.1. Introduccin . . . . . . . . . . . . . . . . . . . . . . . . . . . . 574.2. Correlacin mltiple . . . . . . . . . . . . . . . . . . . . . . . 574.3. Correlacin cannica . . . . . . . . . . . . . . . . . . . . . . . 594.4. Correlacin cannica y descomposicin singular . . . . . . . . 624.5. Signicacin de las correlaciones cannicas . . . . . . . . . . . 634.6. Test de independencia . . . . . . . . . . . . . . . . . . . . . . 63

4.6.1. Razn de verosimilitud . . . . . . . . . . . . . . . . . . 644.6.2. Principio de unin interseccin . . . . . . . . . . . . . . 64

4.7. Ejemplos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 654.8. Complementos . . . . . . . . . . . . . . . . . . . . . . . . . . . 67

5. ANALISIS DE COMPONENTES PRINCIPALES 695.1. Denicin y obtencin de las componentes principales . . . . . 695.2. Variabilidad explicada por las componentes principales . . . . 715.3. Representacin de una matriz de datos . . . . . . . . . . . . . 725.4. Inferencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74

5.4.1. Estimacin y distribucin asinttica . . . . . . . . . . . 75

5.4.2. Tests de hiptesis . . . . . . . . . . . . . . . . . . . . . 765.5. Nmero de componentes principales . . . . . . . . . . . . . . . 785.5.1. Criterio del porcentaje . . . . . . . . . . . . . . . . . . 785.5.2. Criterio de Kaiser . . . . . . . . . . . . . . . . . . . . . 795.5.3. Test de esfericidad . . . . . . . . . . . . . . . . . . . . 79


5/285

NDICE GENERAL 5

5.5.4. Criterio del bastn roto . . . . . . . . . . . . . . . . . . 79

5.6. Biplot . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 805.7. Ejemplos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 815.8. Complementos . . . . . . . . . . . . . . . . . . . . . . . . . . . 85

6. ANLISIS FACTORIAL 876.1. Introduccin . . . . . . . . . . . . . . . . . . . . . . . . . . . . 876.2. El modelo unifactorial . . . . . . . . . . . . . . . . . . . . . . 886.3. El modelo multifactorial . . . . . . . . . . . . . . . . . . . . . 90

6.3.1. El modelo . . . . . . . . . . . . . . . . . . . . . . . . . 906.3.2. La matriz factorial . . . . . . . . . . . . . . . . . . . . 916.3.3. Las comunalidades . . . . . . . . . . . . . . . . . . . . 91

6.3.4. Nmero mximo de factores comunes . . . . . . . . . . 926.3.5. El caso de Heywood . . . . . . . . . . . . . . . . . . . 936.3.6. Un ejemplo . . . . . . . . . . . . . . . . . . . . . . . . 93

6.4. Teoremas fundamentales . . . . . . . . . . . . . . . . . . . . . 956.5. Mtodo del factor principal . . . . . . . . . . . . . . . . . . . 976.6. Mtodo de la mxima verosimilitud . . . . . . . . . . . . . . . 98

6.6.1. Estimacin de la matriz factorial . . . . . . . . . . . . 986.6.2. Hiptesis sobre el nmero de factores . . . . . . . . . . 99

6.7. Rotaciones de factores . . . . . . . . . . . . . . . . . . . . . . 1006.7.1. Rotaciones ortogonales . . . . . . . . . . . . . . . . . . 1006.7.2. Factores oblicuos . . . . . . . . . . . . . . . . . . . . . 1016.7.3. Rotacin oblicua . . . . . . . . . . . . . . . . . . . . . 1026.7.4. Factores de segundo orden . . . . . . . . . . . . . . . . 104

6.8. Medicin de factores . . . . . . . . . . . . . . . . . . . . . . . 1056.9. Anlisis factorial conrmatorio . . . . . . . . . . . . . . . . . . 1066.10. Complementos . . . . . . . . . . . . . . . . . . . . . . . . . . . 108

7. ANALISIS CANONICO DE POBLACIONES 1117.1. Introduccin . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1117.2. Variables cannicas . . . . . . . . . . . . . . . . . . . . . . . . 1127.3. Distancia de Mahalanobis y transformacin cannica . . . . . 114

7.4. Representacin cannica . . . . . . . . . . . . . . . . . . . . . 1157.5. Aspectos inferenciales . . . . . . . . . . . . . . . . . . . . . . . 1177.5.1. Comparacin de medias . . . . . . . . . . . . . . . . . 1177.5.2. Comparacin de covarianzas . . . . . . . . . . . . . . . 1177.5.3. Test de dimensionalidad . . . . . . . . . . . . . . . . . 118


6/285

6 NDICE GENERAL

7.5.4. Regiones condenciales . . . . . . . . . . . . . . . . . . 119

7.6. Complementos . . . . . . . . . . . . . . . . . . . . . . . . . . . 1238. ESCALADO MULTIDIMENSIONAL (MDS) 125

8.1. Introduccin . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1258.2. Cuando una distancia es eucldea? . . . . . . . . . . . . . . . . 1268.3. El anlisis de coordenadas principales . . . . . . . . . . . . . . 1288.4. Similaridades . . . . . . . . . . . . . . . . . . . . . . . . . . . 1318.5. Nociones de MDS no mtrico . . . . . . . . . . . . . . . . . . 1338.6. Distancias estadsticas . . . . . . . . . . . . . . . . . . . . . . 136

8.6.1. Variables cuantitativas . . . . . . . . . . . . . . . . . . 1368.6.2. Variables binarias . . . . . . . . . . . . . . . . . . . . . 137

8.6.3. Variables categricas . . . . . . . . . . . . . . . . . . . 1388.6.4. Variables mixtas . . . . . . . . . . . . . . . . . . . . . 1388.6.5. Otras distancias . . . . . . . . . . . . . . . . . . . . . . 139

8.7. Dos ejemplos . . . . . . . . . . . . . . . . . . . . . . . . . . . 1418.8. Complementos . . . . . . . . . . . . . . . . . . . . . . . . . . . 145

9. ANALISIS DE CORRESPONDENCIAS 1479.1. Introduccin . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1479.2. Cuanticacin de las variables categricas . . . . . . . . . . . 1499.3. Representacin de las y columnas . . . . . . . . . . . . . . . 1509.4. Relacin entre las y columnas y representacin conjunta . . . 1529.5. Soluciones simtrica y asimtrica . . . . . . . . . . . . . . . . 1549.6. Variabilidad geomtrica (inercia) . . . . . . . . . . . . . . . . 1569.7. Analisis de Correspondencias Mltiples . . . . . . . . . . . . . 1599.8. Ejemplos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1619.9. MDS ponderado . . . . . . . . . . . . . . . . . . . . . . . . . . 1659.10. Complementos . . . . . . . . . . . . . . . . . . . . . . . . . . . 168

10.CLASIFICACION 17310.1. Introduccin . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17310.2. Jerarqua indexada . . . . . . . . . . . . . . . . . . . . . . . . 174

10.3. Geometra ultramtrica . . . . . . . . . . . . . . . . . . . . . . 17610.4. Algoritmo fundamental de clasicacin . . . . . . . . . . . . . 18010.5. Equivalencia entre jerarqua indexada y ultramtrica . . . . . 18010.6. Algoritmos de clasicacin jerrquica . . . . . . . . . . . . . . 181

10.6.1. Mtodo del mnimo . . . . . . . . . . . . . . . . . . . . 183


7/285

NDICE GENERAL 7

10.6.2. Mtodo del mximo . . . . . . . . . . . . . . . . . . . . 184

10.7. Otras propiedades del mtodo del mnimo . . . . . . . . . . . 18610.8. Ejemplos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18810.9. Clasicacin no jerrquica . . . . . . . . . . . . . . . . . . . . 19110.10.Nmero de clusters . . . . . . . . . . . . . . . . . . . . . . . . 19210.11.Complementos . . . . . . . . . . . . . . . . . . . . . . . . . . . 193

11.ANALISIS DISCRIMINANTE 19511.1. Introduccin . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19511.2. Clasicacin en dos poblaciones . . . . . . . . . . . . . . . . . 196

11.2.1. Discriminador lineal . . . . . . . . . . . . . . . . . . . 19611.2.2. Regla de la mxima verosimilitud . . . . . . . . . . . . 197

11.2.3. Regla de Bayes . . . . . . . . . . . . . . . . . . . . . . 19711.3. Clasicacin en poblaciones normales . . . . . . . . . . . . . . 19811.3.1. Discriminador lineal . . . . . . . . . . . . . . . . . . . 19811.3.2. Regla de Bayes . . . . . . . . . . . . . . . . . . . . . . 19911.3.3. Probabilidad de clasicacin errnea . . . . . . . . . . 19911.3.4. Discriminador cuadrtico . . . . . . . . . . . . . . . . . 19911.3.5. Clasicacin cuando los parmetros son estimados . . . 20011.3.6. Un ejemplo . . . . . . . . . . . . . . . . . . . . . . . . 200

11.4. Discriminacin en el caso de k poblaciones . . . . . . . . . . . 20311.4.1. Discriminadores lineales . . . . . . . . . . . . . . . . . 20311.4.2. Regla de la mxima verosimilitud . . . . . . . . . . . . 20411.4.3. Regla de Bayes . . . . . . . . . . . . . . . . . . . . . . 20411.4.4. Un ejemplo clsico . . . . . . . . . . . . . . . . . . . . 205

12.DISCRIMINACION LOGISTICA Y BASADA EN DISTAN-CIAS 20712.1. Anlisis discriminante logstico . . . . . . . . . . . . . . . . . . 207

12.1.1. Introduccin . . . . . . . . . . . . . . . . . . . . . . . . 20712.1.2. Modelo de regresin logstica . . . . . . . . . . . . . . . 20812.1.3. Estimacin de los parmetros . . . . . . . . . . . . . . 20912.1.4. Distribucin asinttica y test de Wald . . . . . . . . . 210

12.1.5. Ajuste del modelo . . . . . . . . . . . . . . . . . . . . . 21112.1.6. Curva ROC . . . . . . . . . . . . . . . . . . . . . . . . 21212.1.7. Comparacin entre discriminador lineal y logstico . . . 214

12.2. Anlisis discriminante basado en distancias . . . . . . . . . . . 21712.2.1. La funcin de proximidad . . . . . . . . . . . . . . . . 217


8/285

8 NDICE GENERAL

12.2.2. La regla discriminante DB . . . . . . . . . . . . . . . . 218

12.2.3. La regla DB comparada con otras . . . . . . . . . . . . 21912.2.4. La regla DB en el caso de muestras . . . . . . . . . . . 22012.3. Complementos . . . . . . . . . . . . . . . . . . . . . . . . . . . 222

13.EL MODELO LINEAL 22513.1. El modelo lineal . . . . . . . . . . . . . . . . . . . . . . . . . . 22513.2. Suposiciones bsicas del modelo . . . . . . . . . . . . . . . . . 22613.3. Estimacin de parmetros . . . . . . . . . . . . . . . . . . . . 227

13.3.1. Parmetros de regresin . . . . . . . . . . . . . . . . . 22713.3.2. Varianza . . . . . . . . . . . . . . . . . . . . . . . . . . 228

13.4. Algunos modelos lineales . . . . . . . . . . . . . . . . . . . . . 229

13.4.1. Regresin mltiple . . . . . . . . . . . . . . . . . . . . 22913.4.2. Diseo de un factor . . . . . . . . . . . . . . . . . . . . 23013.4.3. Diseo de dos factores . . . . . . . . . . . . . . . . . . 230

13.5. Hiptesis lineales . . . . . . . . . . . . . . . . . . . . . . . . . 23113.6. Inferencia en regresin mltiple . . . . . . . . . . . . . . . . . 23413.7. Complementos . . . . . . . . . . . . . . . . . . . . . . . . . . . 235

14.ANLISIS DE LA VARIANZA (ANOVA) 23714.1. Diseo de un factor . . . . . . . . . . . . . . . . . . . . . . . . 23714.2. Diseo de dos factores . . . . . . . . . . . . . . . . . . . . . . 23914.3. Diseo de dos factores con interaccin . . . . . . . . . . . . . . 24114.4. Diseos multifactoriales . . . . . . . . . . . . . . . . . . . . . . 24314.5. Modelos log-lineales . . . . . . . . . . . . . . . . . . . . . . . . 244

14.5.1. Ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . . 24714.6. Complementos . . . . . . . . . . . . . . . . . . . . . . . . . . . 248

15.ANLISIS DE LA VARIANZA (MANOVA) 24915.1. Modelo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24915.2. Estimacin de parmetros . . . . . . . . . . . . . . . . . . . . 25015.3. Tests de hiptesis lineales . . . . . . . . . . . . . . . . . . . . 25315.4. Manova de un factor . . . . . . . . . . . . . . . . . . . . . . . 255

15.5. Manova de dos factores . . . . . . . . . . . . . . . . . . . . . . 25615.6. Manova de dos factores con interaccin . . . . . . . . . . . . . 25715.7. Ejemplos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25815.8. Otros criterios . . . . . . . . . . . . . . . . . . . . . . . . . . . 26115.9. Complementos . . . . . . . . . . . . . . . . . . . . . . . . . . . 262


9/285

NDICE GENERAL 9

16.FUNCIONES ESTIMABLES MULTIVARIANTES 263

16.1. Funciones estimables . . . . . . . . . . . . . . . . . . . . . . . 26316.2. Teorema de Gauss-Markov . . . . . . . . . . . . . . . . . . . . 26416.3. Funciones estimables multivariantes . . . . . . . . . . . . . . . 26516.4. Anlisis cannico de fpem . . . . . . . . . . . . . . . . . . . . 266

16.4.1. Distancia de Mahalanobis . . . . . . . . . . . . . . . . 26616.4.2. Coordenadas cannicas . . . . . . . . . . . . . . . . . . 26716.4.3. Regiones condenciales . . . . . . . . . . . . . . . . . . 268

16.5. Ejemplos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26816.6. Complementos . . . . . . . . . . . . . . . . . . . . . . . . . . . 271


10/285

10 NDICE GENERAL

P ROLOGO

El Anlisis Multivariante es un conjunto de mtodos estadsticos y matem-ticos, destinados a describir e interpretar los datos que provienen de la ob-servacin de varias variables estadsticas, estudiadas conjuntamente.

Este libro es una presentacin convencional de los principales modelos ymtodos del Anlisis Multivariante, con referencias a algunas contribucionesrecientes.

La exposicin mantiene un cierto rigor matemtico, compensado con una

clara orientacin aplicada. Todos los mtodos se ilustran con ejemplos, quejustican su aplicabilidad. Para examinar los datos y ver ms ejemplos con-sltese la pgina web

www:ub:edu=stat=cuadras=cuad:html

Esta obra tiene como precedentes la monograa Mtodos de Anlisis Fac-torial (Pub. no. 7, Laboratorio de Clculo, Universidad de Barcelona, 1974),y el libro Mtodos de Anlisis Multivariante (EUNIBAR, 1981; PPU, 1991;EUB, 1996, Barcelona).

El autor se reserva el derecho de ampliar el texto e introducir mejoras.La primera versin apareci en 2007. La segunda versin (2010) contienecorrecciones, ampliaciones y un ndice alfabtico.

Cmo citar este libro:

C. M. CuadrasNuevos Mtodos de Anlisis MultivarianteCMC EditionsBarcelona, 2010


11/285

Captulo 1

DATOS MULTIVARIANTES

1.1. Introduccin

El anlisis multivariante (AM) es la parte de la estadstica y del anlisisde datos que estudia, analiza, representa e interpreta los datos que resultende observar un nmerop >1de variables estadsticas sobre una muestra denindividuos. Las variables observables son homogneas y correlacionadas, sinque alguna predomine sobre las dems. La informacin estadstica en AM es

de carcter multidimensional, por lo tanto la geometra, el clculo matricialy las distribuciones multivariantes juegan un papel fundamental.

La informacin multivariante es una matriz de datos, pero a menudo, enAM la informacin de entrada consiste en matrices de distancias o similari-dades, que miden el grado de discrepancia entre los individuos. Comenzare-mos con las tcnicas que se basan en matrices de datos.

1.2. Matrices de datos

Supongamos n individuos!1; : : : ; !n y p variablesX1; : : : ; X p:Sea xij =Xj(!i)la observacin de la variable Xj sobre el individuo !i:La matriz de

11


12/285

12 CAPTULO 1. DATOS MULTIVARIANTES

datos multivariantes es

X =

0BBBBB@x11 x1j x1p... . . . ... . . . ...xi1 xij xip...

. . . ...

. . . ...

xn1 xnj xnp

1CCCCCALas las de Xse identican con los individuos y las columnas de Xcon lasvariables. Indicaremos:

1. xi la la i-sima de X:

2. Xj

la columna j-sima de X:

3. x = (x1; : : : ; xj; : : : ; xp)0 el vector (la) de las medias de las variables,siendo

xj = 1

n

nXi=1

xij :

4. La matriz simtrica p pde covarianzas muestrales

S =

0

BB@s11 s12 s1ps21 s22 s2p

: : : : : :

sp1 sp2 spp

1

CCA;

siendo

sjj 0 = 1

n

nXi=1

(xij xj)(xij0 xj0)

la covarianza entre las variablesj; j0:Naturalmente,x y Sson medidasmultivariantes de tendencia central y dispersin.

1.3. La matriz de centrado

Si 1 =(1; : : : ; 1)0es el vector columna de unos de orden n 1, y J = 110es la matriz n nde unos, ciertas caractersticas multivariantes se expresanmejor a partir de la matriz de centrado H;denida como

H = I 1n

J


13/285

1.4. MEDIAS, COVARIANZAS Y CORRELACIONES 13

Propiedades:

H0= H:

H2 = H:

H1 = 10H = 0:

rang(H) =n 1:Los valores propios de Hson 0 1:

X= HX es la matriz de datos centrados (las columnnas de Xsuman0).

1.4. Medias, covarianzas y correlaciones

El vector de medias, la matriz de covarianzas, etc., tienen expresionesmatriciales simples.

1. x0= 1n

10X:

2. Matriz de datos centrados:

X= X 1x0= HX:

3. Matriz de covarianzas:

S =1

nX0X =

1

nX0HX:

4. Matriz de correlaciones:

El coeciente de correlacin entre las variables j; j0viene dado por

rjj 0 = sjj 0

sjsj0;

siendo sj; sj0 las desviaciones tpicas. Adems de la matriz de covarianzas

interesa tambin la matriz de correlaciones

R =

0BB@1 r12 r1p

r21 1 r2p: : : : : :

rp1 rp2 1

1CCA ;


14/285


donde rij =cor(Xi; Xj) es el coeciente de correlacin (muestral) entre las

variablesXi; Xj ;que verica:R = D1SD1; S = DRD; (1.1)

siendo Dla matriz diagonal con las desviaciones tpicas de las variables.

1.5. Variables compuestas

Algunos mtodos de AM consisten en obtener e interpretar combina-ciones lineales adecuadas de las variables observables. Una variable compues-ta Yes una combinacin lineal de las variables observables con coecientes

a = (a1; : : : ; ap)0 Y =a1X1+ + apXp:Si X =[X1; : : : ; X p]es la matriz de datos, tambin podemos escribir

Y = Xa:

SiZ=b1X1+ + bpXp = Xbes otra variable compuesta, se verica:1. Y = x0a; Z=x0b:

2. var(Y) = a0Sa, var(Z) = b0Sb:

3. cov(Y; Z) = a0Sb:

Ciertas variables compuestas reciben diferentes nombres segn la tc-nica multivariante: componentes principales, variables cannicas, funcionesdiscriminantes, etc. Uno de los objetivos del Anlisis Multivariante es encon-trar variables compuestas adecuadas que expliquen aspectos relevantes de losdatos.

1.6. Transformaciones lineales

SeaTuna matrizp

q:Una transformacin lineal de la matriz de datos

esY= XT:

Las columnasY1; : : : ; Y q de Yson las variables transformadas.

Propiedades:


15/285


16/285


Por lo tanto

Xj rXi=1

aiXi= c =) Xj =c +rXi=1

aiXi

dondec es una constante.

Corolario 1.7.2 Si todas las variables tienen varianza positiva (es decir,ninguna se reduce a una constante) y r = rang(R) p; hay r variableslinealmente independientes y las otrasp r son combinacin lineal de estasr variables.

Demost.: De (1.1) deducimos que r = rang(R) =rang(S):

1.8. Medidas globales de variabilidad y de-pendencia

Una medida de la variabilidad global de las pvariables debe ser funcinde la matriz de covarianzas S:Sean 1; : : : ; p los valores propios de S:Lassiguientes medidas tienen especial inters en AM.

a) Varianza generalizada:

jS

j=1

p:

b) Variacin total:tr(S) =1+ + p

Una medida de dependencia global debe ser funcin de la matriz de cor-relaciones R:Un coeciente de dependencia es

2 = 1 jRj;

que verica:

1. 0 2 1:2. 2 = 0si y slo si las p variables estan incorrelacionadas.

3. 2 = 1si y slo si hay relaciones lineales entre las variables.


17/285

1.9. DISTANCIAS 17

Demost.:

1. Sean 1; : : : ; p los valores propios de R

. Si g y a son las medias ge-omtrica y aritmtica de p nmeros positivos, se verica g a:Entonces, detr(R) =p

(jRj)1=p= (1 p)1=p (1+ + p)=p= 1y por lo tanto 0 det(R) 1:

2. R = I (matriz identidad) si y slo si las p variables estn incorrela-cionadas y entonces1 jIj =0:

3. Si 2 = 1; es decir,jRj =0; entonces rang(R)


18/285


Observaciones

Un cambio de escala de una variableXjes una transformacinYj =Xj ;donde es una constante. La distanciadMes muy adecuada en AM debidoa que verica:

a)dEsupone implcitamente que las variables son incorrelacionadas y no esinvariante por cambios de escala.

b) dPtambin supone que las variables estn incorrelacionadas pero es in-variante por cambios de escala.

c)dMtiene en cuenta las correlaciones entre las variables y es invariante portransformaciones lineales no singulares de las variables, en particularcambios de escala.

Las distanciasdEydPson casos particulares de dMcuando la matriz decovarianzas es la identidad Ipy diag(S), respectivamente. En efecto:

dE(i; j)2 = (xi xj)0(xi xj);

dP(i; j)2 = (xi xj)0[diag(S)]1(xi xj):

La distancia de Mahalanobis (al cuadrado) puede tener otras versiones:

1. Distancia de una observacin xial vector de medias xde X :

(xi x)0S1(xi x)

2. Distancia entre dos poblaciones representadas por dos matrices de datosXn1p; Yn2p :

(x y)0S1(x y);

donde x; yson los vectores de medias y

S = (n1S1+ n2S2)=(n1+ n2)

es la media ponderada de las correspondientes matrices de covarianzas.


19/285

1.10. DOS ASPECTOS DEL CLCULO MATRICIAL 19

1.10. Dos aspectos del clculo matricial

1.10.1. Descomposicin singular

SeaA un matriz de ordenm nconm n:Se llama descomposicin envalores singulares de Aa

A = UDsV0

donde Ues matriz m ncuyas columnas son vectores ortonormales, Ds esuna matriz diagonal n ncon los valores singulares

s1 sr sr+1= =sn = 0;y Ves una matriz n

nortogonal. Se verica:

1. El rango de Aes el nmero r de valores singulares positivos.

2. Ucontiene los vectores propios (unitarios) de AA0;siendo U 0U = In:

3. V contiene los vectores propios (unitarios) de A0A; siendo V0V =VV0= In:

4. Si m = n y A es simtrica, entonces U = V y A = UDsU0 es ladesocmposicin espectral de A: Los valores singulares son los valorespropios de A:

1.10.2. Inversa generalizada

Si A es una matriz cuadrada de orden nn no singular, es decir, rang(A) =n;existe la matriz inversa A1 tal que

AA1 = A1A = In:

Si el rango es rang(A) =r < n;o A no es matriz cuadrada, la inversa noexiste, pero existe la inversa generalizada o g-inversa A:

Sea A un matriz de orden mncon m n: Se llama inversa generalizadade Ao g-inversa, a una matriz A que verica:

AAA = A:

La g-inveresa no es nica, pero si A verica adems:

AAA= A; (AA)0 = AA (AA)0 = AA;


20/285


entonces la g-inversa A es nica.

Sea rang(A

) =r yA

=UD

sV0la descomposicin singular de

A;con

Ds = diag(s1; : : : ; sr; 0; : : : ; 0):

EntoncesDs =diag(s

11 ; : : : ; s

1r ; 0; : : : ; 0):

y la matriz m nA= VDs U

0

es una g-inversa de A:En efecto,

AAA = UDsV0VDs U

0UDsV0= A:

1.11. Un ejemplo

Ejemplo 1.11.1

La Tabla 1.1 contiene los datos de n = 28alcornoques y p = 4variables,que miden los depsitos de corcho (en centigramos) en cada uno de los cuatropuntos cardinales: N, E, S, W.

Medias, covarianzas y correlaciones

Vector de medias

x0=(50;536; 46;179; 49;679; 45;179)

Matriz de covarianzas (dividiendo por n)

S =

0BB@280 216 278 218

212 221 165337 250

218

1CCAMatriz de correlaciones

R =

0BB@1 0;885 0;905 0;883

1 0;826 0;7691 0;923

1

1CCA


21/285

1.11. UN EJEMPLO 21

N E S W N E S W72 66 76 77 91 79 100 7560 53 66 63 56 68 47 5056 57 64 58 79 65 70 6141 29 36 38 81 80 68 5832 32 35 36 78 55 67 6030 35 34 26 46 38 37 3839 39 31 27 39 35 34 3742 43 31 25 32 30 30 3237 40 31 25 60 50 67 5433 29 27 36 35 37 48 3932 30 34 28 39 36 39 31

63 45 74 63 50 34 37 4054 46 60 52 43 37 39 5047 51 52 43 48 54 57 43

Tabla 1.1: Depsitos de corcho (centigramos) de 28 alcornoques en las cuatrodirecciones cardinales.

Variables compuestas

Las siguientes variables compuestas explican diferentes aspectos de lavariabilidad de los datos:

Media VarianzaContraste eje N-S con eje E-W: Y1= N+ S E W 8.857 124.1Contraste N-S: Y2= N S 0.857 61.27Contraste E-W: Y3= E W 1.000 99.5

Variables normalizadasUna variable compuesta est normalizada si la suma de cuadrados de

sus coecientes es 1. La normalizacin evita que la varianza tome un valorarbitrario. La normalizacin de Y1; Y2; Y3dar:

Media Varianza:

Z1 = (N+ S E W)=2 4.428 31.03Z2 = (N S)=

p2 0.606 30.63

Z3 = (E W)=p

2 0.707 49.75

Interpretacin


22/285


Figura 1.1: Distribucin de las variables N, E, S, W y relaciones entre cadapar de variables de la Tabla 1.1.

La normalizacin de las variables consigue que estas tengan varianzasms homogneas. La principal direccin de variabilidad aparece al hacer lacomparacin del eje N-S con el eje E-W.

Visualizacin de datos

En los captulos siguientes veremos mtodos y tcnicas de visualizacin dedatos multivariantes. Como norma general es conveniente, antes de realizarel anlisis, examinar y revisar los datos. La Figura 1.1 contiene un grcoque permite visualizar la distribucin de las 4 variables de la Tabla 1.1 y lasrelaciones lineales, o regresin lineal, entre cada par de variables.


23/285

Captulo 2

NORMALIDADMULTIVARIANTE

2.1. Introduccin

Los datos en AM suelen provenir de una poblacin caracterizada poruna distribucin multivariante. Sea X =(X1; : : : ; X p)un vector aleatorio condistribucin absolutamente continua y funcin de densidadf(x1; : : : ; xp):Esdecir, fverica:

1)f(x1; : : : ; xp) 0;para todo (x1; : : : ; xp) 2 Rp:2) RRpf(x1; : : : ; xp)dx1 dxp = 1:Conocidaf(x1; : : : ; xp)podemos encontrar la funcin de densidad de cada

variable marginal Xj mediante la integral

fj(xj) =

Z f(x1; : : : ; xj; : : : ; xp)dx1 dxj1dxj+1 dxp:

Como en el caso de una matriz de datos, es importante el vector de medias

= (E(X1); : : : ; E (Xp))0;

donde E(Xj) es la esperanza de la variable marginal Xj; y la matriz decovarianzas = (ij); siendo ij =cov(Xi; Xj); ii =var(Xi): Teniendo en

cuenta que los elementos de la matriz (X)(X)0; de orden p p; son(Xi i)(Xj j) y que cov(Xi; Xj) =E(Xi i)(Xj j);la matriz decovarianzas = (ij)es

= E((X)(X)0):

23


24/285

24 CAPTULO 2. NORMALIDAD MULTIVARIANTE

En este captulo introducimos y estudiamos la distribucin normal mul-

tivariante y tres distribuciones relacionadas con las muestras multivariantes:Wishart, Hotelling y Wilks.

2.2. Distribucin normal multivariante

2.2.1. Denicin

Sea Xuna variable aleatoria con distribucin N(; 2); es decir, con mediay varianza 2:La funcin de densidad de Xes:

f(x; ;

2

) =

1

p2 e1

2(x

)2=2

=

(2)1=2

p2 e1

2(x

) 1

2(x

)

(2.1)

Evidentemente se verica:

X= + Y donde Y N(0; 1): (2.2)Vamos a introducir la distribucin normal mutivariante Np(; ) como

una generalizacin de la normal univariante. Por una parte, (2.1) sugieredenir la densidad de X = (X1; : : : ; X p)0 Np(; )segn:

f(x; ; ) =jj1=2

(p2)p

e1

2(x)01(x); (2.3)

siendo x = (x1; : : : ; xp)0; = (1; : : : ; n)0 y = (ij) una matriz denida

positiva, que como veremos, es la matriz de covarianzas. Por otra parte,(2.2) sugiere denir la distribucin X= (X1; : : : ; X p)0 Np(; )como unacombinacin lineal de pvariablesY1; : : : ; Y p independientes con distribucinN(0; 1):

X1 =1+ a11Y1+ + a1pYp...

...Xp =p+ ap1Y1+ + appYp

(2.4)

que podemos escribir como X =+AY (2.5)

donde A = (aij)es una matriz p qque verica AA0= :

Proposicin 2.2.1 Las dos deniciones (2.3) y (2.4) son equivalentes.


25/285

2.2. DISTRIBUCIN NORMAL MULTIVARIANTE 25

Demost.: Segn la frmula del cambio de variable

fX(x1; : : : ; xp) =fY(y1(x); : : : ; yp(x))@y@x

siendo yi = yi(x1; : : : ; xp),i = 1; : : : ; p, el cambio y J= @y@x

el jacobiano delcambio. De (2.5) tenemos

y= A1(x ) )@y@x = jA1j

y como las variables YisonN(0; 1) independientes:

fX(x1; : : : ; xp) = (1=p2)pe12P

pi=1 y

2i jA1j: (2.6)

Pero1 = (A1)0(A1)y por lo tanto

y0y= (x )0(A1)0(A1)(x ) = (x )01(x ): (2.7)

Substituyendo (2.7) en (2.6) y dejA1j2 = jj1 obtenemos (2.3).

2.2.2. Propiedades

1. De (2.5) es inmediato que E(X) =y que la matriz de covarianzas es

E((X)(X)0) =E(AYY0A0) = AIpA0= :

2. La distribucin de cada variable marginal Xies normal univariante:

Xi N(i; ii); i= 1; : : : ; p :

Es consecuencia de la denicin (2.4).

3. Toda combinacin lineal de las variables X1; : : : ; X p

Z=b0+ b1X1+ + bpXpes tambin normal univariante. En efecto, de (2.4) resulta que Z escombinacin lineal de N(0; 1) independientes.


26/285


4. Si =diag(11; : : : ; pp) es matriz diagonal, es decir,ij = 0; i 6=j;en-

tonces las variables(X1; : : : ; X p)son estocsticamente independientes.En efecto, la funcin de densidad conjunta resulta igual al producto delas funciones de densidad marginales:

f(x1; : : : ; xp; ; ) = f(x1; 1; 11) f(xp; p; pp)

5. La distribucin de la forma cuadrtica

U= (x )1(x )0

es ji-cuadrado conpgrados de libertad. En efecto, de (2.5)U= YY0 =

Ppi=1 Y

2i es suma de los cuadrados de p variables N(0; 1) independi-

entes.

2.2.3. Caso bivariante

Cuando p = 2; la funcin de densidad de la normal bivariante se puedeexpresar en funcin de las medias y varianzas 1;

21; 2;

22 y del coeciente

de correlacin =cor(X1; X2) :

f(x1; x2) =1

212p

12exp[1

21

12f (x11)2

21

2 (x11)1

(x22)2

+ (x22)2

22

;

siendo1<


27/285

2.3. DISTRIBUCIN DE WISHART 27

Figura 2.1: Funcin de densidad de una distribucin normal bivariante de

medias 1 y 1, desviaciones tpicas 2 y 2, coeciente de correlacin 0.8.

2.3. Distribucin de Wishart

La distribucin de Wishart es la que sigue una matriz aleatoria simtricadenida positiva, generaliza la distribucin ji-cuadrado y juega un papel im-portante en inferencia multivariante. Un ejemplo destacado lo constituye ladistribucin de la matriz de covarianzas S;calculada a partir de una matrizde datos donde las las son observaciones normales multivariantes.

Denicin

Si las las de la matriz Znpson independientes Np(0; )entonces diremosque la matriz Q = Z0Zes Wishart Wp(; n);con parmetros y ngradosde libertad.

Textos avanzados prueban que cuando es denida positiva y n p;ladensidad de Qes

f(Q) =cjQj(np1) exp(12

tr(1Q));

siendoc1 = 2np=2p(p1)=4jjn=2

pQi=1

(1

2(n + 1 i):

Propiedades:


28/285


1. Si Q1; Q2son independientes WishartWp(; m); Wp(; n);entonces la

sumaQ

1+Q

2es tambin Wishart Wp(; m + n):2. Si Qes Wishart Wp(; n);y separamos las variables en dos conjuntos

y consideramos las particiones correspondientes de las matrices y Q

=

11 1221 22

; Q =

Q11 Q12Q21 Q22

;

EntoncesQ11esWp(11; n)y Q22 esWp(22; n):

3. Si Qes Wishart Wp(; n)y Tes una matriz p qde constantes, en-tonces T0QT esWq(T0T; n):En particular, si t es un vector, entonces

t0Qttt

es 2n:

2.4. Distribucin de Hotelling

Es una generalizacin multivariante de la distribucin t de Student.

Denicin

Si y es Np(0; I); Q es Wishart Wp(I; m)y adems y; Q son independientes,entoncesT2 =my0Q1y

sigue la distribucin T2 de Hotelling, que se indica por T2(p; m):

Propiedades:

1. Si xes Np(;)independiente de Mque esWp(; m), entonces

T2 =m(x)0M1(x) T2(p; m):

2. T2 est directamente relacionada con la distribucin de Fisher-Snedecor

T2(p; m) mpm p + 1 F

pmp+1:


29/285

2.5. DISTRIBUCIN DE WILKS 29

3. Si x; Sson el vector de medias y la matriz de covarianzas de la matrizXnpcon las independientesNp(; );entonces

(n 1)(x)0S1(x) T2(p; n 1);

y por lo tanton p

p (x)0S1(x) Fpnp:

4. Si x; S1;y; S2 son el vector de medias y la matriz de covarianzas delas matrices Xn1p; Yn2p; respectivamente, con las independientesNp(; );y consideramos la estimacin conjunta centrada de

eS= (n1S1+ n2S2)=(n1+ n2 2);entonces

T2 = n1n2n1+ n2

(xy)0eS1(x y) T2(p; n1+ n2 2)y por lo tanto

n1+ n2 1 p(n1+ n2 2)pT

2 Fpn1+n21p:

2.5. Distribucin de WilksLa distribucin F con m y n grados de libertad surge considerando elcociente

F =A=m

B=n;

dondeA; Bsn ji-cuadrados estocsticamente independientes conmy ngra-dos de libertad. Si consideramos la distribucin

= A

A + B;

la relacin entre y Fm

n ;as como la inversa Fn

m, es

Fmn = n

m

1 ; Fnm=

m

n

1

:

La distribucin de Wilks generaliza esta relacin.


30/285


Denicin

Si las matrices A; B de ordenpp son independientes Wishart Wp(; m); Wp(; n),respectivamente, conm p;la distribucin del cociente de determinantes

= jAjjA + Bj

es, por denicin, la distribucin lambda de Wilks, que indicaremos por(p; m; n):Propiedades:

1. 0 1 y adems no depende de : Por lo tanto, podemosestudiarla suponiendo = I:

2. Su distribucin es equivalente a la del producto de n variables betaindependientes:

(p; m; n) nQi=1

Ui;

dondeUies betaB(12(m + i p); 12p):(Obsrvese que debe serm p):3. Los parmetros se pueden permutar manteniendo la misma distribu-

cin. Concretamente:

(p; m; n) (n; m + n p; p):4. Para valores 1 y 2 de p y n; la distribucin de equivale a laF;segn

las frmulas1

mn

Fnm (p= 1)1

mp+1p

Fpmp+1 (n= 1)1

pp

m1n

F2n2(m1) (p= 2)1

pp

mp+1p F

2p2(mp+1) (n= 2)

(2.8)

5. En general, una transformacin deequivale, exacta o asintticamente,a la distribucin F:Si(p; nq; q)es Wilks con nrelativamente grande,consideremos

F =ms 2

pq

1 1=s

1=s (2.9)

con m=n(p+q+1)=2, = (pq2)=4; s=p

(p2q2 4)=(p2 + q2 5):EntoncesF sigue asintticamente la distribucin F conpqy (ms2)g. de lib. (Rao, 1973, p.556).


31/285

2.6. RELACIONES ENTRE WILKS, HOTELLING Y F 31

0.0 0.2 0.4 0.6 0.8 1.00.00

0.05

0.10

0.15

0.20

x

y

Figura 2.2: Un ejemplo de funcin de densidad lambda de Wilks.

2.6. Relaciones entre Wilks, Hotelling y F

A. Probemos la relacin entreyFcuandop= 1:SeanA 2m; B 2nindependientes. Entonces =A=(A + B) (1; m ; n)y F = (n=m)A=B=(n=m)F Fmn : Tenemos que = (A=B)=(A=B+ 1) = F =(1 +F); luegoF = =(1) ) (n=m)=(1) Fmn : Mas si F Fmn entonces1=F Fnm:Hemos demostrado que:

1 (1;m;n)

(1; m ; n)

m

nFnm: (2.10)

B. Recordemos que y es un vector columna y por lo tanto yy 0es una matrizp p. Probemos la relacin entre las distribuciones T2 y F: Tenemos T2 =my0Q1y;donde Qes Wp(I;m);y yy0esWp(I;1):Se cumple

jQ + yy0j = jQjj1+y0Q1yj;

que implica1+y0Q1y= jQ + yy0j=jQj = 1=;

donde = jQj=jQ + yy0j (p; m; 1) (1; m+1p; p): Adems y0Q1

y=1= 1 = (1 )=:De (2.10) tenemos que y0Q1y(m + 1 p)=p Fpm+1py por lo tanto

T2 =my0Q1y mpm + 1 p F

pm+1p:


32/285


2.7. Distribucin multinomial

Supongamos que la poblacin es la reunin disjunta de k sucesos ex-cluyentesA1; : : : ; Ak;

=A1+ + Ak;con probabilidades positivasP(A1) =p1; : : : ; P (Ak) =pk;vericando

p1+ +pk = 1:

Consideremosnobservaciones independientes y sea(f1; : : : ; f k)el vector conlas frecuencias observadas de A1; : : : ; Ak;siendo

f1+ + fk =n: (2.11)La distribucin multinomial es la distribucin de f= (f1; : : : ; f k)con funcinde densidad discreta

p(f1; : : : ; f k) = n!

n1! nk!pf11 pfkk :

En el casok = 2tenemos la distribucin binomial.Indiquemos p = (p1; : : : ; pk)0:1. El vector de medias de f es = np:2. La matriz de covarianzas de f es C =n[diag(p)

pp0):Es decir:

cii =npi(1 pi);cij = npipj sii 6=j:

Puesto que C1 = 0; la matriz C es singular. La singularidad se debe aque se verica (2.11). Una g-inversa de Ces (vase Seccin 1.10):

C= diag(p11 ; : : : ; p1k ): (2.12)

2.8. Distribuciones con marginales dadas

SeaH(x; y)la funcin de distribucin bivariante de dos variables aleato-rias (X; Y):La funcinHes

H(x; y) =P(X x; Y y):


33/285

2.8. DISTRIBUCIONES CON MARGINALES DADAS 33

Consideremos las distribuciones marginales, es decir las distribuciones uni-

variantes de Xy deY :F(x) =P(X x) =H(x; 1);G(y) =P(Y y) =H(1; y):

Un procedimiento para la obtencin de modelos de distribuciones bivariantesconsiste en encontrar Ha partir deF; Gy posiblemente algn parmetro.

Si suponemosX; Yindependientes, una primera distribucin es

H0(x; y) =F(x)G(y):

M. Frchet introdujo las distribuciones bivariantes

H(x; y) = maxf

F(x) + G(y)

1; 0g

;H+(x; y) = mnfF(x); G(y)g

y demostr la desigualdad

H(x; y) H(x; y) H+(x; y):Cuando la distribucin esH;entonces se cumple la relacin funcional entreX; Y

F(X) + G(Y) = 1:

y la correlacin (si existe) es mnima. Cuando la distribucin es H+,entonces se cumple la relacin funcional entreX; Y

F(X) =G(Y)

y la correlacin (si existe) + es mxima. Previamente W. Hoeding habaprobado la siguiente frmula para la covarianza

cov(X; Y) =ZR2

(H(x; y) F(x)G(y))dxdy

y demostrado la desigualdad

+;donde ; y + son las correlaciones entre X; Y cuando la distribucin

bivariante esH; HyH+

;respectivamente.Posteriormente, diversos autores han propuesto distribuciones bivariantesparamtricas a partir de las marginales F; G, que en algunos casos contienen aH; H0 yH+:EscribiendoF;G; Hpara indicarF(x); G(y); H(x; y);algunasfamilias son:


34/285


1. Farlie-Gumbel-Morgenstern:

H =F G[1 + (1 F)(1 G)]; 1 1:

2. Clayton-Oakes:

H= [F + G 1]1=; 1 < 1:

3. Ali-Mikhail-Haq:

H = F G=[1 (1 F)(1 G)] 1 1:

4. Cuadras-Aug:

H = (mnfF; Gg)(F G)1; 0 1:

5. Familia de correlacin:

H(x; y) =F(mnfx; yg) + (1 )F(x)J(y); 1 1;

siendo J(y) = [G(y) F(y))=(1 )una funcin de distribucin uni-variante.

2.9. Complementos

La distribucin normal multivariante es, con diferencia, la ms utilizadaen anlisis multivariante. Textos como Anderson (1956), Rao (1973), Rencher(1995, 1998), se basan, casi exclusivamente, en la suposicin de normalidad.Ms recientemente se han estudiado generalizaciones, como las distribucioneselpticas, cuya densidad es de la forma

f(x) = jj1=2g((x)01(x));

donde g es una funcin positiva creciente. Otras distribuciones importantesson la multinomial y la Dirichlet.

Cuando se estudiaron muestras normales multivariantes, pronto se plantela necesidad de encontrar la distribucin de la matriz de covarianzas, y de


35/285

2.9. COMPLEMENTOS 35

algunos estadsticos apropiados para realizar tests multivariantes. As fue co-

mo J. Wishart, H. Hotelling y S. S. Wilks propusieron las distribuciones quellevan sus nombres, en los aos 1928, 1931 y 1932, respectivamente.El estudio de las distribuciones con marginales dadas proporciona un

mtodo de construccin de distribuciones univariantes y multivariantes. Al-gunas referencias son: Hutchinson y Lai (1990), Joe (1997), Nelsen (1999),Cuadras y Aug (1981), Cuadras (1992a, 2006, 2009). La frmula de Hoed-ing admite la siguiente generalizacin (Cuadras, 2002):

cov((X); (Y)) =ZR2

(H(x; y) F(x)G(y))d(x)d(y):

Vase tambin Quesada-Molina (1992).


36/285



37/285

Captulo 3

INFERENCIAMULTIVARIANTE

3.1. Conceptos bsicos

Seaf(x;)un modelo estadstico. La funcin score se dene como

z(x;) =@

@log f(x;):

Una muestra multivariante est formada por las nlas x01; : : : ; x0p indepen-

dientes de una matriz de datos Xnp:La funcin de verosimilitud es

L(X;) =nYi=1

f(xi;):

La funcin score de la muestra es

z(X;) =nXi=1

@

@log f(xi;):

La matriz de informacin de Fisher F() es la matriz de covarianzas dez(X;):Cuando un modelo estadstico es regular se verica:

a)E(z(X;)) = 0:

b)F() =E(z(X;)z(X;)0):Un estimador t(X) de es insesgado si E(t(X)) = : La desigualdadde Cramr-Rao dice que si cov(t(X)) es la matriz de covarianzas de t(X),entonces

cov(t(X)) F()1;

37


38/285

38 CAPTULO 3. INFERENCIA MULTIVARIANTE

en el sentido de que la diferencia cov(t(X))F()1 es una matriz semi-

denida positiva.Un estimadorbdel parmetro desconocido es mximo verosmil si max-imiza la funcinL(X;):En condiciones de regularidad, podemos obtenerbresolviendo la ecuacin

nXi=1

@

@log f(xi;) = 0:

Entonces el estimador mximo verosmilbnobtenido a partir de una muestrade tamaon satisface:

a) Es asintticamente normal con vector de medias y matriz de covar-ianzas (nF1())

1;donde F1() es la matriz de informacin de Fisher parauna sola observacin.

b) Si t(X) es estimador insesgado de tal que cov(t(X)) = (nF1())1;

entoncesbn = t(X):c)bnconverge en probabilidad a :

3.2. Estimacin de medias y covarianzas

Si las nlas x01; : : : ; x0n de Xnp son independientes Np(; ) la funcin

de verosimilitud es

L(X;; ) = det(2)n=2 exp(12

nXi=1

(xi )1(xi )0)Se vericaPn

i=1(xi )01(xi ) =Pni=1(xi x)01(xi x) + n(x )01(x )

=trf1Pni=1(xi x)(xi x)0g+n(x )01(x )

y por lo tanto el logaritmo de L se puede expresar como

log L(X;; ) = n2

log det(2) n2

tr(1S)n2

(x )01(x ):

Derivando matricialmente respecto de y de1 tenemos@@log L =n

1(x ) = 0;@

@1log L = n2[ S (x )(x )0] = 0:


39/285

3.3. TESTS MULTIVARIANTES 39

Las estimaciones mximo-verosmiles de; son pues

b= x; b = S:Si slo es desconocido, la matriz de informacin de Fisher es

F() =E(n1(x )n1(x )0) =n1

y como cov(x) = =n;tenemos xque alcanza laa cota de Cramr-Rao.Probaremos ms adelante que:

1. xes Np(; =n):

2. xy Sson estocsticamente independientes.

3. nSsigue la distribucin de Wishart.

3.3. Tests multivariantes

Un primer mtodo para construir tests sobre los parmetros de una poblacinnormal, se basa en las propiedades anteriores, que dan lugar a estadsticoscon distribucin conocida (ji-cuadrado, F).

3.3.1. Test sobre la media: una poblacin

Supongamos que las las de Xnp son independientes Np(; ): Sea 0un vector de medias conocido. Queremos realizar un test sobre la hiptesis

H0: = 0

1. Si es conocida, como x es Np(; =n);el estadstico de contraste es

n(x0)01(x0) 2p:

2. Si es desconocida, como (n 1)(x)0S1(x) T2(p; n 1);elestadstico de contraste es

n pp

(x0)0S1(x0) Fpnp: (3.1)

En ambos casos se rechaza H0 para valores grandes signicativos del es-tadstico.


40/285


3.3.2. Test sobre la media: dos poblaciones

Supongamos ahora que tenemos dos matrices de datos independientesXn1p; Yn2p que provienen de distribuciones Np(1; ); Np(2; ):Quere-mos construir un test sobre la hiptesis

H0: 1= 2:

1. Si es conocida, como (xy) es Np(1 2; (1=n1 + 1=n2)) el es-tadstico de contraste es

n1n2n1+ n2

(xy)01(x y) 2p:

2. Si es desconocida, el estadstico de contraste es

n1+ n2 1 p(n1+ n2 2)p

n1n2n1+ n2

(xy)0eS1(x y) Fpn1+n21p:3.3.3. Comparacin de medias

Supongamos que las las de g matrices de datos son independientes, yque provienen de la observacin de g poblaciones normales multivariantes:

matriz orden medias covarianzas distribucion

X1 n1 p x1 S1 Np(1; )X2 n2 p x2 S2 Np(2; )...

... ...

... ...

Xg ng p xg Sg Np(g; )

(3.2)

El vector de medias generales y la estimacin centrada de la matriz decovarianzas comn son

x = 1

n

gXi=1

nixi; S = 1

n ggXi=1

niSi;

siendo Si = n1i X0iHXi; n=Pgi=1 ni:Deseamos construir un test para decidir si podemos aceptar la hiptesis

de igualdad de medias

H0: 1= 2 = =g:


41/285

3.4. TEOREMA DE COCHRAN 41

Introducimos las siguientes matrices , :

B =Pgi=1 ni(xi x)(xi x)0 (dispersion entre grupos)W =

Pgi=1

Pni=1(xi xi)(xi xi)0 (dispersion dentro grupos)

T =Pgi=1

Pni=1(xi x)(xi x)0 (dispersion total)

Se verica que W = (n g)Sy la relacin:T = B + W:

Si la hiptesis nula es cierta, se verica adems

B Wp(; g 1); W Wp(; n g); T Wp(; n 1);B; W son estocasticamente independientes;

por lo tanto, si H0es cierta

= jWjjW + Bj (p; n g; g 1):

Rechazaremos H0 si es pequea y signicativa, o si la transformacin aunaFes grande y signicativa.

3.4. Teorema de Cochran

Algunos resultados de la seccin anterior son una consecuencia del teore-ma de Cochran.

Lema 3.4.1 SeaX(n p)una matriz de datosNp(; )yu; v dos vectoresn 1 tales queu0u = v0v=1; u0v=0:

1. Si= 0 entoncesy0= u0X esNp(0; ):

2. y0= u0X es independiente dez0= v0X:

Demost.: Sean x01; : : : ; x0nlas las (independientes) de X:Si u = (u1; : : : ; un)

0

entonces y0= u0X =

Pni=1 uixi es normal multivariante con = 0 y matriz

de covarianzasE(yy0) =E(

Pni=1 uixi)(

Pni=1 uixi)

0 = E(Pni;j=1 uiujxix

0j)

=Pni;j=1 uiujE(xix

0j) =Pni=1 u

2iE(xix

0i)

=Pni=1 u

2i = :


42/285


Anlogamente, si v= (v1; : : : ; vn)0; z0= v0Xes tambin normal.

Las esperanzas de y

;z

son: E(y

) = (Pni=1 ui); E(z) = (Pni=1 vi):Lascovarianzas entre yy zson:E[(yE(y))(zE(z))0]=Pni=1 uivjE[(xi )(xj )0]

=Pni=1 uiviE[(xi )(xj )0] = u0v = 0;

lo que prueba la independencia estocstica entre y y z:

Teorema 3.4.2 SeaX(n p)una matriz de datosNp(0; )y seaC(n n)una matriz simtrica.

1. X0CX tiene la misma distribucin que una suma ponderada de matricesWp(; 1); donde los pesos son valores propios deC:

2. X0CX es WishartWp(; r)si y slo siC es idempotente y rang(C) =r:

Demost.: Sea

C =nXi=1

iuiu0i

la descomposicin espectral de C, es decir, Cui = iui:Entonces

X0CX =Xiy0iyiPor el Lema 3.4.1 anterior, las las y0i de la matriz

Y=

0B@ y01

...y0n

1CA =0B@ u

01X...

u0nX

1CA ;son tambin independientesNp(0; )y cada yiy0i esWp(; 1):

SiC2 = Centonces Cui= iuisiendoi = 0 1:Por lo tanto r =tr(C)y

X0CX =rXi=1

yiy0i Wp(; r):

El siguiente resultado se conoce como teorema de Craig, y junto con elteorema de Cochran, permite construir tests sobre vectores de medias.


43/285

3.4. TEOREMA DE COCHRAN 43

Teorema 3.4.3 SeaX(np)una matriz de datosNp(; )y seanC1(nn);C

2(nn)matrices simtricas. EntoncesX

0C

1X

es independiente deX

0C

2X

siC1C2 = 0:

Demost.:C1=Pni=1 i(1)uiu

0i; X

0C1X =P

i(1)yiy0i;

C2=Pnj=1 j(2)vjv

0j ; X

0C2X =P

j(2)zjz0j;

siendo y0i = u0iX; z

0j = v

0jX:Por otra parte

C1C2 =X

i(1)j(2)uiu0ivjv

0j;

C1C2 = 0 )i(1)j(2)u0ivj = 0; 8i;j:Si suponemosi(1)j(2)

6= 0;entonces por el Lema 3.4.1 y 0i(1

p) = u0iXes

independiente de z0j(1p) = v0jX:AsX0C1X es independiente de X0C2X:Una primera consecuencia del teorema anterior es la independencia entre

vectores de medias y matrices de covarianzas muestrales. En el caso univari-ante p = 1es el llamado teorema de Fisher.

Teorema 3.4.4 SeaX(n p) una matriz de datosNp(; ): Entonces :1. La mediax esNp(; =n):

2. La matriz de covarianzasS = X0HX=nvericanS Wp(; n 1):3. x yS son estocsticamente independientes.

Demost.: Consideremos C1= n1110:Tenemos rang(C1) = 1; X0C1X =xx0:Consideremos tambin C2 = H:Como C1C2 = 0 deducimos que xes inde-pendiente de S:

Por otra parte, como H2 = H; H1 = 0;rang(H) =n 1; H tiene el valorpropio 1 con multiplicidad n 1: As ui; vector propio de valor propio 1;es ortogonal a 1;resultando que y0i = u

0iXverica E(y

0i) = (Pn=1 ui) =

(u0i1)=0= 0:Si uj es otro vector propio,yi; yj son independientes (Lema3.4.1). Tenemos que nS =

Pn1i=1 yiy

0i; donde los yiy

0ison Wp(; 1)independientes.

Teorema 3.4.5 SeanXi; matrices de datos independientes de ordenni pcon distribucinNp(i; ); i= 1; : : : g; n=P

gi=1 ni: Si la hiptesis nula

H0 : 1 = 2= =ges cierta, entoncesB; W son independientes con distribuciones Wishart:

B Wp(; g 1); W Wp(; n g):


44/285


Demost.: Escribimos las matrices de datos como una nica matriz

X =

264 X1...Xg

375 :Sean

11 = (1; : : : ; 1; 0; : : : ; 0); : : : ; 1g = (0; : : : 0; 1; : : : 1);1 =Pgi=1 1i= (1; : : : ; 1; : : : ; 1; : : : ; 1);

donde 11tienen1unos y el resto ceros, etc. Sean tambin

Ii =diag(1i); I =Pgi=1 Ii;

Hi = Ii n1

i 1i10iC1 =

Pgi=1 Hi; C2=

Pgi=1 n

1i 1i1

0i n1110:

Entonces

C21 = C1; C22 = C2; C1C2 = 0;

rang(C1) =n k; rang(C2) =g 1;W = X0C1X; B = X

0C2X:

El resultado es consecuencia de los Teoremas 3.4.4 y 3.4.5.

3.5. Construccin de tests multivariantes3.5.1. Razn de verosimilitud

Supongamos que la funcin de densidad de (X1; : : : ; X p)esf(x;);dondex 2Rp y 2 ;siendo una regin paramtrica de dimensin geomtricar:Sea 0 una subregin paramtrica de dimensin s, y planteamos eltest de hiptesis

H0: 2 0 vs H1: 2 0:

Sea x1; : : : ; xn una muestra de valores independientes de X , consideremosla funcin de verosimilitud

L(x1; : : : ; xn; ) =nYi=1

f(x;)


45/285

3.5. CONSTRUCCIN DE TESTS MULTIVARIANTES 45

y sea

b el estimador mximo verosmil de 2 : Consideremos anloga-

menteb0,el estimador de mxima verosimilitud de 2 0:Tenemos quebmaximizaLsin restricciones yb0maximizaLcuando se impone la condicinde que pertenezca a 0:La razn de verosimilitud es el estadstico

R =L(x1; : : : ; xn;b0)

L(x1; : : : ; xn;b) ;que satisface 0 R 1:Aceptamos la hiptesis H0 siRes prxima a 1 yaceptamos la alternativaH1siRes signicativamente prximo a 0.

El test basado enRtiene muchas aplicaciones en AM, pero en la mayorade los casos su distribucin es desconocida. Existe un importante resultado(atribuido a Wilks), que dice que la distribucin de -2 veces el logaritmo de

Res ji-cuadrado conr sg.l. cuando el tamao de la muestra nes grande.Teorema 3.5.1 Bajo ciertas condiciones de regularidad, se verica:

2log R es asintticamente2rs;dondes= dim(0)< r= dim().

Entonces rechazamos la hiptesis H0 cuando2log R sea grande y sig-nicativo. Veamos dos ejemplos.

Test de independencia

Si (X1; : : : ; X p) es N(; );y queremos hacer un test sobre la indepen-dencia estocstica de las variables, entonces

0 = f(; 0)g; s= 2p; = f(; )g; r= p +p(p + 1)=2;

donde 0 es diagonal. 0 contiene las p medias de las variables y las pvarianzas. es cualquier matriz denida positiva. Se demuestra (Seccin5.4.2) que

2log R= n log jRj;donde Res la matriz de correlaciones. El estadsticon log jRj es asintti-camente ji-cuadrado con

q= p +p(p + 1)=2 2p= p(p 1)=2 g.l.Si las variables son independientes, tendremos que R I;n log jRj 0;yes probable que 2q = n log jRjno sea signicativo.


46/285


Test de comparacin de medias

Consideremos el test de comparacin de medias planteado en la Seccin3.3.3. Ahora

0 = f(; )g; s=p +p(p + 1)=2; = f(1; : : : ; g); )g; r= gp +p(p + 1)=2;

donde es matriz denida positiva y (vector) es la media comn cuandoH0es cierta. Hay gp +p(p + 1)=2parmetros bajoH1;y p +p(p + 1)=2bajoH0:Se demuestra la relacin

R= n=2;

donde = jWj=jTjes la lambda de Wilks y n = n1+ + ng. Por lo tanton loges asintticamente ji-cuadrado con r s= (g 1)pg.l. cuando lahiptesisH0es cierta.

3.5.2. Principio de unin-interseccin

Es un principio general que permite construir tests multivariantes a partirde tests univariantes y se aplica a muchos tests. Como ejemplo, planteemosla hiptesis nula multivariante H0 : =0 como un test univariante. SeaXa = Xauna variable compuesta con media (a) =a:El test univariante

H0(a) : (a) =0(a) contra la alternativa H1(a) : (a) 6=0(a) se resuelvemediante lat de Student

t(a) =p

n 1x(a) 0(a)s(a)

tn1

donde x(a) =x0aes la media muestral de Xay s2(a) =a0Sa es la varianza.AceptaremosH0: =0si aceptamos todas las hiptesis univariantesH0(a),y nos decidiremos por la alternativaH1: 6=0si aceptamos una sola de lasalternativasH1(a), es decir, formalmente (principio de unin-interseccin):

H0 = \aH0(a); H1= [aH1(a):As rechazaremosH0si la mximat(a)resulta signicativa. Pues bien, laT2

de Hotelling (Seccin 3.3.1) es precisamente el cuadrado de esta mxima tde Student.


47/285

3.6. EJEMPLOS 47

Teorema 3.5.2 En el test sobre el vector de medias, laT2 de Hotelling y la

t de Student estn relacionadas por

T2 = maxa

t2(a):

Demost.: (x 0)es un vector columna y podemos escribir t2(a)como

t2(a) = (n 1) a0(x 0)(x 0)0a

a0Sa

Sea A= (x 0)(x 0)0matriz de orden p py rango 1:Si v1 satisfaceAv1 = 1Sv1 entonces

1= maxv

v0Avv0Sv

:

De(x 0)(x 0)0v1 =1Sv1 resulta que S1(x 0)(x 0)0v1 =1v1y de la identidad

S1(x 0)(x 0)0(S1(x 0)) = (x 0)0S1(x 0)(S1(x 0))

vemos que1= (x 0)0S1(x 0); v1= S1(x 0):Por lo tanto

T2 = maxa

t2(a) = (n 1)(x 0)0S1(x 0):

3.6. Ejemplos

Ejemplo 3.6.1

Se desean comparar dos especies de moscas de agua: Amerohelea fasci-nata, Amerohelea pseudofascinata. En relacin a las variables X1 = long.antena, X2 = long. ala (en mm), para dos muestras de tamaos n1 = 9 yn2 = 6;se han obtenido las matrices de datos de la Tabla 3.1.

Vectores de medias (valores multiplicados por 100):

x= (141;33; 180;44); y= (122;67; 192;67):


48/285


Amerohelea fascinata A. pseudofascinatan1= 9 n2= 6

X1 X21;38 1;641;40 1;701;24 1;721;36 1;741;38 1;821;48 1;821;54 1;821;38 1;901;56 2;08

X1 X21;14 1;781;20 1;861;18 1;961;30 1;961;26 2;001;28 2;00

Tabla 3.1:X1= long. antena,X2 = long. ala (en mm), para dos muestras detamao n1 = 9y n2= 6;.

Matrices de covarianzas:

S1=

98;00 80;8380;83 167;78

S2=

39;47 43;4743;47 77;87

:

Estimacin centrada de la matriz de covarianzas comn:

bS=113 (8S1+ 5S2) = 75;49 66;4666;46 133;81 :Distancia de Mahalanobis entre las dos muestras:

D2 = (x y)bS1(x y)0= 15;52:Estadstico T2 :

T2 =6 96 + 9

D2 = 55;87

Estadstico F :9 + 6 1 2

2(9 + 6 2)T2 = 25;78

F212

Decisin: rechazamos la hiptesis de que las dos especies son iguales (Nivelde signicacin=0;001):

Ejemplo 3.6.2


49/285

3.6. EJEMPLOS 49

Comparacin de las especies virginica, versicolor, setosa de ores del

gnero Iris(datos de R. A. Fisher, Tabla 3.2), respecto a las variables quemiden longitud y anchura de spalos y ptalos:

X1; X2 = long:; anch:(sepalos); X3; X4= long:; anch:(petalos):

Vectores de medias y tamaos mustrales:

I. setosa (5;006; 3;428; 1;462; 0;246) n1= 50I. versicolor (5;936; 2;770; 4;260; 1;326) n2= 50I. virginica (6;588; 2;974; 5;550; 2;026) n3= 50

Matriz dispersin entre grupos:

B =

0BB@63;212 19;953 165;17 71;278

11;345 57;23 22;932436;73 186;69

80;413

1CCAMatriz dispersin dentro grupos:

W=

0BB@

38;956 12;630 24;703 5;64516;962 8;148 4;808

27;322 6;2846;156

1CCA

Lambda de Wilks:

= jWjjW + Bj = 0;02344(4; 147; 2)

Transformacin a una Faplicando (2.9):

! F= 198;95 F8288

Decisin: las diferencias entre las tres especies son muy signicativas.


50/285


X1 X2 X3 X4 X1 X2 X3 X4 X1 X2 X3 X45.1 3.5 1.4 0.2 7.0 3.2 4.7 1.4 6.3 3.3 6.0 2.54.9 3.0 1.4 0.2 6.4 3.2 4.5 1.5 5.8 2.7 5.1 1.94.7 3.2 1.3 0.2 6.9 3.1 4.9 1.5 7.1 3.0 5.9 2.14.6 3.1 1.5 0.2 5.5 2.3 4.0 1.3 6.3 2.9 5.6 1.85.0 3.6 1.4 0.2 6.5 2.8 4.6 1.5 6.5 3.0 5.8 2.25.4 3.9 1.7 0.4 5.7 2.8 4.5 1.3 7.6 3.0 6.6 2.14.6 3.4 1.4 0.3 6.3 3.3 4.7 1.6 4.9 2.5 4.5 1.75.0 3.4 1.5 0.2 4.9 2.4 3.3 1.0 7.3 2.9 6.3 1.84.4 2.9 1.4 0.2 6.6 2.9 4.6 1.3 6.7 2.5 5.8 1.84.9 3.1 1.5 0.1 5.2 2.7 3.9 1.4 7.2 3.6 6.1 2.55.4 3.7 1.5 0.2 5.0 2.0 3.5 1.0 6.5 3.2 5.1 2.04.8 3.4 1.6 0.2 5.9 3.0 4.2 1.5 6.4 2.7 5.3 1.94.8 3.0 1.4 0.1 6.0 2.2 4.0 1.0 6.8 3.0 5.5 2.14.3 3.0 1.1 0.1 6.1 2.9 4.7 1.4 5.7 2.5 5.0 2.05.8 4.0 1.2 0.2 5.6 2.9 3.6 1.3 5.8 2.8 5.1 2.4

5.7 4.4 1.5 0.4 6.7 3.1 4.4 1.4 6.4 3.2 5.3 2.35.4 3.9 1.3 0.4 5.6 3.0 4.5 1.5 6.5 3.0 5.5 1.85.1 3.5 1.4 0.3 5.8 2.7 4.1 1.0 7.7 3.8 6.7 2.25.7 3.8 1.7 0.3 6.2 2.2 4.5 1.5 7.7 2.6 6.9 2.35.1 3.8 1.5 0.3 5.6 2.5 3.9 1.1 6.0 2.2 5.0 1.55.4 3.4 1.7 0.2 5.9 3.2 4.8 1.8 6.9 3.2 5.7 2.35.1 3.7 1.5 0.4 6.1 2.8 4.0 1.3 5.6 2.8 4.9 2.04.6 3.6 1.0 0.2 6.3 2.5 4.9 1.5 7.7 2.8 6.7 2.05.1 3.3 1.7 0.5 6.1 2.8 4.7 1.2 6.3 2.7 4.9 1.84.8 3.4 1.9 0.2 6.4 2.9 4.3 1.3 6.7 3.3 5.7 2.15.0 3.0 1.6 0.2 6.6 3.0 4.4 1.4 7.2 3.2 6.0 1.85.0 3.4 1.6 0.4 6.8 2.8 4.8 1.4 6.2 2.8 4.8 1.85.2 3.5 1.5 0.2 6.7 3.0 5.0 1.7 6.1 3.0 4.9 1.85.2 3.4 1.4 0.2 6.0 2.9 4.5 1.5 6.4 2.8 5.6 2.14.7 3.2 1.6 0.2 5.7 2.6 3.5 1.0 7.2 3.0 5.8 1.64.8 3.1 1.6 0.2 5.5 2.4 3.8 1.1 7.4 2.8 6.1 1.95.4 3.4 1.5 0.4 5.5 2.4 3.7 1.0 7.9 3.8 6.4 2.05.2 4.1 1.5 0.1 5.8 2.7 3.9 1.2 6.4 2.8 5.6 2.25.5 4.2 1.4 0.2 6.0 2.7 5.1 1.6 6.3 2.8 5.1 1.54.9 3.1 1.5 0.2 5.4 3.0 4.5 1.5 6.1 2.6 5.6 1.4

5.0 3.2 1.2 0.2 6.0 3.4 4.5 1.6 7.7 3.0 6.1 2.35.5 3.5 1.3 0.2 6.7 3.1 4.7 1.5 6.3 3.4 5.6 2.44.9 3.6 1.4 0.1 6.3 2.3 4.4 1.3 6.4 3.1 5.5 1.84.4 3.0 1.3 0.2 5.6 3.0 4.1 1.3 6.0 3.0 4.8 1.85.1 3.4 1.5 0.2 5.5 2.5 4.0 1.3 6.9 3.1 5.4 2.15.0 3.5 1.3 0.3 5.5 2.6 4.4 1.2 6.7 3.1 5.6 2.44.5 2.3 1.3 0.3 6.1 3.0 4.6 1.4 6.9 3.1 5.1 2.34.4 3.2 1.3 0.2 5.8 2.6 4.0 1.2 5.8 2.7 5.1 1.95.0 3.5 1.6 0.6 5.0 2.3 3.3 1.0 6.8 3.2 5.9 2.35.1 3.8 1.9 0.4 5.6 2.7 4.2 1.3 6.7 3.3 5.7 2.54.8 3.0 1.4 0.3 5.7 3.0 4.2 1.2 6.7 3.0 5.2 2.35.1 3.8 1.6 0.2 5.7 2.9 4.2 1.3 6.3 2.5 5.0 1.94.6 3.2 1.4 0.2 6.2 2.9 4.3 1.3 6.5 3.0 5.2 2.05.3 3.7 1.5 0.2 5.1 2.5 3.0 1.1 6.2 3.4 5.4 2.35.0 3.3 1.4 0.2 5.7 2.8 4.1 1.3 5.9 3.0 5.1 1.8

Tabla 3.2: Longitud y anchura de spalos y ptalos de 3 especies del gnero

Iris: Setosa, Versicolor, Virginica.


51/285

3.6. EJEMPLOS 51

Ejemplo 3.6.3

Consideremos los siguientes datos (tamaos muestrales, medias, desvia-ciones tpicas, matrices de covarianzas) de p = 2 variables X(longitud delfmur), Y (longitud del hmero), obtenidas sobre dos poblaciones (Anglo-indios, Indios) .

Medias X Yn1= 27 460.4 335.1n2= 20 444.3 323.2Diferencia 16.1 11.9Desv. tpicas 23.7 18.2

Matriz covarianzasbS = 561;7 374;2374;2 331;24

Correlacin: r = 0;867

Suponiendo normalidad, los testst de comparacin de medias para cadavariable por separado son:

Variable X t= 2;302 (45g.l.) (p= 0;0259);Variable Y t= 2;215 (45g.l.) (p= 0;0318):

A un nivel de signicacin0; 05se concluye que hay diferencias signicativaspara cada variable por separado.

Utilicemos ahora las dos variables conjuntamente. La distancia de Maha-lanobis entre las dos poblaciones es d0bS1d =0;4777;siendo d =(16; 1; 11;9):LaT2 de Hotelling es

T2 =27 2027 + 20

0;4777 = 5;488

que convertida en una F da:

F =27 + 20 1 2

(27 + 20 2)25;488 = 2;685 (2y 44 g.l.) (p= 0;079):

Esta F no es signicativa al nivel 0.05. Por lo tanto ambos tests univariantes

resultan signicativos, pero el test bivariante no, contradiciendo la creenciade que un test multivariante debera proporcionar mayor signicacin que untest univariante.

Interpretemos geomtricamente esta paradoja (conocida como paradojade Rao). Con nivel de signicacin 0,05, y aplicando el test T2 de Hotelling,


52/285


aceptaremos la hiptesis nula bivariante si el vector diferencia d = (x y)0

pertenece a la elipsen1n2

n1+ n2d0

561; 7 374; 2374; 2 331; 24

1d 3;2;

donde 3.2 es el punto crtico para una F con 2 y 44 g. l. As pues no haysignicacin si x; yverican la inecuacin

0; 040369x2 0; 09121xy+ 0; 06845 6y2 3;2:Anlogamente, en el test univariante y para la primera variable x, la

diferncia d = x1 x2 debe vericar

jr n1n2n1+ n2

(ds1

)j 2;

siendo 2 el valor crtico para unatcon 45 g. l. Procederamos de forma similarpara la segunda variable y . Obtenemos as las cuatro rectas

Variable x : 0; 143x= 2; Variabley : 0; 1862y= 2:En la Figura 3.1 podemos visualizar la paradoja. Los valores de la difer-

encia que estn a la derecha de la recta vertical rx son signicativos parala variable x: Anlogamente los que estn por encima de la recta horizontalry lo son para la y: Por otra parte, todos los valores que estn fuera de laelipse (reginF)son signicativos para las dos variables. Hay casos en quex; y por separado no son signicativos, pero conjuntamente s. No obstante,existe una pequea regin por encima de ry y a la derecha de rx que caedentro de la elipse. Para los datos del ejemplo, se obtiene el punto sealadocon el signo+, para el cual x e y son signicativas pero no (x; y):Asx e yson signicativas si el punto se encuentra en el cuadrante A. (Una simetracon respecto al origen nos permitira considerar otras dos rectas y la reginB).

Pues bien, el test con x y el test cony por separado, son tests t distintosdel test T2 empleado con (x; y);equivalente a una F. Tales tests no tienen

por qu dar resultados compatibles. Las probabilidades de las regiones derechazo son distintas. Adems, la potencia del test con (x; y) es superior,puesto que la probabilidad de la regin F es mayor que las probabilidadessumadas de las regionesA y B.

Para ver ms ejemplos, consltese Baillo y Gran (2008).


53/285

3.7. ANLISIS DE PERFILES 53

Figura 3.1: Un test de comparacin de poblaciones bivariante puede resultarmenos signicativo que dos tests univariantes con las variables marginales.

3.7. Anlisis de perles

Supongamos que las las de una matriz de datos X(n p)provienen deuna distribucin Np(; ): Estamos interesados en establecer una hiptesis

lineal sobre = (1; : : : ; p)0:Por ejemplo, que las medias univariantes soniguales:H0 : 1= =p

Esta hiptesis slo tiene sentido si las variables observables son comparables.Consideremos la matriz de orden(p 1) p

C =

0BB@1 1 0 00 1 1 0

0 9 9 1

1CCALa hiptesis es equivalente a

H0: C= 0

Aceptar H0 es lo mismo que decir que las medias de las p1 variablesX1X2; X2X3; : : : ; X p1Xpson iguales a cero. Por lo tanto aplicaremos


54/285


el test de laT2 de Hotelling a la matriz de datos Y = XC:Bajo la hiptesis

nulaT2 = (n1)(Cx)0(CSC0)1(Cx) =n(Cx)0(CbSC0)1(Cx) T2(p1; n1);siendobS la matriz de covarianzas con correccin de sesgo. Aplicando (3.1)conp 1variables

n p + 1p 1 (Cx)

0(CbSC0)1(Cx) Fp1np+1Rechazaremos la hiptesis nula si el valor F resulta signicativo.

Consideremos los datos del ejemplo 1.11.1. Queremos estudiar si las me-

dias poblacionales de N, E, S, W son iguales. En este caso

C =

0@ 1 1 0 00 1 1 00 0 1 1

1Ay laT2 de Hotelling es :

T2 =n(Cx)0(CbSC0)1Cx = 20;74Bajo la hiptesis nula, sigue una T2(3; 23):Convertida en una F se obtiene

F(3; 25) = [25=(27 3)]T2

= 6;40:El valor crtico al nivel 0;05es 2;99:Haydiferencias signicativas a lo largo de las cuatro direcciones cardinales.

3.8. Complementos

C. Stein prob que la estimacinb= x de de la distribucin Np(; )puede ser inadmisible si p 3;en el sentido de que no minimiza

p

Xi=1(

bi i)2;

y propuso una mejora de aquel estimador. B. Efron y C. Morris explicaronesa peculiaridad desde una perspectiva bayesiana. S. M. Stigler di una in-teresante explicacin en trminos de regresin, justicando por qu p 3(consultar Cuadras, 1991).


55/285

3.8. COMPLEMENTOS 55

El principio es debido a S. N. Roy, pero no siempre es aplicable. El test de

mxima-verosimilitud es atribuido a S. Wilks y es ms general. Es interesantenotar que 2logse puede interpretar como una distancia de Mahalanobis.Otros tests semejantes fueron propuestos por C. R. Rao y A. Wald. ConsultarCuadras y Fortiana (1993b), Rao (1973).

En general, es necesario corregir los tests multiplicando por una con-stante a n de conseguir tests insesgados (la potencia del test ser siemprems grande que el nivel de signicacin). Por ejemplo, es necesario hacer lamodicacin de G. E. P. Box sobre el test de Bartlett para comparar matricesde covarianzas (Seccin 7.5.2).

Para datos de tipo mixto o no normales, se puede plantear la comparacinde dos poblaciones utilizando distancias entre las observaciones, calculando

coordenadas principales mediante MDS, y a continuacin aplicando el modelode regresin multivariante. Vase Cuadras y Fortiana (2004), Cuadras (2008).


56/285



57/285

Captulo 4

ANALISIS DECORRELACION CANONICA

4.1. Introduccin

En este captulo estudiamos la relacin multivariante entre vectores aleato-rios. Introducimos y estudiamos las correlaciones cannicas, que son gener-alizaciones de las correlaciones simple y mltiple.

Tenemos tres posibilidades para relacionar dos variables:

La correlacin simple si X; Yson dos v.a.

La correlacin mltiple siY es una v.a. y X = (X1; : : : ; X p)es un vectoraleatorio.

La correlacin cannica si X = (X1; : : : ; X p)e Y= (Y1; : : : ; Y q)son dosvectores aleatorios.

4.2. Correlacin mltiple

Queremos relacionar una variable respuesta Y conp variables cuantitati-vas explicativas X1; : : : ; X p; que suponemos centradas. El modelo de regresinmltiple consiste en encontrar la combinacin lineal

bY =1X1+ + pXp57


58/285

58 CAPTULO 4. ANALISIS DE CORRELACION CANONICA

que mejor se ajuste a la variable Y: Sea la matriz de covarianzas de Xy

= (1; : : : ; p)0 el vector columna con las covarianzas j =cov(Y; Xj); j =1; : : : ; p :El criterio de ajuste es el de los mnimos cuadrados.

Teorema 4.2.1 Los coecientesb= (b1; : : : ;bp)que minimizan la cantidadE(YbY)2 verican la ecuacin

b= 1: (4.1)Demost.:

() =E(Y

bY)2

=E(Y)2 + E(

bY)2 2E(Y

bY)

=var(Y) + 0 20Derivando vectorialmente respecto de e igualando a 0

@

@() = 2 2= 0:

La variable prediccin esbY = Xb=b1X1+ +bpXp:Si ponemosY =bY +eY ;

entonces

eYes la variable residual.

La correlacin mltiple entre Y y X1; : : : ; X p es, por denicin, la cor-relacin simple entreYy la mejor prediccinbY = Xb:Se indica porR=cor(Y;bY):

Se verica:

1. 0 R 1:2. R= 1si Yes combinacin lineal deX1; : : : ; X p:

3. R= 0si Yest incorrelacionada con cada una de las variables Xi:

Teorema 4.2.2 La variable prediccinbY ;residualeYy la correlacin mlti-pleR cumplen:

1.bY eeY son variables incorrelacionadas.


59/285

4.3. CORRELACIN CANNICA 59

2. var(Y) =var(

bY)+var(

eY):

3. R2 =var(bY)=var(Y):Demost.: 1) es consecuencia deb = :En efecto,

cov(bY ; eY) =E(bYeY) =E(b0X0(Yb0X))=b0 b0b= 0:

2) es consecuencia inmediata de 1). Finalmente, de

cov(Y;

bY) =cov(Y; pi=1

biXi) =

pi=1

bii =

b0=

b0

b =var(

bY);

obtenemosR2 =

cov2(Y;bY)var(Y)var(bY) =var(bY)var(Y) : (4.2)

4.3. Correlacin cannica

Sean X = (X1; : : : ; X p); Y= (Y1; : : : ; Y q) dos vectores aleatorios de di-mensiones p y q: Planteemos el problema de encontrar dos variables com-puestas

U= Xa =a1X1+

+ apXp; V = Yb =b1Y1+

+ bpYq;

siendo a = (a1; : : : ; ap)0; b = (b1; : : : ; bp)0tales que la correlacin entre ambas

cor(U; V)

sea mxima. Indicamos porS11; S22las matrices de covarianzas (muestrales)de las variables X; Y; respectivamente, y sea S12 la matriz p q con lascovarianzas de las variables Xcon las variables Y:Es decir:

X Y

X S11 S12Y S21 S22

donde S21 = S012:Podemos suponer

var(U) = a0S11a =1; var(V) = b0S22b =1:


60/285


As el problema se reduce a:

maximizar a0S12b restringido a a0S11a = b0S22b =1:

Los vectores de coecientes a; bque cumplen esta condicin son los primerosvectores cannicos. La mxima correlacin entre U; V es la primera cor-relacin cannicar1.

Teorema 4.3.1 Los primeros vectores cannicos satisfacen las ecuaciones

S12S122 S21a =S11a;

S21S111 S12b =S22b:

(4.3)

Demost.: Consideremos la funcin

(a; b) = a0S12b2

(a0S11a1) 2

(b0S22b1);

donde; son multiplicadores de Lagrange. Entonces de@=@a =@=@b = 0obtenemos las dos ecuaciones

S12bS11a = 0; S21aS22b = 0: (4.4)

Multiplicando la primera por a0y la segunda por b0;tenemos

a0S12b =a0S11a; b0S21a =b0S22b;

que implican = : As pues, de la segunda ecuacin en (4.4), b =1S122 S21a;y substituyendo en la primera obtenemos 1S12S122 S21aS11a = 0: Pre-scindiendo de 1; pues es un factor multiplicativo arbitrario, y operandoanlogamente con la otra ecuacin, obtenemos (4.3).

Teorema 4.3.2 Los vectores cannicos normalizados por a0S11a = b0S22b =

1; estn relacionados por

a =1=2

S1

11 S12b;b =1=2S122 S21a;

y la primera correlacin cannica esr1 =p

1; donde1 es el primer valorpropio deS111 S12S

122 S21:


61/285

4.3. CORRELACIN CANNICA 61

Demost.: Tenemos de (4.4) que a =S111 S12b; donde es una constante a

determinar. Partimos de quea0S11

a=1y para =

1=2

resulta que:a0S11a =

1=2a0S11S111 S12b

=1=2a0S12b=1=21=2a0S12S

122 S21a

=1a0S11a= 1

La correlacin es r1 = a0S12b y como1 =1=2a0S12b deducimos que r21 =1:

De hecho, las ecuaciones en valores y vectores propios tienen otras solu-ciones. Concretamente hay m = mn

fp; q

g parejas de vectores cannicos

a1; b1; : : : ; am; bm;que proporcionan las variables y correlaciones cannicas

U1= Xa1; V1= Yb1; r1= cor(U1; V1);U2= Xa2; ; V2= Yb2; r2= cor(U2; V2);

... ...

...Um= Xam; Vm= Ybm; rm= cor(Um; Vm):

Teorema 4.3.3 Supongamosr1 > r2 > > rm: Entonces:

1. Tanto las variables cannicasU1; : : : ; U m como las variables cannicasV1; : : : ; V m estn incorrelacionadas.

2. La primera correlacin cannica r1 = cor(U1; V1) es la mxima cor-relacin entre una combinacin lineal de X y una combinacin linealdeY:

3. La segunda correlacin cannica r2 = cor(U2; V2) es la mxima cor-relacin entre las combinaciones lineales de X incorrelacionadas conU1 y las combinaciones lineales deY incorrelacionadas conV1:

4. cor(Ui; Vj) = 0 sii 6=j:

Demost.: Sea i6=j:Expresando (4.3) para ak; k; k = i; j; y multiplicandopor a0j y por a

0itenemos que

a0jS12S122 S21ai =ia

0jS11ai;

a0iS12S122 S21aj =ja

0iS11aj:


62/285


Restando: (i j)a0iS11aj = 0 ) a0iS11aj = 0 ) cor(Ui; Uj) = 0:

Por otra parte, expresando (4.3) comoS111 S12S

122 S21a =iai; S

122 S21S

111 S12bj =jbj ;

y multiplicando por b0jS21 y por a0iS12 llegamos a

b0jS21S111 S12S

122 S21ai =ib

0jS21ai;

a0iS12S122 S21S

111 S12bj =ja

0iS12bj:

Restando: (i j)a0iS12bj = 0 ) a0iS12bj = 0 ) cor(Ui; Vj) = 0:

4.4. Correlacin cannica y descomposicin

singularPodemos formular una expresin conjunta para los vectores cannicos

utilizando la descomposicin singular de una matriz. Supongamos p q;consideremos la matriz p q

Q = S1=211 S12S

1=222

y hallemosQ = UV0;

la descomposicin singular de Q, donde U es una matriz p qcon columnasortonormales, V es una matriz q qortogonal, y es una matriz diago-nal con los valores singulares de Q. Es decir, U0U = Ip; V0V= V0V= Iq; =diag(1; : : : ; p):

Teorema 4.4.1 Los vectores cannicos y correlaciones cannicas son

ai= S1=211 ui; bi = S

1=222 vi; ri = i:

Demost.:QQ0= S1=211 S12S

1=222 S

1=222 S21S

1=211 = U

2U0

y por lo tantoS1=211 S12S

122 S21S

1=211 ui=

2iui

Multiplicando por S1=211

S111 S12S122 S21(S

1=211 ui) =

2i (S

1=211 ui)

y comparando con resultados anteriores, queda probado el teorema.


63/285

4.5. SIGNIFICACIN DE LAS CORRELACIONES CANNICAS 63

4.5. Signicacin de las correlaciones canni-

casHemos encontrado las variables y correlaciones cannicas a partir de las

matrices de covarianzas y correlaciones muestrales, es decir, a partir de mues-tras de tamaon:Naturalmente, todo lo que hemos dicho vale si sustituimosS11; S12; S22por las versiones poblacionales 11; 12; 22:Sean

1 2 m

lasm= mnfp; qg correlaciones cannicas obtenidas a partir de11; 12; 22,soluciones de:

j1212221 211j = 0:Si queremos decidir cules son signicativas, supongamos normalidad multi-variante, indiquemos0 = 1y planteemos el tests

Hk0 :k > k+1= =m = 0; (k= 0; 1; : : : ; m);

que equivale a rang(12221) =k:El test de Bartlett-Lawley demuestra quesiHk0 es cierta, entonces

Lk = [n 1 k 12

(p + q+ 1) +kXi=1

r2i ]log[mY

i=k+1

(1 r2i )

es asintticamente ji-cuadrado con (m k)(p k) g.l. Este test se aplicasecuencialmente: si Li es signicativo para i = 0; 1; : : : ; k 1;peroLk no essignicativo, entonces se aceptaHk0 :

4.6. Test de independencia

Suponiendo normalidad, armar que X es independiente de Y consisteen plantear

H0 : 12 = 0; H1 : 126= 0:Podemos resolver este test de hiptesis de dos maneras.


64/285


4.6.1. Razn de verosimilitud

Si la hiptesis es cierta, entonces el test de razn de verosimilitud (Seccin3.5.1) se reduce al estadstico

= jSjjS11jjS22j =

jRjjR11jjR22j ;

que sigue la distribucin lambda de Wilks (p; n 1 q; q); equivalente a(q; n 1 p; q):RechazaremosH0si es pequea y signicativa (Mardiaet al. 1979, Rencher, 1998).

Es fcil probar que es funcin de las correlaciones cannicas

= jI S122 S21S111 S12j =mYi=1

(1 r2i ):

4.6.2. Principio de unin interseccin

Consideremos las variablesU=a1X1+ + apXp;V =b1Y1+ + bpYq:La correlacin entre U; V es

(U; V) = a01212bpa11a

pb022b

H0equivale a(U; V) = 0para todo U; V:La correlacin muestral es

r(U; V) = a0S12bpa0S11a

pb0S22b

:

Aplicando el principio de unin interseccin (Seccin 3.5.2), aceptaremosH0si r(U; V)no es signicativa para todo U; V;y aceptaremosH1 sir(U; V)essignicativa para algn par U; V:Este criterio nos lleva a estudiar la signi-cacin de

r1= maxU;V

r(U; V)

es decir, de la primera correlacin cannica. Por tanto, el test es:

H0 : 1 = 0; H1: 1 > 0:

Existen tablas especiales para decidir si r1 es signicativa (Morrison, 1976),pero tambin se puede aplicar el estadstico L0de Bartlett-Lawley.


65/285

4.7. EJEMPLOS 65

4.7. Ejemplos

Se considerann = 25familias y las variables:

X1= long. cabeza primer hijo, X2= ancho cabeza primer hijo,Y1= long. cabeza segundo hijo, Y2 = ancho cabeza segundo hijo,

La matriz de correlaciones es:

R =

0BB@

1;0000 0;7346 0;7108 0;70400;7346 1;0000 0;6932 0;80860;7108 0;6932 1;0000 0;83920;7040 0;8086 0;8392 1;0000

1CCAEntonces:

R11 =

1;0000 0;73460;7346 1;0000

; R12 =

0;7108 0;70400;6932 0;8086

;

R22 =

1;0000 0;83920;8392 1;0000

:

Las races de la ecuacin:

jR12R122 R21 R11j = 0;4603632 0;287596 + 0;000830 = 0

son: 1= 0;6218,2= 0;0029;y por tanto las correlaciones cannicas son:

r1= 0;7885; r2= 0;0539:

Los vectores cannicos normalizados son:

a1= (0;0566; 0;0707)0; a2= (0;1400; 0;1870)0;

b1 = (0;0502; 0;0802)0; b2= (0;1760; 0;2619)0:

Las variables cannicas con variaza 1 son:

U1= 0;0566X1+ 0;0707X2; V1 = 0;0502Y1+ 0;0802Y2; (r1= 0;7885);

U2= 0;1400X1 0;1870X2; V2 = 0;1760Y1 0;2619Y2; (r2= 0;0539):La dependencia entre (X1; X2) y (Y1; Y2) viene dada principalmente por larelacin entre (U1; V1) con correlacin 0;7885; ms alta que cualquier cor-relacin entre una variable Xi y una variable Yj : Podemos interpretar las


66/285


primeras variables cannicas como un factor de tamao de la cabeza y las

segundas como un factor de forma. Habra entonces una notable relacinen el tamao y una escasa relacin en la forma de la cabeza.El test de independencia entre (X1; X2)y (Y1; Y2)da

= jRj

jR11jjR22j = 0;3771 (2; 22; 2)

que, segn (2.8), transformamos con una F obteniendo 6;60 con 4 y 42 g.l.Rechazamos la hiptesis de independencia.

La prueba de signicacin de las correlaciones cannicas d:

H00 :0 = 1> 1= 2 = 0; L0= 22;1 (4 g.l.),

H1

0 :1 > 2= 0; L1= 1;22 (2 g.l.).Podemos rechazarH00y aceptarH

10 :Solamente la primera correlacin canni-

ca es signicativa.Se consideran los resultados de unas elecciones celebradas en las 41 co-

marcas catalanas y para cada comarca se tabulan los valores de las siguientesvariables:

X1= log(porcentaje de votos a CU), X2= log(porcentaje de votos a PSC),X3= log(porcentaje de votos a PP), X4= log(porcentaje de votos a ERC),Y1 = log(cociente Juan/Joan), Y2= log(cociente Juana/Joana),

donde cociente Juan/Joan signica el resultado de dividir el nmero dehombres que se llaman Juan por el nmero de hombres que se llaman Joan.Valores positivos de las variables Y1; Y2 en una comarca indican predominiode los nombres en castellano sobre los nombres en cataln.

La matriz de correlaciones es:

X1 X2 X3

nuevos mÉtodos de anÁlisis multivariantes

Documents