1- preguntes breus (resposta correcta del...

7
1 UPF, Anàlisi Multivariant, Examen Final, 11 de desembre de 2012, De 15.00 a 17.00,Aula 40.152 Professor: Albert Satorra Instruccions : Aquest examen consta de tres apartats. El primer són 10 preguntes breus sobre temes diversos. El segon i el tercer són dos exercicis. Sigueu concisos en la resposta. 1- Preguntes breus (resposta correcta del apartat són 0.5 punts. Total de punts, 5 sobre 10). Feu un comentari breu (de màxim 4 ratlles de text) dels següents punts. Alerta que en alguns dels punts hi han afirmacions errònies. 1En una anàlisi de Components Principals, la suma dels valors propis és sempre igual al nombre de variables implicades en l’anàlisi. 2- Els valors propis d’una matriu de correlacions sempre són més petits o igual que 1. 3- En una análisi de components principals normat, totes les components principals tenen variància igual a 1 de manera que no cal estandarditzarles. 4- Suposeu tres variables incorrelaciondes (totes les correlacions són zero) X1, X2 i X3. Suposeu que X2 té variància doble de les altres dues que tenen la mateixa variància. En aquest cas, X2 coincideix amb la primera component principal. 5- En una Anàlisi de Coordenades Principals (MDS mètric) on no hi ha cap valor propi negatiu, no cal fer una anàlisi MDS no- mètrica. 6- Suposeu la matriu A següent A= [,1] [,2] [1,] 4 1 [2,] 1 4 Els valors i vector propis d’aquesta matriu són > eigen(A) $values [1] 5 3 $vectors [,1] [,2] [1,] 0.7071068 -0.7071068 [2,] 0.7071068 0.7071068 Considereu l’arrel quadrada B de la matriu A (producte de matrius); és a dir, BB = A. La matriu B és eigen(A)$vectors %*%diag(eigen(A)$values)%*% t( eigen(A)$vectors) 7- En el biplot de les variables, les coordenades dels punts del gràfic són les dues primeres components principals sense estandarditzar. En el biplot dels individus, les coordenades

Upload: others

Post on 11-Mar-2020

6 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: 1- Preguntes breus (resposta correcta del apartat84.89.132.1/~satorra/AnalisiMultivariant/AM2012ExamenFinal.pdf · segon i el tercer són dos exercicis. Sigueu concisos en la resposta

1

UPF, Anàlisi Multivariant, Examen Final,

11 de desembre de 2012, De 15.00 a 17.00,Aula 40.152 Professor: Albert Satorra

Instruccions: Aquest examen consta de tres apartats. El primer són 10 preguntes breus sobre temes diversos. El segon i el tercer són dos exercicis. Sigueu concisos en la resposta.

1- Preguntes breus (resposta correcta del apartat són 0.5 punts. Total de punts, 5 sobre 10). Feu un comentari breu (de màxim 4 ratlles de text) dels següents punts. Alerta que en alguns dels punts hi han afirmacions errònies. 1− En una anàlisi de Components Principals, la suma dels valors

propis és sempre igual al nombre de variables implicades en l’anàlisi.

2- Els valors propis d’una matriu de correlacions sempre són més petits o igual que 1.

3- En una análisi de components principals normat, totes les components principals tenen variància igual a 1 de manera que no cal estandarditzarles.

4- Suposeu tres variables incorrelaciondes (totes les correlacions són zero) X1, X2 i X3. Suposeu que X2 té variància doble de les altres dues que tenen la mateixa variància. En aquest cas, X2 coincideix amb la primera component principal.

5- En una Anàlisi de Coordenades Principals (MDS mètric) on no hi ha cap valor propi negatiu, no cal fer una anàlisi MDS no-mètrica.

6- Suposeu la matriu A següent A= [,1] [,2] [1,] 4 1 [2,] 1 4 Els valors i vector propis d’aquesta matriu són > eigen(A) $values [1] 5 3 $vectors [,1] [,2] [1,] 0.7071068 -0.7071068 [2,] 0.7071068 0.7071068 Considereu l’arrel quadrada B de la matriu A (producte de matrius); és a dir, BB = A. La matriu B és

eigen(A)$vectors %*%diag(eigen(A)$values)%*% t( eigen(A)$vectors)

7- En el biplot de les variables, les coordenades dels punts del

gràfic són les dues primeres components principals sense estandarditzar. En el biplot dels individus, les coordenades

Page 2: 1- Preguntes breus (resposta correcta del apartat84.89.132.1/~satorra/AnalisiMultivariant/AM2012ExamenFinal.pdf · segon i el tercer són dos exercicis. Sigueu concisos en la resposta

2

dels punts del gràfic són les dues components principals estandarditzades.

8- Un economista mostra el següent gràfic, que diu és la grepresentació dels individus en les dues primeres components principals. Comenta’l

9- Suposem X és una matriu de dades i Y és la corresponent matriu de components principals. Aleshores, la suma de tots els elements de la matriu Y és igual a zero.

10- Suposeu X és una matriu de dades. Aleshores la matriu de variàncies i covariances de les dades estandarditzades scale(X) és la matriu de correlacions de X.

Exercici 1 (2.5 punts /10) En un congres de cata de vins, es considera una matriu de dades X de dimensions 178 per 5 (les variables V7,V8,V9,V10, V13 de la matriu de dades inicial). La matriu X correspon a 5 atributs (de percepció) observats en 178 vins diferents. A fi i efecte d’investigar aquests vins, fem una anàlisi de components principals. Les instruccions en programari R amb els corresponents resultats són les següents: Lectura de dades:

d = read.table("http://archive.ics.uci.edu/ml/machine-learning-databases/wine/wine.data", sep=",")

attach(d) Creació de la matriu X: > X = cbind(V7,V8,V9,V10, V13) Valors i vector propis:

Component Principal 1

Com

pone

nt P

rinci

pal 2

Page 3: 1- Preguntes breus (resposta correcta del apartat84.89.132.1/~satorra/AnalisiMultivariant/AM2012ExamenFinal.pdf · segon i el tercer són dos exercicis. Sigueu concisos en la resposta

3

> lambda=eigen(cov(scale(X)))$values > V=eigen(cov(scale(X)))$vectors *> round(lambda,2) [1] 3.44 0.67 0.48 0.29 0.11 **> round(V[,1:3],2) [,1] [,2] [,3] [1,] -0.48 -0.22 0.24 [2,] -0.51 -0.10 0.19 [3,] 0.36 -0.87 0.31 [4,] -0.41 -0.43 -0.77 [5,] -0.46 0.04 0.46 Valors estandarditzats dels primers 3 vins **> round(head(scale(X)),2) V7 V8 V9 V10 V13 [1,] 0.81 1.03 -0.66 1.22 1.84 [2,] 0.57 0.73 -0.82 -0.54 1.11 [3,] 0.81 1.21 -0.50 2.13 0.79 ----**+ biplot(princomp(scale(X)), cex=c(0.6,1))

Es demana:

-0.2 -0.1 0.0 0.1 0.2

-0.2

-0.1

0.0

0.1

0.2

Comp.1

Comp.2

1

2

3

4

5 6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22 23

24

25

26

27

28

29

30

31

32

33

34

35

36

37

3839

40

41

42

43

4445

46

47

48

4950

51

52

5354

55

56

5758

59

60

61

62

63

64

65

66

67

68

69

70

7172

73

74

75

76

77

78

79

80

8182

83

84

8586

87

88

89

90

91

92

93

94

95

96

97

98

99

100

101

102

103

104

105

106

107

108 109

110

111

112

113

114

115

116

117

118119

120 121

122

123

124125

126

127

128

129

130

131132133

134

135136

137

138

139

140

141

142

143

144

145

146

147

148

149

150

151152

153

154

155

156

157

158

159

160

161

162

163

164165

166

167

168

169

170

171

172

173

174

175176

177

178

-10 -5 0 5 10

-10

-50

510

V7V8

V9

V10

V13

Page 4: 1- Preguntes breus (resposta correcta del apartat84.89.132.1/~satorra/AnalisiMultivariant/AM2012ExamenFinal.pdf · segon i el tercer són dos exercicis. Sigueu concisos en la resposta

4

1. Percentatge de variació explicada per cada una de les dues primeres components principals.

2. Equació que expressa la primera component principal en funció dels valors estandarditzats de les variables

3. Puntuació del vi 3 en la primera component principal. Els valors estandarditzats del vi 3 en les 5 variables són els es mostren en (-***)

4. Mirant el biplot, quines són les variables que defineixen la primera component principal?. En el biplot que presentem, la representació dels individus s’ha efectuat emprant les components principals estandarditzades?

5. Calculem les distancies de Manhattan (Eixample) entre els tres primers vins, i obtenim els següents valors emprant la funció dist de R dist(scale(X)[1:3,], method="manhattan", diag=T, upper=T, p=1) 1 2 3 1 0.00 xxx 2.31 2 xxx 0.00 4.04 3 2.31 4.04 0.00 Malhauradament, la distància corresponent als vins 2 i 3 l’hem perduda (en la matriu és el xxx). Calculeu aquesta número xxx que falta. Empreu els valors de les dades estandarditzades que es mostren en **>

Exercici 2 (2.5 punts /10) En relació a la matriu de dades X de l’exercici anterior, efectuem una anàlisi d’agrupaments, i obtenim els següents resultats emprant les funcions dist i també la funció hclust. plot(hclust(dist(scale(X), method="minkowski", diag=T, upper=T, p=5), method="average"), cex=0.6

Page 5: 1- Preguntes breus (resposta correcta del apartat84.89.132.1/~satorra/AnalisiMultivariant/AM2012ExamenFinal.pdf · segon i el tercer són dos exercicis. Sigueu concisos en la resposta

5

Es demana 1. Descriu el mètode emprat en aquesta anàlisi d’agrupaments. Comenta sobre el tipus de distància així com el tipus de criteri de distància entre grups. 2. Podem dir que hi ha dos tipus de vins? Quins són els més atípics en el primer i en el segon tipus? 3. Continuem l’ anàlisi d’agrupaments, i definim la variable cluster cluster = cutree(hc,2) Fem > table(cluster) cluster 1 2 110 68 i veiem que tenim la classificació en el cluster 1: 110 vins, i en cluster 2: 68 vins. Ens asomen que la base dades conté la variable V1 que classifica els vins en tres grups: > table(V1) V1 1 2 3

122

111

5115 125

14 100

79 9670

75 95 6459 99

4 531

8552

8222 947 30

4336

20 5532 72

5674

1021 40 45

47 5748

11 6741 50 6 19

31 493

110

18 127

5 54 26 80 29

121

9 17124

4413 98

3716 58

66123

109

33 129

6824

23 2527 126

2 468

103 88 90

105

117107

118

120

7728 112 38 3981 86

35 4212 101

34 115

116

128

104

114

8789

83 130

154

113

84 9392

91 108 169

173

146

176

149

167

175

166

157

155

177

137

172

147

171

165

164

168

119

65 78141

143 144

174

148

162

156

135

178 136

138

158

139

163

62 16161

69 140

76 170

102

63 7360 142

132

133

151

152 131 134

150

71 145

97 153

106

159

160

0.0

0.5

1.0

1.5

2.0

2.5

Cluster Dendrogram

hclust (*, "average")dist(scale(X), method = "minkowski", diag = T, upper = T, p = 5)

Height

Page 6: 1- Preguntes breus (resposta correcta del apartat84.89.132.1/~satorra/AnalisiMultivariant/AM2012ExamenFinal.pdf · segon i el tercer són dos exercicis. Sigueu concisos en la resposta

6

59 71 48 Aquesta classificació segons V1 la veiem en el gràfic de vins en les dues primeres components principals.

plot(princomp(scale(X))$scores[,1:2], col=V1, xlim=c(mi,ma),ylim=c(mi,ma), cex=0.5, main="Vins en les dues primeres CP (nombre indica group segons V1)", type ="n", axes=F) axis(1); axis(2) text(princomp(scale(X))$scores[,1:2], as.character(V1), cex=0.8, col=V1 ) abline(v=0, lty=3, col="blue"); abline(h=0, lty=3, col="blue")

Creuant la classificació de V1 i la nova de cluster, obtenim la taula següent: > table(cluster, V1) V1 cluster 1 2 3 1 59 51 0 2 0 20 48

Vins en les dues primeres CP (nombre indica group segons V1)

Comp.1

Comp.2

-3 -2 -1 0 1 2 3

-3-2

-10

12

3

1

1

1

1

1 1

1

1

1

1

1

1

1

1

1

1

1

11

1

11 1

1

1

1

1

1

1

1

1

1

11

11

1

11

1

1

11

11

1

1

1

11

11

11

1

111

1

2

2

2

2

2

2

2

2

2

2

2

2 2

2

2

2

2

2

2

22

2 2

2

2

22

2

2

2

2

22

2

2

2

2

2

22

2

22

22

2

2

2

2 22

2

2

2

22

2

2

22

2 2

2

2

22

2

2

2

2

2

333

3

33

3

3

33

3

3

3

3

3

3

3

33

3

33

3

3

3

3

3

3

3

3

3

3

3

33

33

3

3

3

3

33

333

33

Page 7: 1- Preguntes breus (resposta correcta del apartat84.89.132.1/~satorra/AnalisiMultivariant/AM2012ExamenFinal.pdf · segon i el tercer són dos exercicis. Sigueu concisos en la resposta

7

Atenent al gràfic i a la taula de classificació, comenteu la relació entre les dues classificacions dels vins, la antiga de V1 i la nova de cluster. 4. Comenteu breument quin paper podria jugar en aquest context de problema l’anàlisi discriminant.