tema 1 análisis exploratorio de datos...
Post on 25-Jan-2021
6 Views
Preview:
TRANSCRIPT
-
Tema 1Análisis exploratorio de datos multivariantes
José R. Berrendero
Departamento de MatemáticasUniversidad Autónoma de Madrid
-
Gorriones
I Tras una fuerte tormenta en febrero de 1898, un grupo degorriones moribundos fueron llevados a la Universidad Brown(Rhode Island).
I Alrededor de la mitad de los gorriones murieron. Se consideróla situación como una oportunidad de estudiar el efecto de laselección natural sobre los pájaros.
I Se tomaron diversas medidas morfológicas, de las que seincluyen 5 en el fichero.
-
Variables
Nombre variable Descripción
TOT Longitud totalALA Extensión de las alasCAB Longitud del pico y la cabezaHUM Longitud del húmeroEST Longitud del esternón
Observaciones:
I Todas las variables se miden en mm.
I El fichero contiene datos de 49 gorriones.
I Los 21 primeros gorriones fueron los supervivientes.
-
Problemas de interés relacionados con estos datos
I ¿Están las variables relacionadas? Al aumentar una, ¿tiendena aumentar los valores de las otras?
I ¿Hay diferencias significativas entre las observacionescorrespondientes a los supervivientes y a los que nosobrevivieron?
I Si la respuesta es afirmativa, ¿es posible construir una funciónde las variables que separe bien los dos grupos?
I ¿Es posible reducir la dimensión de los datos sin perder muchainformación?
-
Temario
I Análisis exploratorio de datos multivariantesI Descripción numéricaI Descripción gráfica
I Técnicas de análisis discriminanteI Discriminación lineal de Fisher
I Técnicas de agrupaciónI Métodos jerárquicosI Métodos por división
I Técnicas de reducción de la dimensiónI Análisis de componentes principalesI Análisis factorial
-
Bibliograf́ıa básica
I Johnson, R.A. y Wichern, D.W. (1992). Applied MultivariateStatistical Analysis. Prentice–Hall.
I Lattin, J.M., Carroll, J.D. y Green, P.E. (2003). Analyzingmultivariate data. Thomson Brooks/Cole.
I Peña, D. (2002). Análisis de datos multivariantes. McGrawHill.
Una bibliograf́ıa más amplia puede encontrarse en el programa dela página web de la asignatura
-
Lirios
Código DescripciónCLASS Especie
SL Longitud del sépaloSW Anchura del sépaloPL Longitud del pétaloPW Anchura del pétalo
CLASS PL PW SL SWsetosa 5.1 3.5 1.4 0.2
versicolor 7 3.2 4.7 1.4virginica 6.3 3.3 6 2.5
En total hay 50 lirios de cada especie (es decir, la matriz de datoses 150× 4, si no tenemos en cuenta la variable que indica elnombre de la especie)
-
Problemas de interés relacionados con estos datos
I ¿Están las variables relacionadas? Al aumentar una, ¿tiendena aumentar los valores de las otras?
I ¿Hay diferencias significativas entre las observacionescorrespondientes a cada una de las especies?
I Si la respuesta es afirmativa, ¿es posible construir una funciónde las variables que separe bien los tres grupos?
I ¿Es posible reducir la dimensión de los datos sin perder muchainformación?
-
Liga española de fútbol 2005-2006Text2 1 / 1
May 26, 2006 Crimson Editor
Equipo G P GF GCBarcelona 25 6 80 35
RMadrid 20 8 70 40Valencia 19 7 58 33Osasuna 21 12 49 43Sevilla 20 10 54 39
Celta 20 14 45 33Villarreal 14 9 50 39Deportivo 15 13 47 45
Getafe 15 14 54 49AtMadrid 13 12 45 37Zaragoza 10 12 46 51
AthBilbao 11 15 40 46Mallorca 10 15 37 51
Betis 10 16 34 51Espanyol 10 17 36 56
RSociedad 11 20 48 65Racing 9 16 36 49Alavés 9 17 35 54Cádiz 8 18 36 52
Málaga 5 24 36 68
-
Variables
Nombre variable Descripción
Equipo Nombre del equipoG Número de partidos ganadosP Número de partidos perdidosGF Goles a favorGC Goles en contra
Observaciones:
I El número de partidos empatados y el número de puntos sehan omitido puesto que son variables redundantes.
-
Problemas de interés relacionados con estos datos
I ¿Están las variables relacionadas? Al variar una, ¿cómo vaŕıanlos valores de las otras?
I ¿Existen datos at́ıpicos?
I ¿Es razonable suponer un modelo normal multivariante?
I ¿Es posible reducir la dimensión de los datos sin perder muchainformación?
I ¿Se pueden establecer grupos homogéneos de equipos?
-
Descripción univariante: longitud del sépalo
Frecuencias
Estadísticos
SL
1500
5,8435,800,8281,6857
4,37,9
5,1005,8006,400
VálidosPerdidos
N
MediaMedianaDesv. típ.VarianzaMínimoMáximo
255075
Percentiles
Página 1
Gráfico
8,07,06,05,04,0
sl
25
20
15
10
5
0
Frecuencia
Media =5,843Desviación típica=0,8281N =150
&[PageTitle]
Página 1
-
Descripción univariante: anchura del sépalo
Estadísticos
SW
1500
3,0543,000,4336,1880
2,04,4
2,8003,0003,300
VálidosPerdidos
N
MediaMedianaDesv. típ.VarianzaMínimoMáximo
255075
Percentiles
Página 1
4,54,03,53,02,52,0
sw
40
30
20
10
0
Frecuencia
Media =3,054Desviación típica=0,4336N =150
&[PageTitle]
Página 1
-
Interpretación de la covarianza
-
Dimensiones del sépalo: covarianza y correlación
Covarianzas
Longitud del sepalo Anchura del sepaloLongitud del sepalo 0.68569351 -0.04243400Anchura del sepalo -0.04243400 0.18997942
Correlaciones
Longitud del sepalo Anchura del sepaloLongitud del sepalo 1.0000000 -0.1175698Anchura del sepalo -0.1175698 1.0000000
-
Dimensiones del sépalo: diagrama de dispersiónGráfico
4,54,03,53,02,52,0
sw
8,0
7,0
6,0
5,0
4,0
sl
&[PageTitle]
Página 1
-
Diagrama de cajas
4. Distancia de Mahalanobis: D2(x, x̄) = (x − x̄)′S−1(x − x̄). Se utiliza como herramientade clasificación y para detectar observaciones at́ıpicas. Puede considerarse como una versión“modificada” de la distancia eucĺıdea (x− x̄)′(x− x̄) que incorpora la información que da S.
5. Muestra y población. La distribución normal: En muchos casos es razonable suponer quelos datos son el resultado de extraer una muestra de una población infinita o, expresado en otrostérminos, constituyen una muestra de observaciones independientes de una variable aleatoria(v.a.) x. Recordemos algunas propiedades de las v.a. p-dimensionales: Si a ∈ Rp entoncesE(a′x) = a′µ, V (a′x) = a′Σa, donde E(.) y V (.) denotan, respectivamente, la media y varianza“poblacionales” y µ y Σ representan el vector de medias y la matriz de covarianza poblacionalesde x. Análogamente, si A es una matriz m × p, el vector de medias (poblacionales) de Ax esAµ y la matriz de covarianzas poblacional de Ax es AΣA′.
Para motivar mejor algunas técnicas de análisis de datos, y también para deducir muchaspropiedades teóricas interesantes, se supone frecuentemente que la variable x tiene distribuciónnormal. Esta distribución queda totalmente especificada por los valores de µ y Σ.
Diagrama de cajas Diagrama de estrellas
6. Algunos gráficos: • Diagrama de cajas: Ver figura. • Diagrama de estrellas: Paracada dato p-variante se dibuja una estrella de p puntas o brazos. La longitud de cada brazode la estrella se determina a partir del valor, previamente “reescalado” de la correspondientevariable. Por ejemplo, se puede reescalar cada variable de manera que su valor máximo sobrelos n individuos sea 1 y el mı́nimo sea 0.
• Diagrama de dispersión: “Matriz de diagramas” obtenida al representar los datos comopuntos en el plano, considerando sólo dos variables (para todos los posibles pares de variables).
2
-
Dimensiones del sépalo: diagrama de cajas
setosa versicolor virginica
4.5
6.0
7.5
Longitud del sepalo por especies
setosa versicolor virginica
2.0
3.0
4.0
Ancho del sepalo por especies
-
Dimensiones del sépalo de la especie setosa
2.5 3.0 3.5 4.0
4.5
5.0
5.5
Especie "Setosa"
Ancho del sepalo
Long
itud
del s
epal
o
-
Lirios: matriz de diagramas de dispersión
Longitud.Sepalo
2.0 3.0 4.0 0.5 1.5 2.5
4.5
5.5
6.5
7.5
2.0
3.0
4.0
Ancho.Sepalo
Longitud.Petalo
12
34
56
7
4.5 5.5 6.5 7.5
0.5
1.5
2.5
1 2 3 4 5 6 7
Ancho.Petalo
-
Lirios: matriz de diagramas de dispersión
longitud del sepalo
2.0 2.5 3.0 3.5 4.0 0.5 1.0 1.5 2.0 2.5
4.5
5.5
6.5
7.5
2.0
3.0
4.0 anchura del sepalo
longitud del petalo
12
34
56
7
4.5 5.5 6.5 7.5
0.5
1.5
2.5
1 2 3 4 5 6 7
anchura del petalo
-
Lirios: gráfico de estrellas
AS
LS
AP
LP
-
Lirios: matrices de covarianzas y de correlaciones
Longitud.Sepalo Ancho.Sepalo Longitud.Petalo Ancho.Petalo
Longitud.Sepalo 0.68569351 -0.04243400 1.2743154 0.5162707
Ancho.Sepalo -0.04243400 0.18997942 -0.3296564 -0.1216394
Longitud.Petalo 1.27431544 -0.32965638 3.1162779 1.2956094
Ancho.Petalo 0.51627069 -0.12163937 1.2956094 0.5810063
Longitud.Sepalo Ancho.Sepalo Longitud.Petalo Ancho.Petalo
Longitud.Sepalo 1.0000000 -0.1175698 0.8717538 0.8179411
Ancho.Sepalo -0.1175698 1.0000000 -0.4284401 -0.3661259
Longitud.Petalo 0.8717538 -0.4284401 1.0000000 0.9628654
Ancho.Petalo 0.8179411 -0.3661259 0.9628654 1.0000000
-
Fútbol: Matriz de diagramas de dispersión
G
10 15 20
●
●●
●● ●
●●●
●
●●●●●
●
●●●
●
●
●●
●●●
●● ●
●
●●
●●●●
●●●
●
35 45 55 65
510
1520
25●
●●
●●●
●● ●
●
●●
●● ●●
● ●●
●
1015
20
●
●●
●
●
●
●
●●
●●
●●●●
●
●●
●
●
P
●
●●
●
●
●
●
●●
●●
●●●
●
●
●●●
●
●
●●
●
●
●
●
●●
● ●
● ●●
●
●
●●
●
●
●
●
●
●
●
●
●●
●
●●
●●●●
●
●●●●
●
●
●
●
●
●
●●
●
●●
●●
●●
●
●●● ●
GF
4050
6070
80●
●
●
●
●
●
●●
●
● ●
●●●
●
●
● ●● ●
5 10 15 20 25
3545
5565
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●●
●
40 50 60 70 80
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●●
●
GC
-
Fútbol: Gráficos de estrellas
1 2 3 4
5 6 7 8
9 10 11 12
13 14 15 16
17 18 19 20
G
P
GF
GC
-
Fútbol: Medidas descriptivas numéricas
Estadísticos descriptivos
13,750 5,3986 2013,750 4,4824 2046,800 12,1508 2046,800 9,7581 20
GPGFGC
MediaDesviación
típica N
Correlaciones
1 -,812 ,839 -,793. ,000 ,000 ,000
20 20 20 20-,812 1 -,776 ,878,000 . ,000 ,000
20 20 20 20,839 -,776 1 -,577,000 ,000 . ,008
20 20 20 20-,793 ,878 -,577 1,000 ,000 ,008 .
20 20 20 20
Correlación de PearsonSig. (bilateral)NCorrelación de PearsonSig. (bilateral)NCorrelación de PearsonSig. (bilateral)NCorrelación de PearsonSig. (bilateral)N
G
P
GF
GC
G P GF GC
Página 1
-
Lirios: distancias de Mahalanobis
Distancias de Mahalanobis
Frec
uenc
ias
0 2 4 6 8 10 12 14
0.00
0.10
0.20
0 2 4 6 8 10 12
-
Normal univariante: densidad
−3 −2 −1 0 1 2 3
0.0
0.2
0.4
0.6
0.8
x
y2
¿Cuál de las tres corresponde a la normal estándar?
-
Normal multivariante: densidad
−2
−1
0
1
2
−2
−1
0
1
20
1
2
3
4
5
6
-
Densidad de la normal multivariante
µ = (0, 0)′ y Σ =
(1 00 1
)
−2
−1
0
1
2
−2
−1
0
1
20
1
2
3
4
5
6
7
-
µ = (0, 0)′ y Σ =
(1 0.8
0.8 1
)
−2 −1.5−1 −0.5
0 0.51 1.5
2
−2
−1
0
1
20
0.5
1
1.5
2
2.5
3
3.5
4
-
µ = (0, 0)′ y Σ =
(1 −0.8−0.8 1
)
−2 −1.5−1 −0.5
0 0.51 1.5
2
−2
−1
0
1
20
0.5
1
1.5
2
2.5
3
3.5
4
-
Ejemplos de datos normales bidimensionales
−5 0 5
−6
−2
02
4
−4 −2 0 2 4
−4
−2
02
4
−4 −2 0 2 4
−3
−1
01
23
−2 −1 0 1 2
−2
−1
01
Σ =
(1 00 1
)Σ =
(1 0.7
0.7 1
)Σ =
(10 00 1
)Σ =
(5 00 1
)
-
Distancias de Mahalanobis para datos normales
−2 −1 0 1 2
−2−1
01
0 2 4 6 8
0.00
0.10
0.20
0.30
−2 −1 0 1 2
−3−1
01
23
0 2 4 6 8 10
0.0
0.1
0.2
0.3
0.4
-
Distancias de Mahalanobis para datos normales
Estad́ısticos descriptivos para D2i en el segundo ejemplo:
Min. 1st Qu. Median Mean 3rd Qu. Max.
0.007255 0.565100 1.314000 1.980000 2.710000 9.735000
Desviacion tipica: 1.920563
Comparación con la densidad χ2:
0 2 4 6 8 10
0.0
0.1
0.2
0.3
0.4
-
Fútbol: distancias de Mahalanobis
Hist. MahalanobisFr
eque
ncy
0 2 4 6 8 10 12
02
46
0 2 4 6 8 10
Cajas Mahalanobis
-
I La forma del histograma coincide con lo que se espera bajonormalidad (distribución χ2)
I La distancia de Mahalanobis media es 3.8 y la varianza de lasdistancias es 9.03
I La mayor distancia es 10.90 y corresponde al Celta.
I La menor distancia es 0.22 y corresponde al Deportivo
top related