análisis de componentes principales maría josé nueda dpto. estadística e investigación...

25
Análisis de componentes principales María José Nueda Dpto. Estadística e Investigación Operativa Homenaje a Marco A. López. Homenaje a Marco A. López. Febrero 2010 Febrero 2010

Upload: felipe-del-cid

Post on 27-Jan-2015

3 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Análisis de componentes principales María José Nueda Dpto. Estadística e Investigación Operativa Homenaje a Marco A. López. Febrero 2010

Análisis de componentes principales

María José NuedaDpto. Estadística e Investigación Operativa

Homenaje a Marco A. López. Febrero 2010Homenaje a Marco A. López. Febrero 2010

Page 2: Análisis de componentes principales María José Nueda Dpto. Estadística e Investigación Operativa Homenaje a Marco A. López. Febrero 2010

2Homenaje a Marco A. López. Febrero 2010

Análisis de componentes principales: ACP

j q

j qi i i

j qn n n n q

y y y

Y y y y

y y y

11 1 1

1

1

j p

j pi i i

j pn n n n p

x x x

X x x x

x x x

11 1 1

1

1

Objetivo:

Definir q nuevas variables, q<p, reteniendo el máximo de información de X.

Individuo i

Variable j

Page 3: Análisis de componentes principales María José Nueda Dpto. Estadística e Investigación Operativa Homenaje a Marco A. López. Febrero 2010

3Homenaje a Marco A. López. Febrero 2010

ID MATHS BIOLOG GEOLO PHYSIC CHEMIST LANGUA ENGLIS VALENCI PHILOSOP LATIN

1 10 9 9,5 9 10 10 9 9 8 9

2 0 1 2 2 1 0 1 1 2 1

3 10 9 8 9 8 0 1 2 1 2

4 0 1 2 1 2 10 10 9 9,5 9

5 8 7 6 7 6 8 7 7 8 8

6 9 7 6 7 8 7 6 8 9 7

7 6 7 5 6 7 5 6 5 6 5

8 7 6 5 5 5 5 6 5 6 6

9 6 7 6 7 5 3 4 4 4 2

10 4 3 3 2 3 7 6 6 5 6

11 4 5 4 3 3 5 5 5 3 4

12 3 3 2 4 3 6 7 6 5 5

13 3 2 3 2 3 7 9 8 6 7

14 8 7 6 8 6 3 2 4 3 4

15 2 3 5 6 0 6 7 7 8 5

Component 1: SCIENCES Component 2: HUMANITIES

Análisis de componentes principales

Page 4: Análisis de componentes principales María José Nueda Dpto. Estadística e Investigación Operativa Homenaje a Marco A. López. Febrero 2010

4Homenaje a Marco A. López. Febrero 2010

SUBJECT

CO

MP

ON

EN

T 2

1,2

1,0

,8

,6

,4

,2

0,0

-,2

SUBJECT

CO

MP

ON

EN

T 1

1,2

1,0

,8

,6

,4

,2

0,0

-,2

-,4

Análisis de componentes principales

Page 5: Análisis de componentes principales María José Nueda Dpto. Estadística e Investigación Operativa Homenaje a Marco A. López. Febrero 2010

5Homenaje a Marco A. López. Febrero 2010

SCIENCES

2,01,51,0,50,0-,5-1,0-1,5

HU

MA

NIT

IES

2,0

1,5

1,0

,5

0,0

-,5

-1,0

-1,5

-2,0

15

14

13

12

11

10

9

8 7

65

4

32

1

Análisis de componentes principales

Page 6: Análisis de componentes principales María José Nueda Dpto. Estadística e Investigación Operativa Homenaje a Marco A. López. Febrero 2010

6Homenaje a Marco A. López. Febrero 2010

Análisis de componentes principales

p=2

q=1

W

Page 7: Análisis de componentes principales María José Nueda Dpto. Estadística e Investigación Operativa Homenaje a Marco A. López. Febrero 2010

7Homenaje a Marco A. López. Febrero 2010

Análisis de componentes principales

p=3

q=2w

Page 8: Análisis de componentes principales María José Nueda Dpto. Estadística e Investigación Operativa Homenaje a Marco A. López. Febrero 2010

8Homenaje a Marco A. López. Febrero 2010

Inercia: Deformación global de la nube al ser proyectada sobre w є W

(familia de subespacios afines en RP de dim q, q<p).

wP Min Is a w W

1( ). .

Análisis de componentes principales

n

w i i ii

I p d x x2

1

ˆ( , )

w

Page 9: Análisis de componentes principales María José Nueda Dpto. Estadística e Investigación Operativa Homenaje a Marco A. López. Febrero 2010

9Homenaje a Marco A. López. Febrero 2010

wP Min Is a w W

1( ) ,. w

q

q

P Min I

s a

w span u u

u u ONO

2

1

1

( )

.

{ ,..., },

{ ,..., }

qTk k

k

Tj k

Tj k

pk

P Max u Vu

s a

u u j k

u u j k

u R k q

31

( )

.

1,

0, ,

, 1,..., .

Datos centrados.g aw wI I

qnT

w i i k ki k

I p x u Vu2

1 1

Análisis de componentes principales

Page 10: Análisis de componentes principales María José Nueda Dpto. Estadística e Investigación Operativa Homenaje a Marco A. López. Febrero 2010

10Homenaje a Marco A. López. Febrero 2010

q p

q kw w w

k q

1 1

1

k

Si ... son los autovalores de V,

,..., es la única solución, siendo

vector propio de V asociado a , 1,..., .

qTk k

k

Tj k

Tj k

pk

P Max u Vu

s a

u u j k

u u j k

u R k q

31

( )

.

1,

0, ,

, 1,..., .

Análisis de componentes principales

Page 11: Análisis de componentes principales María José Nueda Dpto. Estadística e Investigación Operativa Homenaje a Marco A. López. Febrero 2010

11Homenaje a Marco A. López. Febrero 2010

Análisis de componentes principales

López, MA; Goberna, MA. y Pastor, J. (1990) “Población y

bienestar social en los municipios alicantinos”

Objetivo: análisis de las estadísticas relativas a los municipios

alicantinos en el entorno cronológico de 1985 mediante el análisis de

datos multivariantes.

1. Análisis demográfico

2. Nivel de equipamiento (servicios públicos)

3. Nivel de vida (renta, tasa de actividad laboral y estudios)

4. Nivel de estudios

5. Actividad laboral

Page 12: Análisis de componentes principales María José Nueda Dpto. Estadística e Investigación Operativa Homenaje a Marco A. López. Febrero 2010

12Homenaje a Marco A. López. Febrero 2010

1. Análisis demográficoVariables demográficas: (datos del censo y padrón años 80).

1. Tasa de crecimiento de la población

2. Índice de envejecimiento de la población (% mayores de 65)

3. Progresión del envejecimiento (entre 1981-86)

4. Tasa de mujeres

– Crecimiento en pueblos costeros excepto Alicante y Villajoyosa.

– Decrecimiento pequeños pueblos del interior.

– Mayor envejecimiento en el Comtat y las dos Marinas.– Menor envejecimiento en el Baix Vinalopó y Baix Segura.

– Los pequeños pueblos del interior-norte: mayor progesión.– El resto de poblaciones se mantiene estable.

– Los pueblos pequeños del interior son los que mayores diferencias entre % hombres-mujeres presentan.

ACP

n=138

p=4

Page 13: Análisis de componentes principales María José Nueda Dpto. Estadística e Investigación Operativa Homenaje a Marco A. López. Febrero 2010

A: Beniardá, Benimantell, Castell de Castells, Planes, Relleu, Sagra, Vall de Ebo y Vall de Gallinera

C: Adsubia, Agres, Lorcha, Llíber y Vall de Laguart

D: Aguas de Busot, Alcalalí, Alcolecha, Balones, Benimarfull, Benimasot, Campo de Mirra, Gallanes, Jávea, Jijona, Millena y Torremanzanas

Predominio femenino Envejecimiento

en progresión

Alta tasa de crecimiento

Alto índice de envejecimiento

Tollos

Benillup

Confrides

Benidorm

La Nucía

Torrevieja

Page 14: Análisis de componentes principales María José Nueda Dpto. Estadística e Investigación Operativa Homenaje a Marco A. López. Febrero 2010

Predominio femenino Envejecimiento

en progresión

Alta tasa de crecimiento

Alto índice de envejecimiento

1)

2)

3)

4)

Page 15: Análisis de componentes principales María José Nueda Dpto. Estadística e Investigación Operativa Homenaje a Marco A. López. Febrero 2010

15Homenaje a Marco A. López. Febrero 2010

2. Nivel de equipamientoAplican PCA a la matriz 138 municipios x 7 variables:

1. Distancia a la capital de la Provincia

2. Distancia al centro de enseñanza media más próximo

3. Distancia al parque de bomberos asignado al municipio

4. Distancia al hospital general asignado al municipio

5. Número de médicos colegiados en el municipio por cada 1000 habitantes

6. Índice de comunicación: 0 si no tiene estación de ferrocarril y de servicio

telegráfico, 1 si posee uno de los dos servicios y 2 si tiene los dos.

7. Índice de equipamiento educativo:0-3 según el número de servicios

educativos básicos (preescolar, básica y especial).

Con tan sólo 1 componente principal se logra una escala que mide adecuadamente

el equipamiento municipal.

Page 16: Análisis de componentes principales María José Nueda Dpto. Estadística e Investigación Operativa Homenaje a Marco A. López. Febrero 2010

Los grandes municipios son los

mejor dotados. Los peores son los

pequeños municipios del Comtat.

Page 17: Análisis de componentes principales María José Nueda Dpto. Estadística e Investigación Operativa Homenaje a Marco A. López. Febrero 2010

17Homenaje a Marco A. López. Febrero 2010

3. Nivel de vidaAplican ACP a la matriz 138 municipios x 9 variables:

1. Renta familiar

2. Energía de uso doméstico por habitante

3. Nº teléfonos por cada 1000 habitantes

4. Tasa de analfabetismo

5. % habitantes con estudios medios

6. % habitantes con estudios universitarios

7. % habitantes que sabe leer y escribir, sin título de primarios

8. % activos ocupados

9. % activos desempleados con algún empleo anterior.

Con tan sólo 1 componente principal se logra una escala que mide adecuadamente

el nivel de vida municipal.

Page 18: Análisis de componentes principales María José Nueda Dpto. Estadística e Investigación Operativa Homenaje a Marco A. López. Febrero 2010

El nivel de vida más alto: grandes municipios costeros Peor: pueblos del Baix Segura y los pequeños del interior.

Page 19: Análisis de componentes principales María José Nueda Dpto. Estadística e Investigación Operativa Homenaje a Marco A. López. Febrero 2010

19Homenaje a Marco A. López. Febrero 2010

Conclusiones

Relaciones entre factores de bienestar social y demográficos:

1. Nivel de equipamiento influye en el envejecimiento de la población

(jóvenes emigran) y el nivel de vida afecta poco.

2. El crecimiento de la población de derecho está influenciado por el nivel

de vida y por el nivel de equipamiento.

Análisis de componentes principales:

1. El ACP ayuda a resumir la información de grandes bases de datos.

2. Podemos extraer igual o mejores conclusiones que analizando la

información de forma univariante.

Page 20: Análisis de componentes principales María José Nueda Dpto. Estadística e Investigación Operativa Homenaje a Marco A. López. Febrero 2010

20Homenaje a Marco A. López. Febrero 2010

4. Nivel de estudios: A. CorrespondenciasClasifican a los individuos alicantinos en 5 modalidades:

1. Analfabetos

2. Sin título

3. Estudios primarios

4. Grado medio

5. Estudios Universitarios

j p

i ij ip

n nj np n p

Y

n n n

n n nX

n n n

11 1 1

1

1

ACP

p

I

npn

n n nxp

nn

n n

X

nn

n n

111

1. 1.

1

. .

Perfiles fila:

n

J

p np

p p pxn

n n

n n

X

n n

n n

11 1

.1 .1

1

. .

Perfiles columna:

Page 21: Análisis de componentes principales María José Nueda Dpto. Estadística e Investigación Operativa Homenaje a Marco A. López. Febrero 2010

SIN TÍTULO

EST. MEDIOS

EST. SUPERIORES

EGB

ANALFABETOS

Abscisas: escolarizadosOrdenadas: Minoría cualificada

Centro de gravedad:5-15% estudios cualificados50% Sin título-Titulados básicos

Page 22: Análisis de componentes principales María José Nueda Dpto. Estadística e Investigación Operativa Homenaje a Marco A. López. Febrero 2010

22Homenaje a Marco A. López. Febrero 2010

5. Ocupación laboralAplican ACP a la matriz 138 municipios x 4 variables, % ocupados en:

1. Agricultura

2. Industria

3. Construcción

4. Servicios

Previamente se realiza un análisis municipio a municipio.

Con 2 componentes principales se logra resumir adecuadamente esta información.

Page 23: Análisis de componentes principales María José Nueda Dpto. Estadística e Investigación Operativa Homenaje a Marco A. López. Febrero 2010

INDUSTRIA

AGRICULTURA

SERVICIOS

CONSTRUCCIÓN

BENIDORM

TOLLOS

ONIL

Page 24: Análisis de componentes principales María José Nueda Dpto. Estadística e Investigación Operativa Homenaje a Marco A. López. Febrero 2010

24Homenaje a Marco A. López. Febrero 2010

Búsqueda de artículos con palabras: “Principal Component Analysis” desde

01/01/2010 hasta 19/02/2010: 237 publicaciones

• En abstract: 237

• En el título: 18

Page 25: Análisis de componentes principales María José Nueda Dpto. Estadística e Investigación Operativa Homenaje a Marco A. López. Febrero 2010

Gracias