trabajo de análisis de datosvalentin/ad3g/2013/tfa/moises... · figura – 4: representación de...
TRANSCRIPT
Trabajo de Análisis de Datos
Alumnos: Alves de Oliveira, Moisés
Valladolid, Junio 2013
Sumario
1. Dados……..…………………………………………………………………………..1
2. Análisis de Componentes principales (ACP)...………...………………….……….…2
3. Valores Propios.....……………..……………………………………………………..2
4. Correlaciones entre las Variables………………………...…………………………...3
5. Visión General………...………………………………………………………………4
6. Interpretación de la ACP…………………………...…………………………………4
7. Proyecciones..………………………………………………………………...……….6
8. Elementos Atípicos……………………………………………………………………7
9. Clasificación…….………………...…………………………………………………..8
10. Informe no Técnico………………………………………………………………...12
10.1 Datos…………………………………………………………………….……12
10.2 Interpretación de las CP……………………………………………………...13
10.3 Grupos………………………………………………………………………..13
1
1.Dados
O conjunto de dados que acompanha este trabalho são a criminalidade
relacionada com as estatísticas demográficas e de 47 estados dos EUA, em 1960. Os
dados foram coletadas do Relatório Uniform Crime do FBI e outro governo.
M: Porcentual de hombre con edades entre 14-24.
So: Variable indicadora de un estado do Sul.
Ed.: Media de anos de escolaridad.
Po1: Despesas policía en 1960.
Po2: Despesas policía en 1959.
LF: Tasa de actividad.
M.F: Número de himen por 1000 mulleres.
Pop: Populación do Estado.
NW: Número de no blancos por 1000 personas.
U1: Tasa de desempego dos hombre urbanos 14-24.
U2: Tasa de desempego dos himen urbanos 35-39.
PIB-GDP: O producto interno bruto per cápita.
Ineq: Desigualdad de renda.
Prob: Probabilidad de prisión.
Time: Tempo medio servido en prisões estatuáis.
Y: Tasa de crimen en una determinada categoría per cápita da populación.
2
Tabla 1 : Descripción de los datos.
2.Análisis de Componentes Principales normado
Utilizaremos un ACP para estudiar estos datos. Disponemos de 16 variables
cuantitativas x 47 individuos, con una variable categórica So (Indicadora de un estado do Sul)
con dos niveles. Utilizaremos datos normados porque tenemos variables que tienes escalas de
mediciones diferente de las demás, un ejemplo la variable de Prob (Probabilidad de prisión), que
tienes una escala entre 0 y 1, entonces la varianza entre las variables de estudio se queda muy
distinta, y para una mejor interpretación, nos ponemos a normalizar todas las variables.
El objetivo consiste en definir índices de delitos del país, y a través de las variables destacadas
ver se la administración gubernamentales pode actual de alguna forma para solucionar el
problema de estos estados. Vamos tratar los datos sin distinción de región, y emplearemos esta
variable So únicamente como ilustrativa.
3.Valores propios
Tabla 2 : A presentación de los ejes
El primer eje factorial recoge 37,77% de la información y el primer plano, el 56,49. Con el
tercer eje alcanzaríamos el 79.02%.
Los dos primer ejes recogen más inercia que si hubieran sido elegido al a caso sin
ninguno otro criterio. Pues no obstante, y tampoco será demasiado complicado manejar
información del tercer factor. E si pode nos resultar una interpretación más aceptable.
3
Figura – 1: Representación dos Valores Propios
Tomamos a elección del ejes de acuerdo con la porcentaje que nos tragan de
información e según el criterio dos valores propios, entonces fue decidido una elección que no
nos trazan demasiadas complicaciones y los ejes de valores propios más altos, el criterio de los
valores propios nos indica que el factor que tienes un valor mayor que uno son aceptables para
elección del eje, más para no tenernos muchas complicaciones elegimos tres ejes que nos tras
próximo a 80% de información.
4. Correlaciones entre las variables
Tabla 3 : Correlación de las variables
Tenemos correlaciones positivas y negativas entre las 15 variables. En destaque la más
alta aparece entre Po1-Po2(0,99), GDP-Po1(0,79) y GDP-Po2(0,79), para las correlaciones
positivas, y siendo que las variables Po1 y Po2 son muy correladas, entonces otra variable que é
correlada con Po1 también será con Po2, siendo o que acontece con a variable GDP.
0
1
2
3
4
5
6
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
Val
or
Pro
pio
VALOR PROPIO
4
5.Visión general
Visualizamos toda esta estructura de correlaciones de una manera general y más
rápidamente mediante un gráfico de puntos variable en el plano 1-2 que se obtiene en un ACP
Normado, pues las correlaciones entre variables normadas son las mismas que entre las
variables originales.
Figura -2: Representación de las correlaciones entre las variables con datos normados.
5
6. Interpretación de las CP (componentes principales)
Tabla 4: Descripción de las CP
Primer eje:
-0.30M + 0.33Ed + 0.36Po1 + 0.36Po2 + 0,16LF + 10M.F + 0.15Pop – 0.26NW +
0.03U1 + 0.04U2 +0.40GDP – 0.36Ineq -0.27Prob – 0.0Time + 0.23y
_____________________________Eje1_____________________________________
M
NW
Ineq
Prob
Ed
Po1
Pol2
GDP
La primera CP está altamente correlada con las variables Ed(0,79), Po1(0,85), Po2(0,85)
y GDP(0,96), y inversamente corelada con las variables M(-0,71), NW(-0,62),
Ineq(-0,86) y Prob(-0,65).
Los estado que gastan con más seguridad e presenta una renda mayor y que las
persona tienes una escolaridad mejor, están con índices de crimen menor, y acontece el
contrario con los estados que tienes un número de personas no blancos, desigualdad de
renda, porcentaje de hombre con edad entre 14-24 años y con una probabilidad de
prisión mayor.
Segundo eje:
0.02M - 0.27Ed + 0.22Po1 + 0.21Po2 - 0,32LF - 39M.F + 0.44Pop + 0.29NW –
0.03U1 + 0.27U2 +0.0GDP + 0.36Ineq -0.27Prob – 0.0Time + 0.23y
_______________________________Eje2___________________________________
Ed
LF
MF
Pop
NW
U2
Time
6
La según CP las variables tienes una correlación más baja, tanto las
correlaciones positivas cuanto las negativas, Pop(0,74), NW(0,49), U2(0,45) y
Time(0,66), y inversamente corelada con las variables Ed(-0,46), LF(-0,62) y MF(-
0,65).
Los estados que tienes una mayor populación, números de personas no blancas,
con una tasa de desempleo dos hombres urbanos 35-39 años y un tiempo medio servido
en prisiones estaduales, los mismo toman valores bajos en media de años de
escolaridad, tasa de actividad y numero de hombre por 1000 mulleres.
Tercer eje:
0.21M + 0.07Ed + 0.04Po1 + 0.04Po2 + 0,29LF – 0.16M.F + 0.05Pop + 0.10NW –
0.65U1 - 0.58U2 - 0.01GDP + 0.03Ineq - 0.10Prob + 0.20Time + 0.10y
________________________________Ej3__________________________________ U1
U2
M
LF
Time
En la tercer CP, tenemos los valore dos variables que toman valores muy altos
negativamente siendo las variables U1 y U2 con valores (-0,93) y (-0,82)
respectivamente, cuanto las variables que tienes correlaciones positivas no toman valore
muy altos, M(0,29), LF(0,41) y Time(0,29),observando que los estado que puntúan alto
en esas variables de correlaciones positivas, puntúan bajo en las variables con
correlaciones negativa, ou sea, estados que tienes un mayor porcentual de hombres con
edad entre 14-24 años, tasa de actividad y tiempo de medio servido en prisiones
estaduales, toman menores valores de tasa de desempleo de hombres de edad 14-24 y
35-39.
7.Proyecciones
Figura -2: Proyecciones de los individuos atípicos eje 1-2.
7
Figura -3: Proyecciones de individuos atípicos eje 1-3.
Con una análisis grafica de las Figuras 2 y 3, vemos que lo puntos llenan de forma
bastante dispersas en todo el rango de medidas y no aparecen grupos nítidamente aislados.La
calidad de la representación en los planos 1-2 y 1-3 es alta para la gran mayoría.
La variable categórica en esto datos es la variable So (indicadora del estado del Sul,
si=1 y no=0), vemos que los pontos de representación de los datos están muy dispersos,
entonces para identificar los estados que son del Sul do país, pintamos los mismos con las
colores verde para os que son, y azul para los estados que no son do Sul del país. Así siendo
podemos ver que pode ser formado dos grupos, un con estados que son do Sul e otro con
estados que no so del Sul.
Los estados del Sul están a izquierda de Figura 2 y e tienes una mejor puntuación no eje
2 do que en lo eje 1, pues los puntos son mas ajuntados en la parte positiva del grafico, y las
correlaciones das variables M, NW, Ineq y Prob, están apuntando para ellas, o sea, los estado
del Sul do país la desigualdad de renda, o numero de no blancos, probabilidad de prisión y la
porcentaje de hombres con edad entre 14-41 son mas predominante en esta región del
país.Vemos en la Figura 3, los estados representados no eje 3, son mas dispersos, no tiendo
una, así también con los estados que no son del Sul, pues la representación de los puntos están
muy dispersos para lo eje 1 y eje 2.
Como presumimos los estados que no son del Sul do país que son presentados en la
derecha del grafico 2 y 3 las representación de ellos están muy disperso, no vemos alguna nube
de puntos muy acerca un do otro. También vemos las correlaciones de las variables Po1, Po2,
Pop y GDP están apuntando para los estados que nos son del Sul, o sea, los estado que no son
del Sul tienes una mejor seguridad, una mayor renda, una tasa de escolaridad mejor y una
populación mayor.
Podemos ver que las variables U1, U2 y Time, son inversamente correladas, e atreves
de los Gráficos 3 vemos más claro estas variables son incorrelados con las demás, o sea, no
presenta valores distintos para estados del Sul e estados que no son del Sul.
8
8. Elementos atípicos
Tabla 5: Valores presentados discrepantes de los datos.
individuo 04 22 26 29 37 45
dist02 35,33 37,83 39,91 39,17 30,68 26,01
Figura – 4: Representación de los datos con valores discrepantes marcados.
En la Figura 4 vemos la representación de los datos general, y marcados los
valores que se distancian de la nube, pues a principio hemos hecho una análisis con los
datos general con software Sas, para detectar puntos atípicos en la análisis, por suerte ha
sido encontrado solo un punto que se consideraba atípico, mas no fue retirado del banco
de dato, porque no influencia no resultado de esta análisis, y el puntos destacados,
tampoco es atípico pues, la nube general es un poco dispersas e estos puntos solo está
un poco alejados, mas no de forma que sea significativa la tu distancia para dar
diferencia en lo resultado.
Por lo tanto, los estados que tienes una mejor escolaridad, mas investimento en
la seguridad, mas populación y una mayor renda, se diferencia con los estados que
tienes una desigualdad de renda, probabilidad de prisión y porcentual de hombres con
edad entre 14-24 años, en relación al los número de delitos criminales.
9. Clasificación
Para una mejor comprensión de los datos que temus, técnicas para analízalos en
grupos, la técnica presentada aquí, llamamos de análisis de Cluster, como notros datos
contiene una variable que categórica que indica los estado que son do Sul o no, vamos
de principio decidir en trabajar con solo dos grupos, siendo elles d estados que son do
Sul y otro que no son.
9
Tabla -6: Descripción del Grupo 1/2.
Vemos que este grupo las variables que están con un p-valore no significativos,
no fueran usado para construir el grupo analizado, y tenemos que las variables con T-
valores positivos son inversamente correladas con las variables que toman valor do T-
valor negativo. Siendo estas variables que toman el T-valores positivos, son las
variables que puntúan alto en los estados del Sul.
Tabla -7: Descripción del Grupo 1/2
En segundo grupo que son los estados que no son del Sul, tenemos que los
valores son justamente el contrario de la Tabla 6, por supuesto las variables son
incorreladas, e aquellas que no tienen los p-valores significativos son las mismas de la
Tabla 6, que no incorporan en la formación del grupo, y os T-valores positivos son de
las variables que puntúan alto para estado que no son del Sul.
10
Figura – 5: Representación de los dos grupos (Cluster).
Como de principio hemos decididos trabajar solo con dos grupos, conforme el
Grafico 5, siendo un grupo con estado del Sul (verde) y estados que no son del Sul
(azul), e amarillo los grupos formados, entonces vemos que las variables destacadas en
las Tablas 6 y 7 con p-valores no significativos para formación del grupos
correspondientes, vemos que son la variables muy incorreladas con las demás, y las
variables que obtendrán T-valores positivos en la Tabla 6 y 7, sus vectores propios
siguen los respectivos grupos.
Figura – 6: Dendograma de los dos grupos (Cluster).
Para visualizar el agrupamiento de individuos en sus respectivos grupos, hemos
hecho un Dendograma con una clasificación Hireraquica. Vemos que en los grupos, el
grupo de estado que son del Sul, toman 26% de las observaciones, en cuanto el grupo de
estados que no son del Sul, toman 74%, vemos la formación de los grupos no presenta
ninguno comportamiento distinto, como afeito “bola de nieve “, así el Grafico esta con
una representación buena de los grupos formados.
Por lo tanto, los estados del Sul presenta una fragilidad en relación números de
Crimen, y o aumento de Seguridad, investimento en la escolaridad que son variables
que puntúan alto en los estados que no son del Sul, podría ser una boa solución para el
gobernó tomar como con estos estados, para que disminuya el índices de criminalidad,
así como otros factores observados.
11
10. Informe no Técnico
10.1 Descrición de los Dados
O conjunto de dados que acompanha este trabalho são a criminalidade
relacionada com as estatísticas demográficas e de 47 estados dos EUA, em 1960. Os
dados foram coletadas do Relatório Uniform Crime do FBI e outro governo
correspodente a seguridad.
M: Porcentual de hombre con edades entre 14-24.
So: Variable indicadora de un estado do Sul.
Ed.: Media de anos de escolaridad.
Po1: Despesas policía en 1960.
Po2: Despesas policía en 1959.
LF: Tasa de actividad.
M.F: Número de himen por 1000 mulleres.
Pop: Populación do Estado.
NW: Número de no blancos por 1000 personas.
U1: Tasa de desempego dos hombre urbanos 14-24.
U2: Tasa de desempego dos himen urbanos 35-39.
PIB-GDP: O producto interno bruto per cápita.
Ineq: Desigualdad de renda.
Prob: Probabilidad de prisión.
Time: Tempo medio servido en prisões estatuáis.
Y: Tasa de crimen en una determinada categoría per cápita da populación.
El objetivo consiste en definir índices de delitos del país, y a través de las variables
destacadas ver se la administración gubernamentales pode actual de alguna forma para
solucionar el problema de estos estados. Vamos tratar los datos sin distinción de región, y
emplearemos esta variable So únicamente como ilustrativa.
Tabla 1 : Descripción de los datos.
12
Los dos primer ejes recogen más inercia que si hubieran sido elegido al a caso sin
ninguno otro criterio. Pues no obstante, y tampoco será demasiado complicado manejar
información del tercer factor. E si pode nos resultar una interpretación más aceptable.
10.2 Interpretación de las CP (componentes principales)
Conforme el primer eje los estado que gastan con más seguridad e presenta una
renda mayor y que las persona tienes una escolaridad mejor, están con índices de crimen
menor, y acontece el contrario con los estados que tienes un número de personas no
blancos, desigualdad de renda, porcentaje de hombre con edad entre 14-24 años y con
una probabilidad de prisión mayor.
Tenemos en lo según eje que en los estados que tienes una mayor populación,
números de personas no blancas, con una tasa de desempleo dos hombres urbanos 35-39
años y un tiempo medio servido en prisiones estaduales, los mismo toman valores bajos
en media de años de escolaridad, tasa de actividad y numero de hombre por 1000
mulleres. Y en tercer eje los estados que tienes un mayor porcentual de hombres con
edad entre 14-24 años, tasa de actividad y tiempo de medio servido en prisiones
estaduales, toman menores valores de tasa de desempleo de hombres de edad 14-24 y
35-39.
10.3 Grupos
Vemos que en los grupos, el grupo de estado que no son del Sul, toman 26% de
las observaciones, en cuanto el grupo de estados que no son del Sul, toman 74%, vemos
la formación de los grupos no presenta ninguno comportamiento distinto, como afeito
“bola de nieve “, así el Grafico esta con una representación buena de los grupos
formados.
Por lo tanto, los estados del Sul presenta una fragilidad en relación números de
Crimen, y o aumento de Seguridad, investimento en la escolaridad que son variables
que puntúan alto en los estados que no son del Sul, podría ser una boa solución para el
gobernó tomar como con estos estados, para que disminuya el índices de criminalidad,
así como otros factores observados.