comunalidade
DESCRIPTION
documento de estatistica multivariadaTRANSCRIPT
1
Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística
Prof. Lorí Viali, Dr.
http://www.pucrs.br/famat/viali;
http://www.mat.ufrgs.br/~viali/
Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística
Factor Analysis (FACAN)
Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística
Abrir o arquivo ven_car.sav
Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística
Utilizar as 10 variáveis a partir de “Vehicle Type”.
Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística
Clique “Extraction”
2
Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística
Clique “Rotation”
Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística
Clique “Scores”
Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística
Esta seleção produz uma solução que utiliza
a extração através de “componentes principais”
que são então girados para facilitar a
interpretação. Componentes com “autovalores”
acima de “um” são salvos em um arquivo de
trabalho.
Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística
Comunalidade representa a proporção da variância de uma variável que é compartilhada com os fatores comuns na análise de fatores.
Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística
Comunalidades iniciais são estimativas da
variância que cada variável apresenta em comum
com cada fator. Para a extração por
“componentes principais” elas são sempre
inicialmente iguais a um.
Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística
3
Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística
Comunalidades de extração são estimativas da variância em cada variável compartilha com os fatores. As comunalidades na tabela são todas altas indicando que os componentes extraídos representam bem as variáveis. Se qualquer comunalidade for baixa, neste método, será preciso extrair outro componente.
Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística
Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística
A tabela mostra autovalores iniciais, o percentual da variância que cada componente explica e percentual da variância acumulada.
∑=10
Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística
Na solução inicial existem tantas componentes quanto variáveis. Na análise de correlação a soma dos autovetores é igual ao número de componentes. Foi solicitado que o número que autovalores maiores do que um fossem extraídos, assim os três primeiros componentes formam a solução.
Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística
A segunda coluna da tabela mostra os componentes extraídos. Eles explicam aproximadamente 88% da variabilidade das dez variáveis originais. Assim a complexidade dos dados pode ser bastante reduzida pela utilização destes componentes com perda de apenas 12 da informação.
Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística
A rotação mantém o % acumulado da variação
explicada pelos componentes extraídos, mas esta
variação está agora distribuída de maneira mais
uniforme. As grandes mudanças nos totais individuais
sugerem que a matriz dos componentes rotacionados
será mais simples de interpretar do que a matriz
original.
4
Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística
O gráfico da declividade (scree plot) ajuda na determinação do número ótimo de componentes, plotando os autovalores de cada componente da solução inicial.
Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística
Os componentes da parte mais plana do gráfico contribuem com muito pouco na solução.
Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística
A última grande queda (declive) ocorre entre o terceiro e o quarto componentes. Assim a escolha de três componentes é a mais natural.
Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística
A matriz dos componentes rotacionados ajuda na interpretação do que os componentes significam.
Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística
Assim o primeiro componente apresenta correlações mais altas com o “Preço” (Price in thousands) e “Potência” (Horsepower). O preço é um representante melhor, pois está menos correlacionado com os demais componentes.
5
Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística
O segundo componente está correlacionado de forma mais alta com o “Comprimento” (Lenght).
Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística
O terceiro componente está mais altamente correlacionado com o “Tipo de veículo” (Vehicle type).
Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística
A últimas três variáveis (curb weight, fuel
capacity e fuel efficiency) não estão separando
muito bem, pois apesar de apresentam correlações
mais altas com o terceiro componente também
apresentam correlações elevadas com os outros dois
componentes.
Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística
Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística
A sugestão é, então, que as dez variáveis sejam representadas pelas seguintes três fatores: preço, comprimento e tipo.
Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística
6
Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística
A análise hierárquica de aglomerados (HCA -Hierarchical Cluster Analysis) é uma ferramenta exploratória que objetiva revelar agrupamentos naturais (clusters) dentro de conjuntos que aparentemente não apresenta grupos. Ela é mais útil quando se quer agrupar um pequeno número (algumas centenas) de casos. Os objetos podem ser casos ou variáveis.
Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística
O critério básico para qualquer agrupamento é
a distância. Os objetos que estão próximos um do
outro pertencem ao mesmo grupo e se estão
distantes pertencem a grupos diferentes. Para um
dado conjunto de dados os agrupamentos são
construídos dependendo da especificação dos
seguintes parâmetros:
Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística
Método. Define as regras para a formação dos
grupos. Por exemplo, quando se calcula a distância
entre dois grupos, pode-se utilizar o par de objetos
mais próximos ou o par de objetos mais distantes
ou alguma combinação dos dois.
Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística
Medidas. Define a fórmula para o cálculo das
distâncias. Por exemplo, a distância Euclidiana que
mede a distância em linha reta entre os dois grupos.
Medidas Intervalares assumem que as variáveis
são ordinais.
Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística
Medidas de contagem assumem que elas são
numéricas discretas. Medidas binárias assumem que
eles assumem apenas dois valores.
Padronização. Permite que sejam equalizados os
efeitos das variáveis medidas em escalas diferentes.
Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística
O arquivo ven_car.sav apresenta
informações sobre vários modelos de veículos.
Utilize a Análise Hierárquica de Aglomerados
para agrupar os carros de valores de vendas mais
altos de acordo com suas propriedades físicas.
7
Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística
Abrir o arquivo ven_car.sav. Selecionar os carros com vendas acima de 100 milunidades.
Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística
Para isto utilize o condicional “If”
Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística
Qualquer análise agora, será executada apenas sobre os carros com vendas maiores que 100 mil unidades.
Digite as duas condições: tipo = carro (type = 0) e vendas > 100 (sales > 100) , na janela que se abrir.
Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística
Observe que os carros que apresentam vendas “sales”abaixo de 100 estão eliminados (marcados) na planilha.
Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística
Rodar o análise através
do procedimento: Classify –
Hierarchical Cluster.
8
Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística
Utilize o modelo do carro como rótulo (label)
Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística
Clique em “Plots” e marque o diagrama
“Dendograma”.
Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística
Clique em “Method” e escolha o do vizinho mais próximo (Nearest neighbor)
Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística
O dendograma é um resumo gráfico da solução dada pela “análise de agrupamento”.
Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística
Os casos ficam listados à esquerda.
Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística
O eixo horizontal mostra a distância entre os grupos quando eles são ligados.
9
Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística
Examinar a árvore de classificação para
determinar o número de grupos (clusters) é um
processo subjetivo. Geralmente deve-se observar os
espaços vazios (gaps) entre as junções ao longo do
eixo horizontal.
Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística
Iniciando pela direita, observa-se o primeiro “gap”entre as distâncias 20 e 25, que divide os carros em dois grupos.
Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística
Existe outro “gap” entre as distâncias 10 e 15, que sugere a existência de seis grupos.
Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística
A planilha de aglomeração é um resumo numérico da solução. No primeiro estágio os casos 8 e 11 são combinados, pois são eles que apresentam a menor distância.
Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística
O grupo criado por eles aparece somente no estágio
sete. No estágio sete os grupos criados no estágio um e
três são unidos. O resultado aparece após no estágio oito.
Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística
Quando existem muitos casos esta tabela se tornará
longa. Mas pode ser mais fácil procurar por “gaps” na
coluna dos coeficientes do que no dendograma.
10
Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística
Uma boa solução é a que percebe mudanças súbitas nos coeficientes. A solução antes do gapindica a melhor solução.
GapCoeficienteEstágio
0,9445,718100,2694,77490,0854,50580,7504,42071,0513,67060,3012,61950,6932,31840,0461,62530,3191,57921,2601,2601
Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística
O maior gap entre
os coeficientes ocorre
entre os estágios cinco e
seis, indicando uma
solução de seis grupos e
entre os estágios nove e
dez indicando uma
solução de dois grupos.
GapCoeficienteEstágio
0,9445,718100,2694,77490,0854,50580,7504,42071,0513,67060,3012,61950,6932,31840,0461,62530,3191,57921,2601,2601
Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística
Esta não é uma solução totalmente satisfatória,
pois não representa uma classificação forte. Tente
uma análise utilizando encadeamento completo
(complete linkage) com o vizinho mais distante
(Furthest neighbor) como método de agrupamento.
Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística
Utilize novamente a caixa de diálogo da Análise Hierárquica.
Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística
Em método de agrupamento escolha “Furthestneighbor”.
Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística
Os primeiros estágios não diferem do método anterior, mas nos finais ela é bem diferente, pois este método fornece uma classificação forte em dois ou três grupos.
11
Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística
A eficácia desta classificação é refletida no dendograma.
Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística
A divisão inicial da árvore forma dois grupos distintos. O primeiro contendo os carros pequenos e o segundo os carros maiores.
Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística
O grupo dos carros pequenos pode ainda ser dividido em dois. O dos carros pequenos e o dos econômicos. O Civic e o Corolla são pequenos e mais baratos que o Accord e o Camry por exemplo.
Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística
A solução por este método é satisfatória porque os
grupos são distintos, enquanto que no anterior a
solução não era tão evidente. Utilizando o
encadeamento completo pode-se determinar a
competição por veículos na fase de projeto. Basta entrar
com suas especificações como novos casos no conjunto
de dados e, então, refazer a análise.