albuquerque 2005 - analise de agrupamento

Upload: danimiquee

Post on 12-Oct-2015

51 views

Category:

Documents


0 download

TRANSCRIPT

  • 5/22/2018 Albuquerque 2005 - Analise de Agrupamento

    1/64

    MCIO AUGUSTO DE ALBUQUERQUE

    ESTABILIDADE EM ANLISE DE AGRUPAMENTO

    (CLUSTER ANALYSIS)

    Dissertao apresentada a Universidade Federal Rural

    de Pernambuco, para obteno do titulo de Mestre em

    Biometria, rea de concentrao: Modelagem eplanejamento de experimentao.

    Orientador: Prof. Rinaldo Luiz Caraciolo Ferreira, Dr.

    Co-orientadores: Prof. Jos Antnio Aleixo da Silva, PhD.Prof. Borko D. Stosic, PhD.

    RECIFE

    Estado de Pernambuco Brasil

    Fevereiro 2005

    1

  • 5/22/2018 Albuquerque 2005 - Analise de Agrupamento

    2/64

    Ficha catalogrfica

    Setor de Processos Tcnicos da Biblioteca Central UFRPE

    A345e Albuquerque, Mcio Augusto deEstabilidade em anlise de agrupamento (cluster

    analysis) / Mcio Augusto de Albuquerque. 2005.62 f. : il., tabs.

    Orientador: Rinaldo Luiz Caraciolo FerreiraDissertao (Mestrado em Biometria) Universida-

    de Federal Rural de Pernambuco. Departamento deFsica e Matemtica.

    Refrencias.

    CDD 574.018 21. Tabela de contingncia2. Anlise de agrupamento3. Algoritmo de agrupamento4. Mahalanobis5. Tcnica de hierarquizao aglomerativaI. Ferreira, Rinaldo Luiz CaracioloII. Ttulo

  • 5/22/2018 Albuquerque 2005 - Analise de Agrupamento

    3/64

    Universidade Federal Rural de PernambucoDepartamento Fsica e Matemtica

    Mestrado em Biometria

    ESTABILIDADE EM ANLISE DE AGRUPAMENTO

    (CLUSTER ANALYSIS)

    MCIO AUGUSTO DE ALBUQUERQUE

    Dissertao foi julgada adequada para obteno do titulo de mestre em Biometria,

    defendida e aprovada por unanimidade em 23/02/2005 pela Banca Examinadora:

    Orientador:

    __________________________________________________

    Prof. Dr. Rinaldo Luiz Caraciolo Ferreira UFRPE

    Examinadores:

    __________________________________________________

    Prof. PhD. Jos Antnio Aleixo da Silva UFRPE

    ___________________________________________________Prof. Dr. Eufrzio de Souza Santos - UFRPE

    ___________________________________________________

    Prof. PhD. Mrio de Andrade Lira Jnior - UFRPE

    RECIFE PEFevereiro/2005

  • 5/22/2018 Albuquerque 2005 - Analise de Agrupamento

    4/64

    A minha famlia, em especial minha esposa Edna e aos

    meus filhos Tarsyla e Trcio e a minha me Luzia, por

    sempre me incentivarem, apoiarem e darem fora para

    seguir em busca dos meus ideais.

    DEDICO

  • 5/22/2018 Albuquerque 2005 - Analise de Agrupamento

    5/64

    AGRADECIMENTOS

    Agradecimento o sentimento de principal importncia dentro da realizaodeste trabalho. Acredito que seria impossvel a evoluo do ser sem que houvesse,

    direta e indiretamente a participao de outros. E que essa interao influenciou

    significativamente a minha vida, permitindo-me crescer no sentido mais amplo da

    palavra. Por isso, tentarei agradecer a todos envolvidos na elaborao deste

    trabalho.

    A Deus pela fora para realizao desse trabalho.

    Ao meu orientador professor doutor Rinaldo Luiz Caraciolo Ferreira, peladedicao, praticidade, honestidade e orientao na execuo deste trabalho; pela

    amizade e apoio durante todo o curso e principalmente pela confiana em mim

    depositada.

    Ao coordenador do curso de Biometria professor doutor Eufrzio de Souza

    Santos, pela orientao, pela dedicao e esforo pelo curso. Meu respeito e

    gratido.

    Especialmente ao professor Borko Stosic, pelas sugestes na elaborao da

    dissertao.

    Aos professores, Gauss Moutinho Cordeiro, Paulo de Paula Mendes e Maria

    Adlia Oliveira Monteiro da Cruz, pela dedicao, apoio e pela transmisso do

    conhecimento no decorrer do curso.

    Ao meu amigo e cunhado Jos Jernimo de Arajo, pelo incentivo e ajuda

    nas pesquisas pela internet, dedicando todo o seu carinho e ateno e

    principalmente por poder ter contado sempre com seu conselho amigo.

    E a Cilene Augusta da Nbrega Veloso, pelo incentivo e ajuda no portugus,

    dedico todo carinho e ateno.

    Ao colega amigo Antonio Lopes Pessoa, pelas caronas, por todo apoio nas

    horas difceis e tambm pelos timos momentos vivenciados juntos.

    Aos amigos Paulo Duarte, Adalberto Gomes, Marcela Vernica, Luiz de

    Frana, Cleto Bezerra, Nedson Pereira, Arundo Nunes, Ady Marinho, Heliovnio

    Torres, Ilzes Celi, Carlos Andr, Srgio de S, Dmocles Aurlio, Antnio Jos de

    Oliveira, pela tima convivncia durante o curso.

  • 5/22/2018 Albuquerque 2005 - Analise de Agrupamento

    6/64

    Ao amigo Bruno Cunha Coutinho, aluno do curso de Computao da UFPB,

    que contribuiu com os seus conhecimentos em programao C.

    As secretrias, Josemar, Mary e ao secretrio Marcos pelo carinho, respeito e

    amizade.

    A Universidade Federal Rural de Pernambuco, pela oportunidade derealizao do meu mestrado.

    coordenadoria de Aperfeioamento de Pessoal de Nvel Superior CAPES,

    pela bolsa concedida.

    A todos que de alguma forma contriburam para o crescimento de cada

    momento para realizao deste trabalho.

  • 5/22/2018 Albuquerque 2005 - Analise de Agrupamento

    7/64

    SUMRIO

    PginaLISTA DE TABELAS viLISTA DE FIGURAS viiRESUMO viiiABSTRACT ix

    1. INTRODUO .. 012. REVISO DE LITERATURA .. 03

    2.1 A Anlise de Agrupamento ... 032.2 As tcnicas de anlise de agrupamentos .. 052.2.1 Tcnicas hierarquizao 062.2.2 Definio do nmero de grupos ... 072.2.3 Dendrograma .. 08

    2.3 Medidas de distncia . 092.4 Algoritmos de agrupamento . 132.4.1 Mtodo da Ligao Simples .. 132.4.2 Mtodo da Ligao Completa ... 142.4.3 Mtodo do Centride .. 152.4.4 Mtodo da Mediana 162.4.5 Mtodo das Mdias das Distncias (da Mdia de agrupamento) .. 172.4.6 Mtodo de Ward . 172.5 Inferncia estatstica . 192.6 Bootstrap . 192. 7 Correlao Cofentica . 22

    3. MATERIAL E MTODOS 243.1 Dados .. 243.2 Mtodos Estatsticos . 253.2.1Estabilidade via mtodo bootstrap 253.2.2 Medida de distncia 263.2.3 Algoritmos de agrupamento .. 263.2.4 Dendrogramas 323.2.5 Correlao Cofentica ... 323.2.6 Distoro entre a matriz de dissimilaridade e matriz cofentica . 333.2.7 Tabelas de contingncia 343.2.7.1 Independncia e associao entre mtodos .. 34

    4. RESULTADOS E DISCUSSO . 364.1 Anlise de agrupamento a partir da matriz de Mahalanobis original 364.2. Anlise de agrupamento a partir da matriz de Mahalanobis viabootstrap .. 414.3 Correlao cofentica 474.4 Distoro entre a matriz de dissimilaridade e a matriz cofentica . 47

    5. CONCLUSES . 496. REFERNCIAS BIBLIOGRFICAS .. 50

  • 5/22/2018 Albuquerque 2005 - Analise de Agrupamento

    8/64

    LISTA DE FIGURAS

    Figura Pgina

    01 Diagrama esquemtico ilustrando a construo da distribuiobootstrap ............................................................................................ 21

    02Dendrograma representando as seqncias das fuses dasparcelas, obtidas pelo emprego do mtodo da ligao simples, combase na distncia Mahanalobis dos dados originais ........................... 37

    03Dendrograma representando as seqncias das fuses dasparcelas, obtida pelo emprego do mtodo ligao completa, combase na distncia Mahalanobis dos dados originais ........................... 37

    04

    Dendrograma representando as seqncias das fuses das

    parcelas, obtida pelo emprego do mtodo da centride, com base nadistncia Mahalanobis dados originais ................................................ 38

    05Dendrograma representando as seqncias das fuses dasparcelas, obtido pelo emprego do mtodo mediana, com base nadistncia Mahalanobis dos dados originais ......................................... 38

    06Dendrograma representando as seqncias das fuses dasparcelas, obtida pelo emprego do mtodo das mdias da distncia,com base na distncia Mahalanobis dos dados originais .................... 39

    07Dendrograma representando as seqncias das fuses dasparcelas, obtidas pelo emprego do mtodo do Ward, com base na

    distncia Mahalanobis dos dados originais ......................................... 39

    08Dendrograma representando as seqncias das fuses dasparcelas, obtida pelo emprego do mtodo ligao simples, com basena matriz de distncia de Mahalanobis via bootstrap ......................... 43

    09Dendrograma representando as seqncias das fuses dasparcelas, obtida pelo emprego do mtodo ligao completa, combase na distncia Mahalanobis via bootstrap...................................... 43

    10Dendrograma representando as seqncias das fuses dasparcelas, obtida pelo emprego do mtodo da centride, com base na

    distncia Mahalanobis via bootstrap .................................................... 44

    11Dendrograma representando as seqncias das fuses dasparcelas, obtido pelo emprego do mtodo mediana, com base nadistncia Mahalanobis via bootstrap .................................................... 44

    12Dendrograma representando as seqncias das fuses dasparcelas, obtida pelo emprego do mtodo das mdias da distncia,com base na distncia Mahalanobis via bootstrap .............................. 45

    13Dendrograma representando as seqncias das fuses dasparcelas, obtidas pelo emprego do mtodo do Ward, com base nadistncia Mahalanobis via bootstrap ....................................................

    45

  • 5/22/2018 Albuquerque 2005 - Analise de Agrupamento

    9/64

    LISTA DE TABELAS

    Tabela Pgina

    01 Densidade de 17 espcies da mata da silvicultura, em parcelas de20 X 50 m, Universidade Federal de Viosa MG ............................ 24

    02 Forma geral de uma tabela de contingncia de duas dimenses 34

    03Matriz de distncia Mahalanobis dos dados originais para as 11parcelas da Mata da Silvicultura, da Universidade Federal de Viosa MG ................................................................................................... 36

    04

    Porcentagem de grupos coincidentes entre mtodos deagrupamento, com base na matriz de Mahalanobis dos dadosoriginais, (nvel de significncia do teste de independncia do ), a

    partir da tabela de contingncia e do grau de associao ..................

    2

    40

    05Resultados dos dados originais com associao dos mtodosobtidos a partir da qui-quadrado ......................................................... 41

    06Matriz de Mahalanobis obtida via reamostragem bootstrap apscom 10000 iteraes ........................................................................... 42

    07

    Porcentagem de grupos coincidentes entre mtodos deagrupamento, com base na matriz de Mahalanobis via bootstrap,(nvel de significncia do teste de independncia do ), a partir databela de contingncia e do grau de associao ................................

    2

    46

    08Resultados dos dados de reamostragem bootstrap com 10000interaes com associao dos mtodos obtidos a partir da qui-quadrado ............................................................................................. 46

    09Correlaes cofentica entre as matrizes cofentica e a dedissimilaridade obtidas conforme mtodo de agrupamento utilizado . 47

    10Grau de distoro (%) entre as distncias original e bootstrap e aobtida por meio dos dendrogramas obtidos conforme mtodo deagrupamento utilizado ......................................................................... 47

  • 5/22/2018 Albuquerque 2005 - Analise de Agrupamento

    10/64

    Estabilidade em Anlise de Agrupamento

    Autor: Ms. Albuquerque, Macio Augusto

    Orientador: Dr. Rinaldo Luiz Caraciolo Ferreira

    RESUMO

    Objetivou-se propor uma sistemtica para o estudo e a interpretao da

    estabilidade dos mtodos em anlise de agrupamento, atravs de vrios algoritmos

    de agrupamento em dados de vegetao. Utilizou-se dados provenientes de um

    levantamento na Mata da Silvicultura, da Universidade Federal de Viosa-MG. Para

    anlise de agrupamento foram estimadas as matrizes de distncia de Mahalanobis

    com base nos dados originais e via reamostragem bootstrap e aplicados os

    mtodos da ligao simples, ligao completa, mdias das distncias, do centride,

    da mediana e do Ward. Para a deteco de associao entre os mtodos foi

    aplicado o teste qui-quadrado. Para os diversos mtodos de agrupamento foi obtida

    a correlao cofentica. Os resultados de associao dos mtodos foram

    semelhantes, indicando em princpio que qualquer algoritmo de agrupamento

    estudado est estabilizado e existem, de fato, grupos entre os indivduos

    observados. No entanto, observou-se que os mtodos so coincidentes, exceto os

    mtodos do centride e Ward e os mtodos do centride e mediana quandocomparados com o de Ward, respectivamente, com base nas matrizes de

    Mahalanobis a partir dos dados originais e bootstrap. A sistemtica proposta

    promissora para o estudo e a interpretao da estabilidade dos mtodos de anlise

    de agrupamento em dados de vegetao.

    viii

  • 5/22/2018 Albuquerque 2005 - Analise de Agrupamento

    11/64

    STABILITY IN CLUSTER ANALYSIS

    Autohr: Ms. Albuquerque, Mcio Augusto

    Advisor: Dr. Rionaldo Luiz Caraciolo Ferreira

    ABSTRACT

    The main objective of this research was to propose a systematic to the study

    and interpretation of the stability of methods in cluster analysis through many cluster

    algorithms in vegetation data. The data set used came from a survey in the

    Silviculture Forest at Federal University of Viosa MG. To perform the cluster

    analysis the matrices of Mahalanobis distance were estimated based on the original

    data and by bootstrap resampling. Also the methods of single linkageage, complete

    linkageage, the average of the distances, the centroid, the medium and the Ward

    were used. For the detection of the association among the methods it was applied

    the chi-square test. For the various methods of clustering it was obtained a

    cofenetical correlation. The results of the associations of methods were very similar,

    indicating, in principle, that any algorithm of cluster studied is stabilized and exist, in

    fact, groups among the individuals analyzed. However, it was concluded that the

    methods coincide with themselves, except the methods of centroid and Ward. Also

    the centroid methods and average when compared to the Ward, respectively, based

    on the matrices of Mahalanobis starting from the original data set and bootstrap.The methodology proposed is promising to the study and interpretation of the stability

    of methods concerning the cluster analysis in vegetation data.

    ix

  • 5/22/2018 Albuquerque 2005 - Analise de Agrupamento

    12/64

    1- INTRODUO

    As tcnicas de anlise multivariada possibilitam avaliar um conjunto de

    caractersticas, levando em considerao as correlaes existentes, que permitem

    que inferncias sobre o conjunto de variveis sejam feitas em um nvel de

    significncia conhecido.

    Nas diversas reas do conhecimento uma das tcnicas multivariadas mais

    utilizadas a anlise de agrupamento. O seu emprego em reas tais como

    engenharia florestal, experimentos agronmicos, medicina, sociologia,

    administrao, entre outras, vem aumentando muito nos ltimos anos.

    A anlise de agrupamento tem por finalidade reunir, por algum critrio de

    classificao as unidades amostrais em grupos, de tal forma que exista

    homogeneidade dentro do grupo e heterogeneidade entre grupos (Johnson &

    Wichern, 1992; Cruz & Regazzi, 1994).

    O processo de agrupamento envolve basicamente duas etapas. A primeira se

    refere estimao de uma medida de dissimilaridade entre os indivduos e a

    segunda, refere-se adoo de uma tcnica de formao de grupos.

    Um grande nmero de medidas de similaridade ou de dissimilaridade tem sido

    proposto e utilizado em anlise de agrupamento, sendo a escolha entre elas

    baseada na preferncia e/ou na convenincia do pesquisador (Bussab et al., 1990).

    Com a definio da medida de dissimilaridade a ser utilizada, a etapa

    seguinte a adoo de uma tcnica de agrupamento para formao dos grupos.

    Para realizao desta tarefa, existe um grande nmero de mtodos disponveis, dos

    quais o pesquisador tem de decidir qual o mais adequado ao seu propsito, uma vez

    que as diferentes tcnicas podem levar a diferentes solues (Souza et al., 1997).

    As tcnicas de anlise de agrupamento exigem de seus usurios a tomada deuma srie de decises independentes, que requerem o conhecimento das

    propriedades dos diversos algoritmos disposio e que podem representar

    diferentes agrupamentos. Alm disso, o resultado dos agrupamentos pode ser

    influenciado pela escolha da medida de dissimilaridade, bem como pela definio do

    nmero de grupos (Gower & Legendre, 1986; Jackson et al., 1989; Duarte et al.,

    1999).

    O incremento na capacidade computacional promoveu grandes avanos naanlise multivariada, reduzindo simultaneamente o esforo e os custos. Uma dessas

    1

  • 5/22/2018 Albuquerque 2005 - Analise de Agrupamento

    13/64

    possibilidades de otimizao o procedimento de reamostragem bootstrap". Esses

    procedimentos tm sido utilizados para avaliar a estabilidade dos agrupamentos

    obtidos a partir de matrizes de dissimilaridade (Weir, 1990; Meyer, 1995; Hillis et al.,

    1996; Manly, 1997). Logo, aplicao do procedimento de reamostragem bootstrap

    pode fornecer um ponto de equilbrio que permite uma estimativa precisa dosgrupos.

    Assim, objetivou-se propor uma sistemtica para o estudo e a interpretao

    da estabilidade dos mtodos em anlise de agrupamento, atravs de vrios

    algoritmos de agrupamento em dados de vegetao.

    2

  • 5/22/2018 Albuquerque 2005 - Analise de Agrupamento

    14/64

    2 - REVISO DE LITERATURA

    Em quase todas as reas de pesquisa vrias variveis so mensuradas e, em

    geral, essas devem ser analisadas conjuntamente. A anlise multivariada a rea

    da estatstica que trata desse tipo de estudo e existem vrias tcnicas que podemser aplicadas, sendo que, a utilizao dessas depende do tipo de dado que se

    deseja analisar e dos objetivos do estudo.

    Segundo Anderson (1984), existem, basicamente, duas formas de classificar

    as anlises multivariadas: as que permitem extrair informaes a respeito da

    independncia entre as variveis que caracterizam cada elemento, tais como anlise

    fatorial, anlise de agrupamento, anlise cannica, anlise de ordenamento

    multidimensional e anlise de componentes principais; e as que permitem extrairinformaes a respeito da dependncia entre uma ou mais variveis ou uma com

    relao outra, tais como anlise de regresso multivariada, anlise de contingncia

    mltipla, anlise discriminante e anlise de varincia multivariada.

    2.1 A Anlise de Agrupamento

    A anlise de agrupamento uma tcnica multivariada que tem por objetivo

    proporcionar uma ou vrias parties na massa de dados, em grupos, por algum

    critrio de classificao, de tal forma que exista homogeneidade dentro e

    heterogeneidade entre grupos (Sneath & Sokal, 1973; Mardia et al., 1997).

    Essa tcnica sumariza dados para interpretao e utiliza mtodos que

    procuram grupos excludentes, ascendentes, reduzindo as informaes de um

    conjunto de n indivduos para informaes de um novo conjunto de g grupos, onde g

    significativamente menor que n, resultando um dendrograma de excluso (Mardia

    et al., 1997).

    Conforme Reis (1997), de modo sinttico, a tcnica pode ser descrita como

    se segue: dado um conjunto de n indivduos para os quais existe informao sobre a

    forma p variveis, o mtodo de anlise de agrupamento procede ao agrupamento

    dos indivduos em funo da informao existente, de tal modo que os indivduos

    pertencentes a um mesmo grupo sejam to semelhantes quanto possvel e sempre

    mais semelhante aos elementos do mesmo grupo do que aos elementos dos grupos

    restantes. Essa tcnica tambm chamada de tcnica de partio, classificao ou

    taxonomia, embora o termo partio seja mais utilizado para uma das tcnicas

    3

  • 5/22/2018 Albuquerque 2005 - Analise de Agrupamento

    15/64

    especificas da anlise: aquela em que os indivduos so divididos por um nmero

    preestabelecido de grupos.

    Segundo Aaker et al. (2001), a premissa mais importante da anlise de

    agrupamento a de que a medida de similaridade ou dissimilaridade na qual o

    processo de agrupamento se baseia uma medida vlida de similaridade oudissimilaridade entre os indivduos. A segunda premissa mais importante a de que

    existe uma justificativa terica para estruturar os indivduos em grupos. Como em

    outras tcnicas multivariadas, tambm h teoria e lgica guiando e dando base

    anlise de agrupamento.

    Geralmente, difcil avaliar a qualidade do processo de agrupamento. No

    existem testes estatsticos padres para garantir que o resultado seja puramente

    aleatrio. O valor do critrio medida, legitimidade do resultado, aparncia de umahierarquia natural (quando for empregado um mtodo no hierrquico) e

    confiabilidade de testes de diviso de amostra, oferecem informaes teis (Bussab

    et al., 1990). Entretanto, difcil saber, exatamente, quais os grupos so muito

    parecidos e quais objetos so difceis de serem inseridos. Geralmente, no fcil

    selecionar um critrio e programa de agrupamento por meio de outra referncia que

    no a disponibilidade.

    Na anlise de agrupamento, fundamental ter particular cuidado na seleo

    das variveis de partida que vo caracterizar cada indivduo, e determinar, em ltima

    instncia, qual o grupo em que deve ser inscrito. Nesta anlise no existe qualquer

    tipo de dependncia entre as variveis, isto , os grupos se configuram por si

    mesmo sem necessidade de ser definida uma relao causal entre as variveis

    utilizadas. Essa anlise no faz uso de modelos aleatrios, mas til por fornecer

    um sumrio bem justificado de um conjunto de dados. As tcnicas so exploratrias

    e a idia , sobretudo gerar hipteses, mais do que test-las, sendo necessria a

    validao posterior dos resultados encontrados atravs da aplicao de outros

    mtodos estatsticos (Reis, 1997).

    Genericamente, a anlise de agrupamento compreende cinco etapas (Aaker

    et al., 2001):

    1. A seleo de indivduos ou de uma amostra de indivduos a serem

    agrupados;

    2. A definio de um conjunto de variveis a partir das quais sero obtidas

    informaes necessrias ao agrupamento dos indivduos;

    4

  • 5/22/2018 Albuquerque 2005 - Analise de Agrupamento

    16/64

    3. A definio de uma medida de semelhana ou distncia entre os

    indivduos;

    4. A escolha de um algoritmo de partio/classificao;

    5. Por ltimo, a validao dos resultados encontrados.

    2.2 As tcnicas de anlise de agrupamentos

    A anlise de agrupamento envolve algumas decises subjetivas, como qual a

    tcnica a mais conveniente, conforme as circunstncias.

    Vrios so os tipos de tcnicas de agrupamento encontradas na literatura

    (Johnson & Wichern, 1992; Cruz & Regazzi, 1994; Mardia el al., 1997; Aaker et al.,

    2001; Barroso & Artes, 2003), tendo o pesquisador que tomar a deciso de qual amais adequada ao seu propsito, uma vez que, as diferentes tcnicas podem levar a

    diferentes solues.

    De maneira geral, ao empregar quaisquer procedimentos de anlise de

    agrupamento, o pesquisador deve tomar cuidado com os seguintes aspectos

    (Aldenderfer & Brashield, 1984):

    - A maioria dos mtodos de anlise de agrupamento procedimento

    relativamente simples que, geralmente, no tem um embasamento terico estatstico

    abrangente.

    - Os mtodos de anlise de agrupamento foram desenvolvidos com base em

    diversas disciplinas, e os vieses herdados de cada uma delas podem diferir muito

    entre si.

    - Mtodos de agrupamentos diferentes geram solues diferentes para o

    mesmo conjunto de dados.

    - A estratgia da anlise de agrupamentos busca uma estrutura, enquanto

    sua operao necessita de uma estrutura preestabelecida.

    As prprias tcnicas de agrupar podem ser classificadas em grupos, e

    diferentes autores produzem diferentes classificaes. Cormack (1971), prope a

    seguinte:

    1) A tcnica hierrquica de agrupamento consiste em uma srie de sucessivos

    agrupamentos ou sucessivas divises de elementos, em que os elementos so

    agregados ou desagregados. As tcnicas hierrquicas so subdivididas em

    aglomerativas e divisivas.

    5

  • 5/22/2018 Albuquerque 2005 - Analise de Agrupamento

    17/64

    Os grupos, na tcnica hierrquica, so geralmente representados por um

    diagrama bi-dimensional chamado de dendrograma ou diagrama de rvore. Nesse

    diagrama, cada ramo representa um elemento, enquanto a raiz representa o

    agrupamento de todos os elementos.

    2) As tcnicas no-hierrquicas, ou por particionamento, foram desenvolvidos paraagrupar elementos em K grupos, em que K a quantidade de grupos definida

    previamente.

    Nem todos valores de K apresentam grupos satisfatrios, sendo assim,

    aplica-se o mtodo vrias vezes para diferentes valores de K, escolhendo os

    resultados que apresentem melhor interpretao dos grupos ou uma melhor

    representao grfica (Bussab et al., 1990).

    A idia central da maioria dos mtodos por particionamento escolher umapartio inicial dos elementos e, em seguida, alterar os membros dos grupos para

    obter-se a melhor partio (Anderberg, 1973).

    Quando comparado com a tcnica hierrquica, a tcnica no-hierrquica ou

    por particionamento mais rpido porque no necessrio calcular e armazenar,

    durante o processamento, a matriz de similaridade ou dissimilaridade (Johnson &

    Wichern, 1992).

    Em geral, os mtodos por particionamento diferem entre si pela maneira que

    constituem a melhor partio. Como qualquer classificao, existiro tipos que sero

    difceis de classificar, ou que podero caber em mais de um grupo.

    2.2.1 Tcnicas hierarquizao

    Segundo Reis (1997), as tcnicas de hierarquizao conduzem a uma

    hierarquia de parties P1 P2,...,Pn do conjunto total dos n objetos em 1, 2....n

    grupos. A denominao de hierrquicos advm do fato de, que, para cada par de

    parties Pi e Pi + 1, cada grupo da partio P i + 1 est sempre includo num grupo da

    partio Pi.

    Esse tipo de tcnica se baseia na construo de uma matriz de

    dissimilaridade ou distncias em que cada elemento da matriz descreve o grau de

    diferena entre cada dois casos com base nas variveis escolhidas. Segundo Souza

    et al. (1997), os mtodos hierrquicos se dividem em aglomerativos e divisivos.

    Entre os mtodos aglomerativos, citam-se o do vizinho mais prximo, do vizinho

    mais distante, da mediana, do centride, da mdia das distncia e o proposto

    6

  • 5/22/2018 Albuquerque 2005 - Analise de Agrupamento

    18/64

    por Ward (1963). Entre os mtodos divisivos, o mais conhecido o de Edwards e

    Cavalli-Sforza (1965). Nos primeiros, parte-se de n grupos de apenas um indivduo,

    que vo sendo agrupados, sucessivamente, at que se encontre apenas um grupo

    que incluir a totalidade dos n indivduos. O processo inverso utilizado pelos

    mtodos divisivos: parte-se de um grupo que inclui todos os indivduos em estudo epor um processo sistemtico de divises sucessivas. Os mtodos de anlise de

    agrupamentos mais utilizados pelos pesquisadores so os hierrquicos

    aglomerativos.

    O ponto de partida comum a todos os mtodos hierrquicos a construo de

    uma matriz de similaridade ou de distncia, sendo este o terceiro problema a

    resolver em qualquer anlise de agrupamento.

    2.2.2 Definio do nmero de grupos

    Determinar o nmero de grupos para uma base de dados uma das tarefas

    mais difceis no processamento de agrupamento.

    Para Barroso & Artes (2003), o nmero de grupos pode ser definido a priori,

    atravs de algum conhecimento que se tenha sobre os dados, pela convenincia do

    pesquisador, por simplicidade, ou ainda pode ser definido a posteriori com base nos

    resultados da anlise.

    De acordo com Aaker et al., (2001), para determinar o nmero apropriado de

    grupos, existem diversas abordagens possveis: em primeiro lugar, o pesquisador

    pode especificar antecipadamente o nmero de agrupamentos. Talvez, por motivos

    tericos e lgicos, esse nmero seja conhecido. O pesquisador pode tambm, ter

    razes prticas para estabelecer o nmero de agrupamentos, com base no uso que

    pretende fazer dele. Em segundo lugar, o pesquisador pode especificar o nvel de

    agrupamento de acordo com um critrio. Se o critrio de agrupamento for de fcil

    interpretao, tal com a mdia de similaridade interna do agrupamento, possvel

    estabelecer certo nvel que ditaria o nmero de agrupamentos. Uma terceira

    abordagem determinar o nmero de agrupamentos com base no padro gerado

    pelo programa. As distncias entre os agrupamentos em etapas sucessivas podem

    servir de guia, e o pesquisador pode escolher interromper o processo quando as

    distncias excederem um valor estabelecido. Uma quarta abordagem representar,

    graficamente, a razo entre a varincia total interna dos grupos e a varincia entre

    os grupos, em relao ao nmero de agrupamentos. O ponto em que surgir uma

    7

  • 5/22/2018 Albuquerque 2005 - Analise de Agrupamento

    19/64

    curva acentuada, um ponto de inflexo, seria a indicao do nmero adequado de

    agrupamentos. Aumentar esse nmero alm desse ponto seria intil, e diminu-lo

    seria correr o risco de misturar objetos diferentes.

    Qualquer que seja a abordagem empregada, geralmente aconselhvel

    observar o padro total de agrupamentos. Isto pode proporcionar uma medida daqualidade do processo de agrupamento e do nmero de agrupamentos que emerge

    nos vrios nveis do critrio de agrupamento. Geralmente mais de um nvel de

    agrupamento relevante (Aaker et al., 2001).

    No caso de no existir o conhecimento do nmero de grupos em que a

    populao em estudo dever ser dividida, um dos mtodos usados quando se usam

    tcnicas hierrquicas, consiste na comparao grfica do nmero de agrupamento

    com o respectivo coeficiente de fuso, isto , o valor numrico (distncia ousemelhana) para o qual vrios casos se unem para formar um grupo (Reis, 1997).

    Assim, quando a diviso de um novo grupo no introduz alteraes significativas no

    coeficiente de fuso, poder se tomar essa partio como sendo tima. Outro

    procedimento utilizado o da comparao dos resultados obtidos por vrios

    mtodos diferentes de agrupamento. Poder-se- aferir o grau de convergncia entre

    os vrios mtodos de agrupamento atravs de uma tabela de contingncia,

    indicando o nmero de observaes que se agrupam no mesmo agrupamento,para

    o mesmo nmero de agrupamento. Desta forma possvel verificar a maior ou

    menor estabilidade das solues encontradas, de maneira a concluir acerca da

    qualidade do agrupamento efetuado.

    2.2.3 Dendrograma

    Dendrograma uma representao matemtica e ilustrativa de todo o

    procedimento de agrupamento atravs de uma estrutura de rvore (Everitt et al.

    2001).

    Os ns do dendrograma representam agrupamentos, E ns so compostos

    pelos grupos e ou objetos (grupos formados apenas por ele mesmo) ligados a ele

    (n). Se cortarmos o dendrograma em um nvel de distncia desejado, obteremos

    uma classificao dos nmeros de grupos existentes nesse nvel e dos indivduos

    que os formam. O nmero de grupo dos indivduos obtido pelo corte do

    dendrograma em um nvel desejado e ento cada componente conectado forma um

    grupo.

    8

  • 5/22/2018 Albuquerque 2005 - Analise de Agrupamento

    20/64

    2.3Medidas de distncia

    Para agrupar indivduos, necessrio a definio de uma medida de

    similaridade ou dissimilaridade. Com base nessa medida os indivduos similares so

    agrupados e os demais so colocados em grupos separados (Aaker et al., 2001):As medidas de dissimilaridade tm papel central nos algoritmos de

    agrupamentos. Atravs delas so definidos critrios para avaliar se dois pontos

    esto prximos, e, portanto, podem fazer parte de um mesmo grupo, ou no.

    Segundo Barroso & Artes (2003), h dois tipos de medidas de parecena:

    medidas de similaridade (quanto maior o valor, maior a semelhana entre os objetos)

    e medidas de dissimilaridade (quanto maior o valor, menor a semelhana entre os

    objetos).De um modo geral, as medidas de similaridade e de dissimilaridade so

    interrelacionadas e, facilmente, transformveis entre si (Bussab et al., 1990). H um

    grande nmero de coeficientes de similaridade e/ou de dissimilaridade para

    caracteres binrios disponveis na literatura. Segundo Clifford & Stephenson (1975),

    tais coeficientes podem ser, facilmente, convertidos para coeficientes de

    dissimilaridade: se a similaridade for denominada s, a medida de dissimilaridade

    ser o seu complementar (1 s).

    A maioria dos mtodos de anlise de agrupamento requer uma medida de

    similaridade ou dissimilaridade entre os elementos a serem agrupados, normalmente

    expressa como uma funo distncia ou mtrica (Doni, 2004).

    Seja M um conjunto, uma mtrica em M uma funo d: MxM , tal que

    para quaisquer i, j, z M, tenhamos:

    1. d (i, j) = d (j, i) (simtrica);

    2. d (i, j) > 0, se ij;

    3. d (i, j) = 0, se e somente se, i = j; e

    4. d (i, j) d (i, z) + d (z, j) (desigualdade triangular).

    Alm disso, esperado que d (i, j) aumente quando a dissimilaridade entre i e

    j aumentar.

    Existem vrias medidas que podem ser utilizadas como medidas de

    distncias ou dissimilaridade entre elementos de uma matriz de dados, (Cormack,

    1971) descreve uma srie de medidas possveis: distncias euclidiana, euclidiana

    quadrada e euclidiana padronizada, distncia corda, distncia de Nei, distncia

    9

  • 5/22/2018 Albuquerque 2005 - Analise de Agrupamento

    21/64

    absoluta ou City Block Metric, distncia de Minkowski, distncia Mahalanobis,

    distncia de Chebychev.

    Segundo Cormack (1971) as distncias mais utilizadas em anlise de

    agrupamento so:

    1. Distncia Euclidiana: a distncia entre dois casos (i e j) a raizquadrada do somatrio dos quadrados das diferenas entre valores de i e j para

    todas as variveis (v = 1, 2, ,,,,, p).

    =

    =p

    1v

    2)jvXiv(Xijd

    em que

    X iv representa a caracterstica do indivduo i,

    X jv representa a caracterstica do individuo j,

    p o nmero de parcelas na amostra,

    v o nmero indivduo na amostra.

    2. Distncia Euclidiana quadrada: a distncia entre dois casos (i e j)

    definida como o somatrio dos quadrados das diferenas entre os valores de i e j

    para todas as variveis (v = 1, 2.....p).

    ==

    p

    1v2)jvXiv(X2ijd

    em que:

    X iv representa a caracterstica do indivduo i,

    X jv representa a caracterstica do individuo j,

    p o nmero de parcelas na amostra,

    v o nmero indivduo na amostra.

    3. Distncia euclidiana ponderada.

    Para Bussab et al., (1990), na realidade, este coeficiente de similaridade e

    dissimilaridade est associado a uma questo freqente em anlise de

    agrupamento, que o da ponderao das variveis, ou seja, o de dar mais peso

    para variveis que o pesquisador julgar mais importante para definir semelhana.

    )jX-i(XS')jX-i(Xd =

    10

  • 5/22/2018 Albuquerque 2005 - Analise de Agrupamento

    22/64

    S uma matriz diagonal, tendo i-simo componente a varincia s2i, isto , S

    = diag. ( ento:)2ps.....,,22s,2

    1s

    ')jXi(X matriz transposta;

    )jXiX( uma matriz ;

    Xi o vetor de mdias do isimo indivduo;

    Xj o vetor de mdias do jsimo indivduo.

    Os casos particulares mais importantes, sendo a distncia ponderada por S,

    so:

    i ) S = 1, a ponderao a matriz identidade, tem-se ento a distncia

    euclidiana usual.

    ii ) S = [ diag. ])2ps.....,,22s,2

    1s(

    -1 , e tem-se a distncia das variveis

    padronizadas.

    iii ) S = V 1, onde V matriz de covarincias, tem-se ento a distncia de

    Mahalanobis.

    Esta ltima distncia, alm de ponderar pela variabilidade de cada uma das

    componentes, leva em conta tambm o grau de correlao entre elas. Este fato

    torna muito difcil a interpretao de resultados baseados neste coeficiente de

    similaridade dissimilaridade.

    4. Distncia de Mahalanobis tambm chamada distncia generalizada, Esta

    medida, ao contrrio das apresentadas anteriormente, considera a matriz de

    covarincia para o clculo das distncias: Esta a distncia escolhida para o

    nosso trabalho pois ela leva em considerao a estrutura de correlao existente

    nos dados.

    Para Reis (1997), a distncia generalizada D2de Mahalanobis tambm pode

    ser usada como tcnica de comparao quando na separao entre diversos

    grupos, permitindo avaliar a extenso e a direo dos afastamentos entre os valores

    mdios das variveis usadas na discriminao. As diferenas entre cada par de

    grupos que esto sendo comparados so, assim, examinados simultaneamente por

    meio das diversas variveis, que podem ser correlacionadas, de modo que, a

    11

  • 5/22/2018 Albuquerque 2005 - Analise de Agrupamento

    23/64

    informao fornecida por uma delas pode no ser independente da fornecida pelas

    demais.

    O valor numrico da maior separao possvel entre dois grupos quaisquer

    chamado distncia generalizada entre os grupos e mede, em escala independente

    da originalmente utilizada para as vrias variveis, a clareza das disjunes entreelas.

    Assim, o valor da distncia generalizada D2, ligando dois grupos, um

    nmero puro, com propriedades da distncia comum, e mede a extenso com que

    diferem entre si em tamanho e forma.

    A distncia Generalizada de Mahalanobis entre os grupos i e j usualmente

    estimada segundo (Rao, 1952) por:

    2ij

    D =(X~

    i -~Xj).

    -1 .(X~

    i - X~

    j)

    em que:

    ~iX o vetor de mdias do isimo grupo;

    ~

    jX o vetor de mdias do jsimo grupo;

    a estimativa combinada da matriz da Covarincia/varincia dentro dos

    grupos.

    Para o clculo de D2, supe-se a existncia de distribuio multinormal p-

    dimensional e a homogeneidade da matriz de covarincia residual das unidades

    amostrais, restringindo-se, portanto, o seu uso. Entretanto, considervel robustez

    para violao dessas hipteses j foi demonstradas, que faz da distncia de

    Mahalanobis uma opo de grande utilidade, principalmente pelo fato de D2 ter

    analogia com outras tcnicas multivariadas (Cruz e Regazzi, 1994). Alm disso, adistncia de Mahalanobis considera a variabilidade dentro de cada unidade

    amostral, e no somente a medida de tendncia central, sendo, portanto, uma

    medida mais aceitvel, quando as unidades amostrais constituem um conjunto de

    indivduos e, principalmente, quando as variveis so correlacionadas (Riboldi,

    1986).

    Este mtodo de representao de diferenas entre grupos leva em

    considerao qualquer correlao que exista as variveis utilizadas, e tambmindependente das unidades de medida com que as variveis esto expressas.

    12

  • 5/22/2018 Albuquerque 2005 - Analise de Agrupamento

    24/64

    2.4 Algoritmos de agrupamento

    Nos algoritmos de agrupamentos hierrquicos, conhecidos como SAHN

    (Seqencial, Agglomerative, Hierarquic, Nonoverlapping Clustering Methods), emcada passo do agrupamento h a necessidade de recalcular o coeficiente de

    dissimilaridade entre os grupos estabelecidos e os possveis candidatos a futuras

    admisses de novos membros nos grupos j estabelecidos (Sneath & Sokal, 1973).

    Os vrios mtodos de agregao das espcies diferem no modo como

    estimam distncia entre grupo j formado e outros grupos ou indivduos por agrupar.

    O processo de agrupamento de indivduos j agrupados depende da similaridade e

    dissimilaridade entre os grupos. Portanto, diferentes definies destas distnciaspodero resultar em diferentes solues finais (Bussab et al., 1990).

    A seguir, so apresentados diversos mtodos de agrupamentos que fazem

    parte dos mtodos SAHN. Vale salientar que, no existe o que se possa chamar de

    melhor critrio na anlise de agrupamentos, mas alguns so mais indicados para

    determinadas situaes do que outros (Kaufmann & Rosseeuw, 1990). prtica

    comum utilizar vrios critrios e fazer a comparao dos resultados, se tais

    resultados forem semelhantes, possvel concluir que eles possuem um elevado

    grau de estabilidade e, portanto, so confiveis.

    Os mtodos mais comuns de agrupamento para determinar a distncia entre

    agrupamentos so: ligao simples, ligao completa, dos centrides, da mediana,

    das mdias das distncias e da soma de erros quadrticos ou varincia (mtodo

    Ward) (Anderberg, 1973).

    2.4.1 Mtodo da Ligao Simples

    Este algoritmo, tambm denominado de mtodo do elemento mais prximo

    (Neighbourhoods) um dos mais simples, sendo de uso geral e de rpida aplicao.

    O mtodo da ligao simples, segundo Orlci (1978); Gama (1980); e Mardia

    et al. (1997), uma tcnica de hierarquizao aglomerativa, e tem como uma de

    suas caractersticas no exigir que o nmero de agrupamentos seja fixado a priori,

    assim, temos:

    Seja E = {E1, E2, ,,, , Ep} um conjunto de elementos em que cada um representado por um vetor X

    ~i , para i = 1, 2, ,,,, p pontos do espao p-dimensional

    13

  • 5/22/2018 Albuquerque 2005 - Analise de Agrupamento

    25/64

    (Ip), no caso de anlise de vegetao, cada dimenso do espao corresponde a uma

    espcie diferente, ento, qualquer medida de distncia estatstica ou de similaridade

    pode ser empregada neste algoritmo.

    Suponha que tenham sido determinados todos os n(n-1)/2 diferentes valores

    de dijou Sij (i = j = 1, 2..... n), representados na forma de uma matriz de distncia(D1) ou de similaridade (S1).

    No mtodo da ligao simples, os agrupamentos entre objetos e grupos ou

    entre grupos so feitos por ligaes simples entre pares de objetos, ou seja, a

    distncia entre os grupos definida como sendo aquela entre os objetos mais

    parecidos entre esses grupos. Este mtodo leva a grupos longos se comparados aos

    grupos formados por outros mtodos de agrupamentos SAHN (Meyer, 2002). Os

    dendrogramas, resultantes deste procedimento, so, geralmente, poucoinformativos, devido informao dos indivduos intermedirios que no so

    evidentes (Carlini-Garcia, 1998). De acordo com Sneath & Sokal (1973),

    agrupamentos pelo mtodo de ligao simples podem ser obtidos tanto pelo

    procedimento aglomerativo quanto divisivo.

    Anderberg (1973) cita as seguintes caractersticas desse mtodo:

    Em geral, grupos muito prximos podem no ser identificados;

    Permite detectar grupos de formas no-elipticas; Apresenta pouca tolerncia a rudo, pois tem tendncia a incorporar os

    rudos em um grupo j existente;

    Apresenta bons resultados tanto para distncia Mahalanobis quanto para

    outras distncias;

    Tendncia a formar longas cadeias (encadeamento).

    Encadeamento um termo que descreve a situao em que h um primeiro

    grupo de um ou mais elementos que passa a incorporar, a cada interao, um grupo

    de apenas um elemento. Assim, formada uma longa cadeia, onde se torna difcil

    definir um nvel de corte para classificar os elementos em grupos (Romesburg, 1984).

    2.4.2 Mtodo da Ligao Completa

    Este mtodo tambm denominado de mtodo do elemento mais distante,

    sendo uma das tcnicas de hierarquizao aglomerativa de maior aplicao na

    14

  • 5/22/2018 Albuquerque 2005 - Analise de Agrupamento

    26/64

    anlise de agrupamento (Gama, 1980). Como no mtodo de ligao simples, aqui

    tambm no exigida a fixao, a priori, do nmero de agrupamentos.

    Conforme Bussab et al. (1990), no mtodo da ligao completa, tambm

    denominado vizinho mais distante, a dissimilaridade entre dois grupos definida

    como sendo aquela apresentada pelos indivduos de cada grupo que mais separecem, ou seja, formam-se todos os pares com um membro de cada grupo, e a

    dissimilaridade entre os grupos definida pelo par que mais se parece. Este mtodo,

    geralmente, leva a grupos compactos e discretos, tendo os seus valores de

    dissimilaridade relativamente grande.

    Kaufmann & Rosseeuw (1990) cita as seguintes caractersticas desse mtodo:

    Apresenta bons resultados tanto para a distncias Mahalanobis quanto paraoutras distancias;

    Tendncia a formar grupos compactos;

    Os rudos demoram para serem incorporados ao grupo.

    2.4.3 Mtodo do Centride

    O mtodo do centride foi proposto por Sokal & Michener (1958) e teve comoorigem, a caracterizao da matriz de dados como pontos do espao Mahalanobis

    (Ip). Cada agrupamento considerado um simples ponto, representado pelo seu

    centro de massa, chamado centride. O presente mtodo utiliza uma funo de

    agrupamento para medir a distncia entre os centros de massa dos dados. Esta

    tcnica de hierarquizao aglomerativa.

    Este algoritmo se caracteriza pela redefinio, a cada passo, da matriz de

    dados, em que cada agrupamento representado pelo vetor mdio das p variveis

    envolvidas. Na realidade, uma nova matriz de distncias determinada a cada

    interao.

    No mtodo do centride, a distncia entre dois grupos definida como a

    distncia entre os seus centrides, pontos definidos pelas mdias das variveis

    caracterizadoras dos indivduos de cada grupo, isto , o mtodo do centride calcula

    a distncia entre dois grupos como a diferena entre as suas mdias, para todas as

    variveis. Uma desvantagem desse mtodo que se os dois grupos forem muito

    diferentes em termos de dimenso, o centride do novo agrupamento estar, mas

    15

  • 5/22/2018 Albuquerque 2005 - Analise de Agrupamento

    27/64

    prximo daquele que for maior e as caractersticas do grupo menor tendero a se

    perde. De fato, com esse mtodo, o centride do novo grupo uma combinao

    ponderada dos centrides dos dois grupos separados, sendo as ponderaes

    proporcionais ao tamanho destes grupos (Reis, 1997).

    Uma caracterstica importante desse algoritmo a de que a distncia entreagrupamentos determinada pela distncia entre os pontos representativos dos

    seus respectivos centros de massa (centride).

    Kaufmann & Rosseeuw (1990) cita as seguintes caractersticas desse mtodo:

    Robustez presena de rudos;

    Fenmeno da reverso.

    O fenmeno da reverso ocorre quando a distncia entre centrides menor

    que distncia entre grupos j formados, isso far com que os novos grupos sejamformados em um nvel inferior aos grupos j existentes, tornando o dendrogama

    confuso (Romesburg, 1984).

    2.4.4 Mtodo da Mediana

    Com base na metodologia proposta por Orlci (1978) e Gama (1980), este

    algoritmo um caso particular do mtodo do centride. A determinao da distnciaentre dois agrupamentos por meio do clculo do centro de massa no considera o

    nmero de elementos em cada um dos agrupamentos. Assim, o vetor mdio que

    representa o novo agrupamento, pode eventualmente, ficar situado entre os

    elementos do agrupamento com maior nmero de elementos. Para contornar este

    problema, Gower (1967) desenvolveu um procedimento de clculo que pondera a

    medida de distncia pelo nmero de elementos de cada agrupamento.

    A rigor, os dois mtodos so um s, no havendo razes para classific-los

    como mtodos distintos.

    Para Barroso & Artes (2003), o mtodo da mediana uma modificao do

    mtodo do centride para a independncia da distncia do tamanho dos grupos. Se

    agregarem os grupos, com centrides a e b, para formar um novo grupo, a distncia

    desse novo grupo a outro grupo, de centride c, a mediana.

    Kaufmann & Rosseeuw (1990) cita as seguintes caractersticas desse mtodo:

    Apresenta resultado satisfatrio quando os grupos possuem tamanhos

    diferentes;

    16

  • 5/22/2018 Albuquerque 2005 - Analise de Agrupamento

    28/64

    Pode apresentar resultado diferente quando permutados os elementos na

    matriz de dissimilaridade;

    Robustez presena de outliers;

    Fenmeno da reverso.

    2.4.5 Mtodo das Mdias das Distncias (da Mdia de agrupamento)

    Este mtodo define a distncia entre dois grupos como sendo a mdia das

    distncias entre todos os pares de elementos, sendo um em cada grupo. Este

    procedimento pode ser utilizado tanto para medidas de similaridade como de

    distncia, contanto que o conceito de uma medida mdia seja aceitvel (Everitt,

    1974).Os grupos so reunidos em um novo grupo quando a mdia das distncias

    entre seus elementos mnima.

    No mtodo das mdias das distncias se define a distncia entre dois grupos,

    i e j, como sendo a mdia das distncias entre todos os pares de objetos

    constitudos por elementos dos dois grupos. A estratgia e o valor mdio tem a

    vantagem de evitar valores extremos e de tomar em considerao toda a informao

    dos grupos. Um grupo passa a ser definido como um conjunto de indivduos no qualcada um tem mais semelhanas, em mdia, com todos os membros do mesmo

    grupo do que com todos os elementos de qualquer outro grupo (Reis, 1997).

    Kaufmann & Rosseeuw (1990) destaca as seguintes caractersticas desse

    mtodo:

    Menor sensibilidade a rudos que os mtodos de ligao simples e completa;

    Apresenta bons resultados tanto para a distncia Mahalanobis quanto para

    outras distncias;

    Tendncia a formar grupos com nmero de elementos similares.

    2.4.6 Mtodo de Ward

    Ward (1963) prope um processo geral de classificao em que n elementos

    so progressivamente reunidos dentro de grupos atravs da minimizao de uma

    funo objetiva para cada (n -2) passos de fuso.

    Inicialmente, este algoritmo admite que cada um dos elementos se constitua

    em um nico agrupamento. Considerando a primeira reunio de elementos em um

    17

  • 5/22/2018 Albuquerque 2005 - Analise de Agrupamento

    29/64

    novo agrupamento, a soma dos desvios dos pontos representativos de seus

    elementos, em relao mdia do agrupamento, calculada, e d uma indicao de

    homogeneidade do agrupamento formado. Esta medida fornece a perda de

    informao que se produz ao reunir os elementos de E em um agrupamento (Gama,

    1980).Conforme a proposta de Bouroche & Saporta (1972), quando os indivduos

    so pontos de um espao Mahalanobis (Ip), a qualidade de uma partio definida

    por sua inrcia intraclasse ou por sua inrcia interclasse. Quando se parte de K+1

    classes para K classes, ou seja, agrupando duas classes numa s, a inrcia

    interclasse s pode diminuir. A inrcia interclasse a mdia da soma dos quadrados

    das distncias entre os centros de gravidade de cada classe e o centro de gravidade

    total.Gama props (1980), que a reunio de elementos em grupos feita pela

    anlise dos valores da funo de agrupamento, reunindo-se os elementos mais

    prximos, isto , aqueles que apresentassem Min (dij).

    Conforme Reis (1997), o mtodo de Ward se baseia na perda de informao

    resultante do agrupamento das espcies e medida atravs da soma dos quadrados

    dos desvios das observaes individuais relativamente s mdias dos grupos em

    que so classificadas.

    Cada grupo se caracteriza por uma soma dos quadrados dos desvios de cada

    observaes do centride do mesmo ( uma soma dos numeradores dos

    estimadores das varincias de cada varivel dentro do grupo, tambm a soma de

    distncia Mahalanobis do quadrado de cada observao do centride). A distncia

    entre dois grupos se define como o aumento que se pronunciaria nesta soma de

    quadrados, se ambos os grupos se agregassem para a formao de um nico grupo.

    O mtodo de Ward atraente por se basear numa medida com forte apelo

    estatstico e por gerar grupos que, assim como os do mtodo vizinho mais longe,

    possuem uma alta homogeneidade interna (Barroso & Artes, 2003).

    Romesburg (1984) cita as seguintes caractersticas desse mtodo:

    Apresenta bons resultados tanto para distncias Mahalanobis quanto para

    outras distncias;

    Pode apresentar resultados insatisfatrios quando o nmero de elementos em

    cada grupo praticamente igual;

    Tem tendncia a combinar grupos com poucos elementos;

    Sensvel presena de outliers.

    18

  • 5/22/2018 Albuquerque 2005 - Analise de Agrupamento

    30/64

    2.5 Inferncia estatstica

    Apesar das tentativas de construo de vrios testes para a confiabilidade

    estatstica dos agrupamentos, nenhum procedimento totalmente comprovado estainda disponvel. A ausncia de testes adequados provm da dificuldade de

    especificao de hipteses nulas realsticas.

    No que se refere aos, enormes problemas associados inferncia estatstica

    na anlise de agrupamentos, os pesquisadores podem lanar mo de alguns

    procedimentos prticos para conferir, de maneira superficial, os resultados dessas

    anlises. Por exemplo, eles podem aplicar duas ou mais rotinas diferentes de

    agrupamento ao mesmo conjunto de dados ou realizar a anlise de agrupamentoscom os mesmos dados, empregando diferentes medidas de distncia e comparando

    os resultados por meio de algoritmos e medidas de distncia. Pode-se, tambm,

    repartir os dados aleatoriamente em duas metades, realizar agrupamentos

    diferentes, e ento examinar os perfis mdios de valores de cada agrupamento

    mediante subamostras. Outra alternativa deletar diversas colunas (variveis) nos

    dados originais de perfis, calcular as medidas de dissimilaridade entre as colunas

    remanescentes, e comparar esses resultados com os agrupamentos encontrados

    por meio do uso do conjunto total de colunas (variveis). Outra abordagem de

    validao seria a utilizao de procedimentos de simulao que empreguem

    geradores de nmeros aleatrios para criar um conjunto de dados com propriedades

    que combinem com aquelas dos dados originais, mas no contenham nenhum

    agrupamento. Em seguida, aplicam-se os mtodos de agrupamento nos dados reais

    e nos artificiais, e comparam-se as solues resultantes (Aaker et al., 2001).

    2.6 Bootstrap

    O bootstrap uma tcnica estatstica computacionalmente intensiva que

    permite a avaliao da variabilidade de estatstica, com base nos dados de uma

    nica amostra existente. Essa tcnica foi introduzida por Efron (1979), e, desde

    ento, tem merecido profundo estudo por parte dos estatsticos que trabalha com

    anlise multivariada, no s na parte terica, como tambm na aplicada.

    Na estatstica, as situaes difceis podem ser vistas como os problemas de

    solues analticas complexas, e as variadas solues possveis seriam a utilizao

    19

  • 5/22/2018 Albuquerque 2005 - Analise de Agrupamento

    31/64

    de uma metodologia com grande quantidade de clculos, para analisar um pequeno

    conjunto de dados. A soluo para esses casos, com o uso de mtodos

    computacionalmente intensivos, obtida substituindo-se o poder analtico das

    expresses tericas pelo poder de processamento dos computadores.

    A idia chave do mtodo a amostra bootstrap, que retirada da amostraoriginal com reposio. Dessa forma, todo resultado bootstrap depende

    diretamente da amostra original observada, isto , os resultados bootstrap so

    robustos para a amostra original. Algumas consideraes de regularidade sob as

    quais esse mtodo consistente foram discutidas por Bickel & Freedman (1981). Os

    conceitos bsicos, propriedades tericas e aplicaes podem ser encontrados em

    Efron & Tibishirani (1993).

    O bootstrap pode ser implementado tanto na estatstica no paramtricaquanto na paramtrica, dependendo apenas do conhecimento do problema. No caso

    no-paramtrico, o mtodo bootstrap reamostra os dados com reposio, de

    acordo com uma distribuio subjacente aos dados. No caso paramtrico, quando se

    tem informao suficiente sobre a forma da distribuio dos dados, a amostra

    bootstrap formada realizando-se a amostragem diretamente nessa distribuio

    com os parmetros desconhecidos substitudos por estimativas paramtricas. A

    distribuio da estatstica de interesse aplicada aos valores da amostra bootstrap,

    condicional aos dados observados, definida como a distribuio bootstrap dessa

    estatstica.

    Operacionalmente, o procedimento bootstrap consiste na reamostragem de

    mesmo tamanho e com reposio dos dados da amostra original (Figura 1), e

    clculo da estatstica de interesse para cada reamostra bootstrap (pseudo-dados).

    20

  • 5/22/2018 Albuquerque 2005 - Analise de Agrupamento

    32/64

    Conjunto de dados (amostra original)

    Descrio das espcies (Matriz Mahalanobis)

    Anlise de agrupamento (Mtodos)

    Analisam-se os resultados

    Repete-se o processo B vezes

    (calculo da Estatstica bootstrap)

    Analisam-se os resultado

    Figura 1 - Diagrama esquemtico ilustrando a construo da distribuio bootstrap.

    Na prtica constri-se a distribuio bootstap por Monte-Carlo com

    um nmero de repeties B, suficientemente grande. Um indicador do tamanho

    adequado de B, independente do custo computacional, a qualidade da

    convergncia da estimativa bootstrap do parmetro para estimativa natural do

    parmetro (Lavaranti, 2003).O mtodo mais simples para estimar intervalos de confiana por bootstrap

    o mtodo percentil. Esse mtodo consiste em encontrar a distribuio F bootstrap e

    calcular os percentis da distribuio que correspondem aos limites inferiores e

    superiores, respectivamente, do intervalo de confiana (Efron & Tibshirani, 1993).

    Uma verso melhorada desse mtodo chamada Bca, que uma abreviao de

    (bias corrected and accelerated). O intervalo Bca um intervalo rigorosamente

    exato naquelas situaes em que a estatstica terica tem uma resposta exata

    adaptada de Arajo (2003), dando uma preciso na estimao dos intervalos

    21

  • 5/22/2018 Albuquerque 2005 - Analise de Agrupamento

    33/64

    confiana em todas as situaes para dados obtidos da distribuio bootstrap

    (Diciccio & Efron, 1996).

    Finalmente, a grande vantagem dos procedimentos estatsticos bootstrap

    a estimao da preciso de qualquer estatstica (multivariada na anlise de

    agrupamento) com a comparao dos mtodos. Esses mtodos comearam a setornar ferramentas bastante teis e poderosas na construo de procedimentos

    estatsticos, evitando obteno de frmulas via argumentos analticos.

    2. 7 Correlao Cofentica

    A correlao cofentica uma medida de validao utilizada, principalmente,

    nos mtodos de agrupamento hierrquicos. A idia bsica realizar umacomparao entre as distncias efetivamente observadas entre os objetos e

    distncias previstas a partir do processo de agrupamento (Barroso & Artes, 2003).

    A correlao cofentica mede o grau de ajuste entre a matriz de

    dissimilaridade original (matriz D) e a matriz resultante da simplificao

    proporcionada pelo mtodo de agrupamento (matriz C). No caso, C aquela obtida

    aps a construo do dendrograma. Tal correlao foi calculada conforme Bussab et

    al., (1990):

    = +=

    = +=

    = +=

    =1

    1 1

    2)(1

    1 1

    2)(

    1

    1 1

    )()(

    n

    i

    n

    ij

    dijdn

    i

    n

    ij

    cijc

    n

    i

    n

    ij

    dijdcijc

    cofr , em que;

    ci j= valor de dissimilaridade entre os indivduos i e j, obtidos a partir da matriz

    cofentica;

    dij = valor de dissimilaridade entre os indivduos i e j, obtidos a partir da matriz de

    dissimilaridade;

    = +==

    1

    1 1)1(

    2 n

    i

    n

    ij ijc

    nnc ,

    22

  • 5/22/2018 Albuquerque 2005 - Analise de Agrupamento

    34/64

    = +=

    =1

    1 1)1(

    2 n

    i

    n

    ijijd

    nnd .

    Nota-se que essa correlao equivale correlao de Pearson entre a matriz

    de dissimilaridade original e aquela obtida aps a construo do dendrograma.Assim quanto mais prximo de 1, menor ser a distoro provocada pelo

    agrupamento dos indivduos com os mtodos.

    Para Bussab et al., (1990), problema responder se o valor observado alto

    ou baixo?. Responder a isto to difcil como responder, na maioria das situaes, o

    que um alto coeficiente de correlao entre duas variveis. Depende da rea de

    estudo e de padres que vo se desenvolvendo com a prtica. Pode-se adiantar que

    em anlise de agrupamento, algo em torno de 0,8 j pode ser considerado bomajuste.

    23

  • 5/22/2018 Albuquerque 2005 - Analise de Agrupamento

    35/64

    3. MATERIAL E MTODOS

    3.1 Dados

    Neste trabalho foram utilizados dados de um levantamento da vegetao da

    mata da Silvicultura (Tabela 1), da Universidade Federal de Viosa-MG, retirado de

    Souza et al. (1997).

    Tabela 1 Densidade de 17 espcies da mata da silvicultura, em parcelas de 20 X50 m, Universidade Federal de Viosa MG

    Espcies Parcelas1 2 3 4 5 6 7 8 9 10 11

    Casearia decandraJacq. 8 1 27 0 1 9 2 3 22 15 7

    Anadenanthera peregrina Spreg. 0 0 0 0 0 0 12 1 17 1 9

    Apuleia leiocarpa (Vog.) Macbr. 3 9 4 6 22 9 5 2 7 4 4

    Mabea fistuliferaMart. 6 3 3 4 29 12 0 4 4 4 4

    Anadenanthera macrocarpa(Benth.) Brenan. 0 12 0 1 0 0 1 0 2 0 0

    Platypodium elegans Vog. 0 0 1 1 9 1 0 0 5 11 1

    Machaerium floridum (Benth.) Ducke 0 0 10 1 9 2 1 0 0 11 5

    Copaifera langsdorffii Desf. 1 1 0 2 1 13 0 0 0 3 1

    Ocotea pretiosa Mez. 2 0 2 2 2 6 0 5 0 2 2

    Cabralea cangerana Saldanha 1 0 0 2 0 0 1 6 2 3 1

    Piptadenia gonoacantha Macbr. 0 0 0 0 0 0 6 0 1 0 5

    Dalbergia nigraAllem. Ex Benth. 5 0 7 0 5 0 0 0 0 1 0

    Luehea divaricata Mart. 7 0 0 0 0 1 0 1 0 0 0

    Melanoxylon brauna Schott. 0 0 0 0 0 0 0 0 0 2 1

    Cedrela fissilis Vell. 0 0 0 0 0 0 1 0 0 0 0

    Croton floribundus Spreng. 0 0 1 0 0 0 0 0 0 0 0

    Fonte: Souza et al. (1997)

    Considerando que a densidade da espcie uma varivel quantitativa

    discreta, os dados originais da matriz foram transformados por meio de raiz

    quadrada, para tornar a sua distribuio mais apropriada a uma anlise de

    agrupamento.

    24

  • 5/22/2018 Albuquerque 2005 - Analise de Agrupamento

    36/64

    3.2 Mtodos Estatsticos

    Com proposta de metodologia estatstica para anlise de agrupamento se

    considerou a seguinte ordem: processo reamostragem bootstrap na matriz de

    dados originais, clculo da matriz de distncia, considerando-se a distncia deMahalanobis, utilizao dos algoritmos ligao simples, ligao completa, do

    centrides, da mediana, das distncias mdias e de Ward, dendrogramas, tabelas

    de contingncias, e teste para comparao dos mtodos.2

    3.2.1Estabilidade via mtodo bootstrap

    Para se estabilizar os mtodos em anlise de agrupamentos via bootstrap,

    foram seguidos os seguintes passos:

    1. Considerou-se a seguinte matriz X, denominada de matriz de dados ou

    matriz original (primaria).

    =(nxp)X

    xxx

    xxxxxx

    pnpp

    n

    n

    .............

    ...

    ...

    ............

    ............

    21

    22221

    11211

    Em que i = 1, 2 ,....., p espcie na amostra e j = 1, 2,....,n parcelas.

    2. Com a matriz primria, encontrou-se a matriz de distncia Mahalanobis, para

    aplicao dos algoritmos de agrupamento.

    3. De posse da matriz de Mahalanobis, aplicou-se bootstrap e calculou-se uma

    nova matriz de distncia Mahalanobis para aplicao dos algoritmos deagrupamento e comparao com a aplicao do item 2.

    25

  • 5/22/2018 Albuquerque 2005 - Analise de Agrupamento

    37/64

    4. Construo de Tabelas de contingncia 2x2 para comparao entre

    algoritmos de agrupamentos (nmero de observaes que se agrupam no

    mesmo grupo para o mesmo nmero de grupo).

    100%gruposdeNmero

    sobservaedeNmeromPorcentage =

    5. Conforme Jairo & Gilberto (1996) foi utilizado o indicador do grau de

    associao entre dois mtodos analisandos dados por:

    Ncalculado2

    calculado2C

    +=

    Esses coeficiente podem variar entre [0 , 1], estando mais associados os

    mtodos quanto maior o valor de C.

    3.2.2 Medida de distncia

    Como medida de dissimilaridade foi utilizada a distncia de Mahalanobis (D2)

    calculada conforme a seguinte expresso:

    D2 =(X~

    i - X~

    j) . -1. (X

    ~i - X

    ~j),

    em que D2= d (X~

    i - X~

    j); -1 a inversa da matriz de covarincia residual de X, e

    D2

    tem a caracterstica de ser invariante para qualquer transformao linear no-singular. Ao contrrio da distncia Euclidiana, D2pode ser utilizada quando existe

    correlao entre as variveis. Sendo os coeficientes de correlao nulos, o valor de

    D2equivale distncia Euclidiana para variveis padronizadas.

    3.2.3 Algoritmos de agrupamento

    Foram utilizados os seguintes algoritmos de agrupamento, por serem os mais

    usados na prtica pela facilidade de serem encontrados nos mais diversos

    programas computacionais, tais como:

    26

  • 5/22/2018 Albuquerque 2005 - Analise de Agrupamento

    38/64

    a) Mtodo da Ligao Simples ou do Vizinho mais Prximo (Single Linkage)

    De posse da matriz primria de dados X (n x p), o mtodo de ligao simples

    foi resolvido na seguinte seqncia de clculos:1. Com base na matriz de Mahalanobis original ou estabilizada via bootstrap

    foram determinados os valores da funo de agrupamento dij, que foram

    representados na forma matricial (D1);

    2. Localizou-se o valor mnimo de dij > 0. Os elementos Ei e Ej,

    correspondentes a este valor, foram reunidos em um mesmo grupo, ficando

    (n-1) agrupamentos remanescentes;

    3. Com base na matriz de distncia inicial (D1), determinou-se a distnciaentre o novo agrupamento e os demais elementos, por meio da relao:

    d(i,j) l= min (di1, di2), l = 1, (n-2)

    l i j

    e construiu-se nova matriz de distncia (D2).

    4. Localizou-se em D2, o menor valor de dij> 0 e, em seguida, agrupou-se os

    elementos que deram origem a esta nova distncia, formando-se novo

    agrupamento. Neste passo, tm-se (n-2) agrupamentos.

    5. Comps-se nova matriz de distncias, baseando-se na matriz de distncia.

    Para isto, calculou-se a distncia entre agrupamento formado na etapa

    anterior e os demais, considerando-se um elemento isolado de E como um

    agrupamento. Retornou-se a seguir a etapa 4.

    Os processos foram repetidos at que todos os 11 elementos de E fossem

    alocados a um s agrupamento.

    b) Mtodo da Ligao Completa ou do Vizinho mais Longe (complete linkage)

    Dados n elementos e se admitindo conhecidos os n(n-1)/2 valores de uma

    funo de agrupamentos, dij, i = j = 1, 2.... n, apresentados na forma de uma D, este

    mtodo pode ser sintetizado, segundo Gama (1980) e Mardia et al, (1997), nas

    seguintes etapas:

    1.Determinou-se, com base na matriz de Mahalanobis, o conjunto de valores

    de uma funo de agrupamento. Estes valores constituem medida de

    distncia estatstica (D) que formam a matriz D1;

    27

  • 5/22/2018 Albuquerque 2005 - Analise de Agrupamento

    39/64

    2. Decidiu-se o valor mnimo de d ij, sendo, os elementos Eie Ejreunidos num

    primeiro grupo. Ento se pressupe que os (n-2) elementos restantes

    constitussem, cada um, um agrupamento distinto;

    3. Com base na matriz D1, determina-se a distncia entre cada um dos (n-2)

    elementos e o novo agrupamento formado pelos elementos (E i, Ej). Estadistncia calculada pela relao:

    d(i, j) l= mx (di1, djl), l = 1, (n-2).

    l i j

    Sendo estas distncias reunidas numa matriz D2

    4. Determina-se, com base na matriz D2, o maior valor dij, agrupando-se os

    elementos correspondentes, dando origem a um novo agrupamento, e, ento

    obtendo-se (n-2) agrupamentos;5. Construiu-se um novo conjunto de valores de distncias com base na

    matriz D2(interao anterior), entre o novo agrupamento e os demais.

    c)Mtodo do Centride.

    Seja X (n x p) a matriz de dados bsicos em que cada linha representa o

    conjunto de valores observados para cada espcie, e cada coluna representa uma

    parcela de rea fixa ou varivel.

    Este algoritmo pode ser desenvolvido nas seguintes etapas:

    1. Com base na matriz de dados e em uma funo de agrupamentos, calcula-

    se as distncias (dij) entre as parcelas (i, j), i = 1, 2...., n. Esses dados so

    reunidos numa matriz de distncias (D).

    2. A primeira operao em D, consiste em procurar pelo menor valor de d ij,

    excluindo os valores de dijem que i = j, ou seja, excluir-se os elementos da

    diagonal principal. Os elementos Xi e Xj cuja similaridade maior, so

    reunidos num mesmo agrupamento.

    3. Em seguida, calcula-se uma nova matriz de distncia e identificou-se os

    elementos do agrupamento mais prximo, e se constri um novo

    agrupamento, Segundo Lance e Williams (1967) as distncias podem ser

    obtidas atravs da seguinte expresso:

    28

  • 5/22/2018 Albuquerque 2005 - Analise de Agrupamento

    40/64

    ( ) ijd

    jnin

    jninkjd

    jnin

    jnkid

    jnin

    inijkd

    +

    ++

    +=

    2

    .)(

    em que:dk(ij), dki, dkj e dij = distncias Mahalanobis entre os elementos k e

    agrupamento ij, k e i, k e j, e i e j, respectivamente.

    ni, nje nk= nmero de elementos nos grupamentos i, j e k, respectivamente.

    4. Verifica-se se o nmero de agrupamentos determinados igual ao valor

    fixado, g n, se fosse verdade, termina-se o processo, caso contrrio,

    retorna-se ao item 2.

    d)Mtodo da Mediana

    Esse algoritmo foi desenvolvido nas seguintes etapas:

    1. Com base na matriz de dados e em uma funo de agrupamentos, calcula-

    se as distncias (dij) entre as parcelas (i, j), i = 1, 2,...., n, Estes dados so

    reunidos numa matriz de distncias (D).2. A primeira operao em D, consistiu em procurar menor valor de d ij,

    excluindo os valores de dijonde i = j, ou seja, excluir os elementos da diagonal

    principal, Os elementos (parcelas) Xi e Xj cuja dissimilaridade menor so

    reunidos num mesmo agrupamento.

    3. Em seguida calculada uma nova matriz de distncia e identificou-se os

    elementos do agrupamento mais prximo, constroem-se um novo

    agrupamento. Segundo Lance e Williams (1967), as distncias podem ser

    obtidas atravs da seguinte expresso:

    ijkjkiijk dddd

    +

    =

    4

    1

    2

    1

    2

    1)(

    em que:

    dk (ij), dki, dkj e dij = distncias Mahalanobis entre os elementos k eagrupamento ij, k e i, k e j, e i e j, respectivamente.

    29

  • 5/22/2018 Albuquerque 2005 - Analise de Agrupamento

    41/64

    ni, nje nk= nmero de elementos nos grupamentos i, j e k, respectivamente.

    4 Verifica -se se o nmero de agrupamentos determinados era igual ao valor

    fixado, g n, Se for verdade, termina-se o processo, caso contrrio, retorna-

    se ao item 2.

    e) Mtodo das Mdias das distncias (da Mdia de agrupamento)

    O mtodo pode ser resumido nos seguintes passos:

    1. Determina-se a matriz de distncias inicial.

    2. Localiza-se os dois elementos que apresentam a menor distncia,

    reunindo em um nico grupo.3. Calcula-se a distncia entre os diversos pares de grupos como sendo a

    mdia das distncias entre todos os pares de seus elementos, sendo um

    elemento de cada um dos grupos.

    4. Os dois grupos que apresentam menor distncias so reunidos em um

    nico grupo.

    5. Se o nmero de grupos obtidos igual a um nmero g n, o processo

    termina caso contrario, retorna-se ao passo 3.

    Esta frmula fornece das Mdias das distncias.

    kjdnin

    jnkid

    jnin

    injik

    j

    ++

    += ),(d

    em que:

    *k(ij),d dkie dkj = distncias entre os elementos k e agrupamento ij, k e i, k

    e j, e i e j, respectivamente.

    nie nj= nmero de elementos nos grupamentos i e j, respectivamente.

    30

  • 5/22/2018 Albuquerque 2005 - Analise de Agrupamento

    42/64

    f) Mtodo de Ward

    Segundo Orlci (1978), o algoritmo de Ward pode ser resumido nas seguintes

    etapas:

    1. Determina-se a matriz de distncias e localiza-se os dois agrupamentospara os quais dij mnimo;

    2. Rene-se estes agrupamentos, formando um novo agrupamento, e se

    verifica, se o nmero de agrupamentos (g) j foi alcanado, seno, segue-se

    etapa 3, caso contrrio, termina-se a anlise;

    3. Calcula-se o valor do aumento a ser obtido na soma dos quadrados pela

    reunio de qualquer dos agrupamentos: I = (1/2), dpq.

    4. Determina-se os dois agrupamentos que apresentam um menor incrementona matriz D, isto , Min (Iij) e volta-se etapa 2.

    Este mtodo tem como funo de agrupamentos a distncia Mahalanobis e o

    critrio de agrupamento dado pelo valor do incremento, que se obtm na

    soma de quadrados do erro.

    Observao:

    ,2)kX-p(X

    2pkd = a distncia entre as mdias dos elementos de Gpe Gk

    sendo Gpe Gk, respectivamente, os grupos p e k,

    ,pkkp

    kp

    pk dNN

    NNI

    +

    = em que as reunies dos agrupamentos Gpe Gkser feita

    se Ipk= mnimo.

    Admita-se que para o agrupamento GpGk= Gr, o incremento na soma das

    mdias do erro dado por:

    ,trrt

    rt

    tr dnn

    nnI

    +

    =

    onde 2)(2 rXtXtr =d

    Podendo ser escrita por:

    31

  • 5/22/2018 Albuquerque 2005 - Analise de Agrupamento

    43/64

    pk

    r

    kp

    tk

    r

    k

    tp

    r

    p

    tr dn

    nnd

    n

    nd

    n

    nd

    +=

    2 ,

    Substituindo-se cada distncia, em funo do nmero de elementos, doagrupamento, obteve-se:

    [ ]pkIrntkIkntntpIpntnrntn

    trI ++++= )()(

    1

    Ou ainda, considerando d , tem-se:tptp I.2=

    [ ]pkdtnktdkntntpdpntnrntn

    trd ++++

    = .)().(1

    3.2.4 Dendrogramas

    A seqncia de fuso dos agrupamentos representada graficamente nos

    dendrogramas, que foram divididas com a estatstica descritiva usando o percentil,

    com um corte de 50% da distncia Mahalanobis, para determinar o nmero de

    grupos. Os dendrogramas so construdos usando o programa computacional

    Minitab. Os diferentes dendrogramas obtidos so ento comparados para

    possibilitar a anlise da associao entre mtodos.

    3.2.5 Correlao Cofentica

    Para os diversos mtodos de agrupamento utilizados foram obtidas as

    respectivas matrizes cofenticas resultantes da simplificao proporcionada pelo

    mtodo. A matriz cofentica foi obtida aps a construo do dendrograma. Com

    base nas matrizes de dissimilaridade original e cofentica, foi obtida a correlao

    cofentica conforme a expresso (Bussab et al., 1990):

    32

  • 5/22/2018 Albuquerque 2005 - Analise de Agrupamento

    44/64

    = +=

    = +=

    = +=

    =1

    1 1

    2)(1

    1 1

    2)(

    1

    1 1

    )()(

    n

    i

    n

    ij

    dijdn

    i

    n

    ij

    cijc

    n

    i

    n

    ij

    dijdcijc

    cofr , em que;

    ci j: valor de dissimilaridade entre os indivduos i e j, obtidos a partir da matriz

    cofentica;

    dij : valor de dissimilaridade entre os indivduos i e j, obtidos a partir da matriz

    de dissimilaridade;

    = +==

    1

    1 1)1(

    2 n

    i

    n

    ijijcnnc ,

    = +=

    =1

    1 1)1(

    2 n

    i

    n

    ijijd

    nnd .

    Nota-se que essa correlao equivale correlao de Pearson entre a matriz

    de dissimilaridade original e aquela obtida aps a construo do dendrograma.

    Assim quanto mais prximo de 1, menor ser a distoro provocada peloagrupamento dos indivduos com os mtodos.

    3.2.6 Distoro entre a matriz de dissimilaridade e matriz cofentica

    O grau da distoro (1 ) foi calculado conforme Kruskal (1964):

    = +=

    = +==

    1

    1 1

    1

    1 1

    n

    i

    n

    ijijd

    n

    i

    n

    ij ijc

    ,

    em que:

    ijc : valor de dissimilaridade entre os indivduos i e j, obtidos a partir da matriz

    cofentica;

    ijd : valor de dissimilaridade entre os indivduos i e j, obtidos a partir da matriz

    de dissimilaridade.

    33

  • 5/22/2018 Albuquerque 2005 - Analise de Agrupamento

    45/64

    Esse parmetro mede a distoro entre a matriz original e bootstrap e aquela

    obtida aps a construo do dendrograma.

    3.2.7 Tabelas de contingncia

    Foram construdas tabelas de contingncia bi-dimensional (Tabela 2), na qual

    uma amostra de N observaes foi classificada com relao os dois mtodos de

    agrupamentos aplicados. Desta forma pde-se cruzar as diversas caractersticas

    relevantes aos mtodos pesquisados com diversas variveis, tomadas duas a duas.

    Cada uma das clulas (n11, n12, nij, etc.) representou a associao ou a contagem de

    grupos em cada um dos mtodos aplicado.

    Tabela 2. Forma geral de uma tabela de contingncia de duas dimenses

    Mtodo I Mtodo J Total

    1 2 j ... J

    1 n11 n12 n1j ... n1J n1

    2 n21 n22 n2j ... n2J n2

    ... ... ... ... ... ... ...i ni1 ni2 nij ... niJ ni

    ... ... ... ... ... ... ...

    I nI1 nI2 nIj ... nIJ nI

    Total n.1 n.2 n.j ... n.J N

    Fonte: modificado de Everitt (1992)

    3.2.7.1 Independncia e associao entre mtodos

    Para a deteco de associao entre os mtodos, ou seja, saber se as

    diferenas observadas entre mtodos so significativas o suficiente para serem

    atribudas a outros fatores que no aleatrios, foi aplicado o teste qui-quadrado

    ( ) por meio da expresso:2

    = esperadafreqnciaesperada)frequncia-observadaa(frequnci

    2

    34

  • 5/22/2018 Albuquerque 2005 - Analise de Agrupamento

    46/64

    onde:

    N

    CLesperadafreqncia

    =

    em que:

    L = nmero de categorias da varivel disposta na linha da tabela de contingncia;

    C = nmero de categorias da varivel disposta na coluna da tabela de contingncia.

    O mtodo usado para decidir se o teste independente ou se no esto

    associado (ou seja se possvel ou no rejeitar a hiptese de nulidade, H

    2

    2

    0), foi

    baseado na distribuio de probabilidade para sob a pressuposio de que ahiptese nula verdadeira. Dessa forma, quando a estatstica calculada foi maior

    do que o valor tabulado para um determinado nvel de significncia, H

    2

    0foi rejeitada.

    Caso contrrio, a hiptese nula no foi rejeitada.

    O nmero de graus de liberdade (GL), para decidir quando o valor de

    obtido de alguma tabela de contingncia leva a uma rejeio ou no da hiptese

    nula, foi assim definido:

    2

    GL = (L 1) (C 1)

    Todas os grficos e as anlises, ao longo deste trabalho foram

    implementados atravs dos programas computacionais EXCEL, STATISTICA,

    MINITAB e a construo de um programa na linguagem C.

    35

  • 5/22/2018 Albuquerque 2005 - Analise de Agrupamento

    47/64

    4. RESULTADOS E DISCUSSO

    4.1 Anlise de agrupamento a partir da matriz de Mahalanobis original

    Com base na matriz de dissimilaridade de Mahalanobis obtida a partir dosdados originais (Tabela 3) foram aplicados os mtodos da ligao simples, da

    ligao completa, do centride, da mediana, da mdia das distncias e de Ward e

    obtidos os respectivos dendrogramas (Figuras de 2 a 7).

    Tabela 3. Matriz de distncia Mahalanobis dos dados originais para as 11 parcelas

    da Mata da Silvicultura, da Universidade Federal de Viosa - MG

    Parcela 1 2 3 4 5 6 7 8 9 10 111 00,00 16,81 20,01 15,93 20,35 14,40 19,50 13,37 20,11 18,53 17,66

    2 00,00 18,50 7,721 18,51 13,81 18,80 18,59 15,59 20,89 19,03

    3 00,00 17,68 20,80 18,21 22,27 20,08 18,48 20,55 19,10

    4 00,00 12,57 10,32 16,73 7,092 14,54 15,04 13,84

    5 00,00 17,65 22,86 20,99 19,20 20,37 17,55

    6 00,00 19,90 16,21 16,89 18,27 13,12

    7 00,00 20,02 17,36 22,69 16,47

    8 00,00 15,11 18,29 14,05

    9 00,00 14,87 13,2010 00,00 11,90

    11 00,00

    Embora a estrutura geral dos agrupamentos seja bastante similar, pode-se

    observar que h pequenas alteraes nos nveis em que os indivduos so

    agrupados, ou seja, os indivduos que esto dentro de um mesmo grupo podem ser

    agrupados em outra ordem, quando se mudam os mtodos.

    Pode-se observar que h divergncias entre os mtodos, corroborando com a

    afirmativa de Johnson & Wichern (1992), de que dificilmente os dendrogramas

    obtidos por mtodos de agrupamentos diferentes sejam semelhantes. No entanto,

    segundo Bussab et al. (1990), a grande vantagem do dendrograma permitir

    observar graficamente o quanto necessrio relaxar o nvel de dissimilaridade

    para considerar grupos prximos.

    36

  • 5/22/2018 Albuquerque 2005 - Analise de Agrupamento

    48/64

    7911105684213

    Ligao simplesDistncia

    50%

    Figura 2 Dendrograma representando as seqncias das fuses das parcelas,obtidas pelo emprego do mtodo da ligao simples, com base na distnciaMahanalobis dos dados originais.

    1110953627841

    Ligao completaDistncia

    50%

    Figura 3 Dendrograma representando as seqncias das fuses das parcelas,obtida pelo emprego do mtodo ligao completa, com base na distnciaMahalanobis dos dados originais.

    37

  • 5/22/2018 Albuquerque 2005 - Analise de Agrupamento

    49/64

    7510911684213

    CentrideDistncia

    50%

    Figura 4 Dendrograma representando as seqncias das fuses das parcelas,obtida pelo emprego do mtodo da centride, com base na distncia Mahalanobisdados originais.

    7510911684213

    MedianaDistncia

    50%

    Figura 5 Dendrograma representando as seqncias das fuses das parcelas,obtido pelo emprego do mtodo mediana, com base na distncia Mahalanobis dosdados originais.

    38

  • 5/22/2018 Albuquerque 2005 - Analise de Agrupamento

    50/64

    7511109684213

    Mdias das distnciasDistncia

    50%

    Figura 6 Dendrograma representando as seqncias das fuses das parcelas,obtida pelo emprego do mtodo das mdias da distncia, com base na distnciaMahalanobis dos dados originais.

    1110975384621

    WardDistncia

    50%

    Figura 7 Dendrograma representando as seqncias das fuses das parcelas,obtidas pelo emprego do mtodo do Ward, com base na distncia Mahalanobis dosdados originais.

    39

  • 5/22/2018 Albuquerque 2005 - Analise de Agrupamento

    51/64

    De forma geral os dendrograma apresentaram estruturas de agrupamentos de

    objetos homogneos, embora no exista um critrio objetivo para determinar um

    ponto de corte no dendrograma, ou seja, para determinar quais os grupos foram

    formados.

    Para os dendrogramas obtidos a partir dos mtodos ligao simples (Figura2), ligao completa (Figura 3), centride (Figura 4), mediana (Figura 5), mdias das

    distncias ((Figura 6) e Ward ((Figura 7), observa-se que eles foram cortados

    utilizando-se a medida do percentil, com um corte de 50% da distncia Mahalanobis,

    observando-se que nos mtodos ligao simples e Ward, ligao completa, mediana

    e mdias das distncias, e centride foram obtidos nove, dez e onze grupos,

    respectivamente.

    Para dados originais no grupo I, verificou-se que os mtodos (mdias dasdistncias e mediana, mdias das distncias e ligao completa, mediana e ligao

    completa), formaram dez agrupamentos, com semelhana de 100%, e os mtodos

    do grupo II (Medias das distncias e centride, centride e mediana, centride e

    ligao completa, mdias das distncias e ligao simples, mdias das distncias e

    Ward, mediana e ligao simples, mediana e Ward, ligao simples e ligao

    completa, ligao completa e Ward), com 86% e 84% de semelhana e o III grupo

    com os mtodos (centride e ligao simples, centride e Ward, ligao simples e

    Ward) com 80%, 70% e 67% de semelhana respectivamente (Tabela 4).

    Tabela 4.- Porcentagem de grupos coincidentes entre mtodos de agrupamento,com base na matriz de Mahalanobis dos dados originais, (nvel de significncia doteste de independncia do ), a partir da tabela de contingncia e do grau deassociao

    2

    Mtodos Mdias das

    distnciasCentride Mediana Ligao

    simplesLigaocompleta

    Centride 86%(0,58)

    Mediana 100%(0,71)

    86%(0,58)

    Ligaosimples

    84%(0,57)

    80%(0,52)

    84%(0,59)

    LigaoCompleta

    100%(0,71)

    86%(0,58)

    100%(0,71)

    84%(0,57)

    Ward 84%(0,57)

    70%(0,38)

    84%(0,57)

    67%(0,61)

    84%(0,57)

    Entre parentes - nvel de significncia do teste de independncia do .2

    40

  • 5/22/2018 Albuquerque 2005 - Analise de Agrupamento

    52/64

    Observa-se ainda que os resultados de associao dos mtodos foram

    semelhantes e o nvel de significncia relativamente alto, sendo possvel concluir

    que, em principio qualquer algoritmo de agrupamento estudado est estabilizado e

    existem, de fato, grupos entre os indivduos observados e que existe estabilidade

    entre os mtodos.Quanto aos resultados da qui-quadrado (Tabela 5) para um nvel de

    significncia de 1% e 5% e de um grau de liberdade igual 3,84 e 6,64

    respectivamente, que no deixa dvida que se pode rejeitar H0, isto , concluindo-se

    com risco de 1% e 5% que os mtodos so dependentes, ou esto associados,

    excluindo-se os mtodos do centride e Ward.

    Tabela 5 - Resultados dos dados originais com associao dos mtodos obtidos a

    partir da qui-quadrado

    Mtodo Mdias dasdistncias

    Centride Mediana Ligaosimples

    Ligaocompleta

    Centride 10,84

    Mediana 20,00 10,82

    Ligao simples 8,99 7,60 10,42

    Ligao Completa 20,00 10,82 20,00 9,00

    Ward 9,00 3,43 9,00 11,00 9,00

    4.2. Anlise de agrupamento a partir da matriz de Mahalanobis via bootstrap

    Com base na matriz de dissimilaridade de Mahalanobis obtida via bootstrap

    (Tabela 6) foram aplicados os mtodos da ligao simples, da ligao completa, do

    centride, da mediana, da mdia das distncias e de Ward e obtidos os respectivos

    dendrogramas (Figuras de 8 a 13).

    Com base na anlise dos dendrogramas formado pelos mtodos, verificou-se

    que, com um corte de 50% nas matrizes de distncia, foram formados trs grupos

    tantos para os dados originais como para os dados da reamostragem bootstrap.

    41

  • 5/22/2018 Albuquerque 2005 - Analise de Agrupamento

    53/64

    Tabela 6. Matriz de Mahalanobis obtida via reamostragem bootstrap aps com

    10000 iteraes

    Parcelas 1 2 3 4 5 6 7 8 9 10 11

    1 00,00 20,01 14,40 20,11 16,81 17,66 20,35 17,66 19,50 16,81 20,11

    2 00,00 18,51 18,50 18,80 15,59 18,59 15,59 19,03 20,89 18,51

    3 00,00 20,80 18,21 20,80 19,10 19,10 20,08 22,27 19,10

    4 00,00 12,57 14,54 10,32 16,73 16,73 13,84 7,092

    5 00,00 17,55 20,99 19,20 19,20 20,99 17,65

    6 00,00 16,21 19,90 19,90 16,21 16,21

    7 00,00 22,69 22,69 16,47 16,47

    8 00,00 14,05 14,05 18,29

    9 00,00 13,20 14,87

    10 00,00 11,90

    11 00,00

    Embora no exista um critrio objetivo para determinar um ponto de corte no

    dendrograma, ou seja, para determinar quais os grupos foram formados, os

    dendrogramas obtidos a partir dos mtodos com a reamostragem bootstrap com

    10000 interaes, foram cortados utilizando-se a medida percentil, com um corte de

    50% na matriz de distncia, observando-se que as Figuras 10 e 11, obtiveram onze

    grupos, e as Figuras 8, 9 e 12, obtiveram dez grupos e a Figura 13, obteve aformao de nove grupos.

    Para os