Forskel mellem hierarkisk og partitionel clustering

Anonim

Hierarchical vs Partition Clustering

Clustering er en maskinindlæringsteknik til analyse af data og opdeling i grupper med lignende data. Disse grupper eller sæt af lignende data er kendt som klynger. Klientanalyse ser på klyngalgoritmer, der kan identificere klynger automatisk. Hierarkiske og partitionelle er to sådanne klasser af klyngningsalgoritmer. Hierarkiske klyngningsalgoritmer opdeler dataene ind i et hierarki af klynger. Parallelalgoritmer opdeler datasættet i indbyrdes uoverensstemmede partitioner.

Hvad er hierarkisk clustering?

Hierarkiske klyngningsalgoritmer gentager cyklusen ved enten at fusionere mindre klynger ind i større eller dele større klynger til mindre. På nogen måde producerer det et hierarki af klynger kaldet et dendogram. Agglomerativ klyngestrategi bruger bottom-up-tilgangen til sammenlægning af klynger i større grupper, mens splittende klyngestrategi bruger top-down-tilgangen til at splitte ind i mindre. Typisk bruges den grådige tilgang til at beslutte, hvilke større / mindre klynger der anvendes til sammenlægning / deling. Euklidisk afstand, Manhattan afstand og cosinus lighed er nogle af de mest anvendte målinger af lighed for numeriske data. For ikke-numeriske data anvendes beregninger som Hamming-afstanden. Det er vigtigt at bemærke, at de egentlige observationer (forekomster) ikke er nødvendige for hierarkisk klyngning, fordi kun afmatningsmatricen er tilstrækkelig. Dendogram er en visuel repræsentation af klyngerne, som viser hierarkiet meget tydeligt. Brugeren kan opnå forskellige clustering afhængigt af det niveau, hvor dendogrammet er skåret.

Hvad er partitionelt clustering?

Partitionelle klyngningsalgoritmer genererer forskellige partitioner og evaluerer dem derefter ved hjælp af et kriterium. De betegnes også som nonhierarchical, da hver forekomst er placeret i nøjagtigt en af ​​k gensidigt eksklusive klynger. Fordi kun ét sæt klynger er output fra en typisk partitionel clusteringsalgoritme, skal brugeren indtaste det ønskede antal klynger (normalt kaldet k). En af de mest anvendte partitionelle klyngningsalgoritmer er k-means clustering algoritmen. Bruger er forpligtet til at angive antallet af klynger (k) inden start og algoritmen initierer først centrene (eller centroiderne) af k partitionerne. I en nøddeskal tildeler k-betyder clustering algoritme derefter medlemmer baseret på de nuværende centre og genskønner centre baseret på de nuværende medlemmer. Disse to trin gentages, indtil en bestemt objektivfunktion inden for klyngens lighed og mellemliggende klyngedifferentitetsmålfunktion er optimeret.Derfor er fornuftig initialisering af centre en meget vigtig faktor i opnåelse af kvalitetsresultater fra partitionelle klyngningsalgoritmer.

Hvad er forskellen mellem hierarkisk og partitionel clustering?

Hierarkisk og partisk clustering har vigtige forskelle i løbetid, antagelser, inputparametre og resulterende klynger. Typisk er partitionel clustering hurtigere end hierarkisk clustering. Hierarkisk klyngning kræver kun en lighedsforanstaltning, mens partitionalklustering kræver stærkere antagelser såsom antal klynger og de oprindelige centre. Hierarkisk clustering kræver ingen indgangsparametre, mens partitionelle klyngningsalgoritmer kræver, at antallet af klynger begynder at køre. Hierarkisk clustering giver en langt mere meningsfuld og subjektiv opdeling af klynger, men partitionel clustering resulterer i præcis k-klynger. Hierarkiske klyngningsalgoritmer er mere egnede til kategoriske data, så længe en lighedsforanstaltning kan defineres i overensstemmelse hermed.