Frage

Ich habe zwei Dendrogramme, die ich, um miteinander vergleichen möchte, um herauszufinden, wie „ähnlich“ sie sind. Aber ich weiß nicht von irgendeiner Methode, dies zu tun (geschweige denn einen Code, um es zu implementieren, sagen wir, in R).

Jede führt?

UPDATE (2014.09.13):

diese Frage Da fragen, ich habe ein R-Paket geschrieben namens dendextend , für die Visualisierung, Manipulation und Vergleich von Dendrogramm. Dieses Paket ist auf CRAN und kommt mit einem detaillierte Vignette . Es umfasst Funktionen wie cor_cophenetic, cor_bakers_gamma und Bk / Bk_plot. Neben einer tanglegram Funktion zum visuellen Vergleich von zwei Bäumen.

War es hilfreich?

Lösung

Dendrogramme Vergleich ist nicht ganz dasselbe wie hierarchischen Clusterungen Vergleich, da erstere die Längen der Zweige sowie die Spaltungen enthält, aber ich denke, auch das ist ein guter Anfang. Ich würde vorschlagen, Sie E. B. Fowlkes & C. L. Mallows (1983) lesen. „Verfahren zum Vergleich zweier Hierarchical Clusterings“. Journal of the American Statistical Association 78 (383): 553-584 (link) .

Ihr Ansatz basiert auf den Bäumen auf jeder Ebene schneiden k , immer ein gewisses Maß Bk , die die Gruppierungen in k Cluster vergleicht, und dann die Prüfung des Bk vs k Plots. Die Maßnahme Bk basiert auf Paare von Objekten auf der Suche und zu sehen, ob sie in demselben Cluster fallen oder nicht.

Ich bin sicher, dass ein Code auf der Grundlage dieser Methode schreiben können, aber zuerst wollen wir müssen wissen, wie die Dendrogramme in R dargestellt werden.

Andere Tipps

Wie Sie wissen, Dendrogramme aus hierarchischen Clustern entstehen - so, was Sie wirklich fragen, ist wie kann ich die Ergebnisse von zwei hierarchischen Clustering Läufen vergleichen. Es gibt keine Standard-Metriken ich kenne, aber ich würde gefunden an der Anzahl der Cluster zu suchen und die Mitgliedschaft Ähnlichkeit zwischen gleichen Cluster zu vergleichen. Hier ein guter Überblick über hierarchisches Clustern ist, dass meine Kollege schrieb Scotch Whisky auf Clustering.

hat einen Blick auf Seite :

Ich habe auch ähnliche Fragen gestellt hier

Es scheint, wir cophenetic Korrelation messen die Ähnlichkeit zwischen zwei Dendrogramme verwenden können. Aber es scheint keine Funktion für diesen Zweck in R zur Zeit.

EDIT bei 2014,9,18:  Die cophenetic Funktion in stats Paket ist in der Lage die cophenetic Unähnlichkeit Matrix zu berechnen. und die Korrelation berechnet werden cor Funktion. wie @Tal zeigte zurückgekehrt die as.dendrogram Funktion den Baum mit anderen Reihenfolge, die zu falschen Ergebnissen führen, wenn wir die Korrelation auf der Grundlage der dendrogram Ergebnisse berechnen. Wie im Beispiel der Funktion cor_cophenetic Funktion in dendextend Paket zeigt:

set.seed(23235)
ss <- sample(1:150, 10 )
hc1 <- iris[ss,-5] %>% dist %>% hclust("com")
hc2 <- iris[ss,-5] %>% dist %>% hclust("single")
dend1 <- as.dendrogram(hc1)
dend2 <- as.dendrogram(hc2)
# cutree(dend1)
cophenetic(hc1)
cophenetic(hc2)
# notice how the dist matrix for the dendrograms have different orders:
cophenetic(dend1)
cophenetic(dend2)
cor(cophenetic(hc1), cophenetic(hc2)) # 0.874
cor(cophenetic(dend1), cophenetic(dend2)) # 0.16
# the difference is becasue the order of the distance table in the case of
# stats:::cophenetic.dendrogram will change between dendrograms!

Wenn Sie den Zugriff auf die zugrunde liegende Distanzmatrix, die jede dendrogram erzeugt (Sie wahrscheinlich tun, wenn Sie die dendorograms in R erzeugt wird), könnte man nicht nur Korrelation zwischen den entsprechenden Werten der beiden Matrizen verwenden? Ich weiß, dass dies nicht den Brief nicht ansprechen, was Sie gefragt, aber es ist eine gute Lösung, um den Geist von dem, was Sie gefragt hat.

Hier finden Sie aktuelle dieser Seite, die viele Informationen über Software hat das sich mit Bäume, einschließlich Dendrogramme. Ich habe bemerkt, mehrere Werkzeuge, die mit Baum Vergleich beschäftigen, obwohl ich persönlich habe noch keine von ihnen verwendet. Es gibt eine Reihe von Referenzen zitiert auch dabei.

Es gibt eine reiche Menge an Literatur für Baumabstandsmetriken in der phylogenetics Gemeinschaft, die von der Informatik Perspektive vernachlässigt worden zu sein scheint. Siehe dist.topo des ape Paket für zwei Baumabstandsmetriken und mehrere Zitate (Penny und Hardy 1985 Kuhner und Felsenstein 1994), die die Ähnlichkeit von Baum Partitionen unter Berücksichtigung, und auch die Robinson-Foulds metric , die eine R-Implementierung in der phangorn Paket.

Ein Problem ist, dass diese Metriken haben keinen festen Maßstab, so dass sie nur dann sinnvoll in den Fällen von 1) Baum Vergleich oder 2) Vergleich zu einem gewissen Ausgangswert erzeugt, vielleicht über

scroll top