Dendrogramm
aus Wikipedia, der freien Enzyklopädie
Ein Dendrogramm (griech. δένδρον (dendron) = Baum) dient zur Visualisierung einer Clusteranalyse in der multivariaten Statistik. Objekte werden nach Ähnlichkeit der Merkmalsausprägung zu Clustern gruppiert. Beginnend mit vielen Clustern wird die Anzahl nach und nach reduziert, so dass Objekte mit einer größeren Distanz in der Merkmalsausprägung im Fortgang der Analyse sich in einem Cluster wiederfinden.
Die hierarchische Clusterstruktur von Daten kann durch ein so genanntes Dendrogramm repräsentiert werden. Das ist ein Baum, der die hierarchische Zerlegung der Datenmenge O in immer kleinere Teilmengen darstellt. Die Wurzel repräsentiert einen einzigen Cluster, der die gesamte Menge O enthält. Die Blätter des Baumes repräsentieren Cluster, in denen sich je ein einzelnes Objekt der Datenmenge befindet. Ein innerer Knoten repräsentiert die Vereinigung aller seiner Sohnknoten. Jede Kante zwischen einem Knoten und einem seiner Sohnknoten hat als Attribut noch die Distanz zwischen den beiden repräsentierenden Mengen von Objekten.
Zusätzlich zur Distanzfunktion zwischen einzelnen Objekten muss hier auch eine Distanzfunktion zwischen Mengen von Objekten vorgegeben werden.