V03 - Clusterverfahren Flashcards

1
Q

Wie ist Accuracy definiert? (V03F07)

A

Gibt an, wie viele Einschätzungen von allen Einschätzungen richtig waren. Also richtig als positiv und negativ erkannt wurden

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Wie ist Precision definiert? (V03F07)

A

Gibt an, wie viele der als positiv vorhergesagten tatsächlich positiv sind

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Welche Erfolgsmaße gibt es und wie werden sie berechnet? (V03F08)

A

○ Accuracy: (TP+TN) / (TP+TN+FP+FN)
○ Precision: TP / (TP+FP)
○ Recall: TP / (FN+TP)
○ F-Measure: 2* (Precision*Recall) / (Precision + Recall)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Welche Distanzfunktionen (Distanzmaße) gibt es für numerische Merkmale? (V03F13)

A

○ Euklidische Distanz
○ Manhattan-Distanz
○ Maximus-Metrik

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Welche Verfahren gibt es für Hierarchische Clusterverfahren? (V03F16)

A

Agglomerative und divisive Verfahren

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Wie wird bei agglomerative Verfahren vorgegangen? (V03F16)

A

Bei agglomerativen Verfahren werden aus einzelnen kleinen Gruppen immer größere Gruppen gebildet. Zu Beginn wird jeder einzelne Datenpunkt als eigene Gruppe betrachtet.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Wie wird bei divisiven Verfahren vorgegangen? (V03F16)

A

Bei den divisiven Verfahren werden aus einer großen Gruppe immer kleinere Gruppen gebildet, bis theoretisch am Ende jeder Datenpunkt eine eigene Gruppe darstellt.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Wie wird beim agglomerativen Verfahren vorgegangen (Detaillierter, 5 Schritte)? (V03F17)

A

○ 1 Gestartet wird mit N Clustern, d.h. jeder Datenpunkt zählt als eigenes Cluster
○ 2 Berechnung der Ausgangsdistanzmatrix (Ähnlichkeitsmatrix)
○ 3 Ermittlung der beiden Cluster mit der geringsten Distanz (größten Ähnlichkeit)
○ 4 Vereinigung der beiden Cluster mit der geringsten Distanz
○ 5 Gibt es nur noch eine Gruppe? Wenn ja Ende, wenn nein Neuberechnung der Distanzmatrix und ab Schritt 3 wiederholen

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Was zeigt ein Dendrogramm? (V03F21)

A

○ Koordinatensystem mit allen Datenpunkten auf der X-Achse und dem Heterogenitätsmaß auf der Y-Achse. Zeigt die Ergebnisse einer hierarchischen Klassifikation, durch das Zusammenfügen von Datenpunkten oder Aufsplitten von Clustern. Die Reihenfolge kann gut abgelesen werden.
○ Es werden zunächst sehr ähnliche Punkte/Cluster zusammengefügt, sodass ein langer vertikaler Strich eine hohe Heterogenität (Unähnlichkeit) zwischen den Punkten/Clustern anzeigt, die dadurch verbunden werden. Also sollte an solchen Stellen der Algorithmus gestoppt werden, sodass sehr unähnliche Punkte/Cluster nicht zusammengefügt werden

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Was sind Eigenschaften des Single-Linkage Verfahrens? (V03F30)

A

○ Geeignet verzweigte, gekrümmte oder lang gestreckte Cluster zu “erkennen”, da es genügt, dass ein Objekt einer Klasse nahe bei einem Objekt einer anderen Klasse liegt
○ Gruppen werden zusammengefasst, die nur durch eine “Brücke” miteinander verbunden sind, ansonsten aber deutlich separiert voneinander im Raum liegen (kontrahierend) -> Verkettungseffekt (chaining effect), der zu außerordentlich heterogenen Clustern führen kann
○ Monotonieeigenschaft (Clusterdistanz nimmt von Stufe zu Stufe zu)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Was sind Struktogramme und wie kann die Anzahl der Cluster bestimmt werden? (V03F54)

A

○ Koordinatensystem mit allen Clustern auf der X-Achse und dem Streuungsmaß auf der Y-Achse. Wird bei agglomerativen Verfahren von rechts nach links gelesen: Gestartet wird mit N Clustern und einer Streuung von 0. Je mehr Cluster, desto höher die Streuung zwischen den einzelnen Clustern.
○ Ein starker Anstieg der Streuung zeigt eine hohe Heterogenität innerhalb der entstandenen Cluster. Das Clustering sollte vor einem solchen Anstieg gestoppt werden, um Homogenität zu gewährleisten.
○ Zur Bestimmung der Clusterzahl bietet sich daher die Lokalisation eines steilen “Knicks” vor einem flacheren Verlauf der Kurve in dem zugehörigen Struktogramm an.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Welche Schritte werden beim K-Means-Algorithmus durchgeführt? (V03F58)

A

○ 1 Wähle K Objekte als initiale Clusterzentroide
○ 2 Wähle das K+1te Objekt als aktuelles Objekt
○ 3 Ordne das aktuelle Objekt dem Cluster zu, zu dessen Centroid der geringste Abstand vom Objekt besteht
○ 4 Bestimme in diesem Cluster den aktuellen Centroid
○ 5 Wähle das nächste Objekt und gehe zu Schritt 3

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Was ist das Problem bei K-Means-Algorithmus? (V03F58)

A

Problem ist die Abhängigkeit von der Auswahl der initialen Centroide und der Reihenfolge der Werte.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Was ist bei der Auswahl von Clusterverfahren zu beachten? (V03F69)

A

○ Cluster haben unterschiedliche Form, Größe und Dichte
○ Nicht jedes Verfahren kann die gleichen Formen und die gleichen Varianten an Clustern entdecken (z.B. K-Means erkennt nur konvexe Cluster)
○ Dichtebasierte Verfahren sind in der Lage, Cluster unterschiedlichster Formen zu entdecken
○ Cluster können hierarchisch angeordnet sein

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Wie wird beim Single-Linkage Verfahren im zwei Variablen Fall vorgegangen? (V03F26)

A

○ Nearest-Neighbour-Methode, da die Distanz zweier Cluster über die Distanz von zwei Objekten der Cluster bestimmt wird, die sich am nächsten sind
○ Auf jeder Stufe werden die Clusterdistanzen bestimmt
○ Es werden immer die Cluster zusammengefasst, bei denen die Distanz minimal ist
○ Zur Bestimmung der Distanzen wird eine Matrix angelegt, durch die vorhandene Symmetrie ist die untere Dreiecksmatrix ausreichend
○ 1. Schritt:
§ Aus der Ausgangssituation wird der kleinste Wert der Matrix gewählt und die beiden entsprechenden Cluster der Punkte fusioniert
§ Anschließend werden die Distanzen neu berechnet (erklärt mit Bezug auf die Tabelle):
Die Werte aus der zu entfernenden Zeile/Spalte werden mit den Werten aus der Spalte/Zeile des anderen zusammengefassten Elements verglichen. Dabei wird immer ein Element, das nicht fusioniert, betrachtet. Bsp. Wenn A und D fusionieren und C und B noch übrig sind: (DB) = 2,887 wird mit (AB) = 4,438 verglichen. Der kleinere Wert wird als neuer Wert in die nächste Tabelle übernommen. Dies wird mit allen Elementen aus der verschwindenden Spalte/Zeile gemacht. (DC) = 4,339 und (AC) = 3,084 also wird (AC) übernommen.
Der Wert der zusammengeführten Cluster wird “einfach gelöscht” also im Beispiel der Wert (AD)
○ 2. Schritt: die Ergebnistabelle aus Schritt 1 ist die Grundlage für die nächste Fusion. Es wird wieder der kleinste Wert für die Fusion ausgewählt und das Vorgehen aus Schritt 1 wiederholt
○ Die Schritte werden wiederholt, bis es nur noch ein Cluster gibt, welches alle Objekte enthält

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Wann ist Precision oder Recall wichtiger? (V03F08)

A

○ Precision ist wichtiger, wenn ein falsch positives Ergebnis schlimmere Folgen hätte, z.B. Amputationsentscheidung anhand bestimmter Diagnose.
○ Recall ist wichtiger, wenn ein falsch negatives Ergebnis schlimmere Folgen hätte, z.B. Tumorerkennung.

17
Q

Wie wird die Euklidische-Distanz berechnet? (V03F13)

A

○ Wurzel aus [(P1x - P2x)^2+(P1y-P2y)^2 + (PNx-PMx)^2 + (PNy-PMy)^2]
○ In der Wurzel werden also immer erst die x-Koordinaten zweier Punkte subtrahiert und quadriert und mit subtrahierten und quadrierten y-Koordinaten addiert
○ P1 und P2 geben in der Formel zwei verschiedene Punkte an

18
Q

Was sind Cluster? (V03F??)

A

Ein Cluster ist eine (Teil-)Menge eines Datensatzes, bestehend aus einzelnen Datenpunkten, z.B. Kunden mit bestimmten Eigenschaften (jeder Kunde ist ein Datenpunkt, der je nach Eigenschaften eingeordnet wird).

19
Q

Was soll durch Clustering erreicht werden? (V03F??)

A

Bei einem Clusterverfahren sollen die Datenpunkte des gesamten Datensatzes in Cluster, also Gruppen, eingeteilt werden, sodass die Punkte innerhalb der Cluster möglichst ähnlich und die Cluster zueinander möglichst unähnlich sind. Fachlich ausgedrückt soll in den Clustern möglichst hohe Homogenität und zwischen ihnen möglichst hohe Heterogenität erreicht werden.

20
Q

Wofür brauchen wir Distanzmaße? (V03F13)

A

○ Werden verwendet um die Ähnlichkeit von Clustern festzustellen
○ Ermöglichen einen Vergleich von mehreren Clustern miteinander

21
Q

Was sind Unterschiede zwischen Single-, Complete- und Average-Linkage-Verfahren? (V03F32)

A

○ Die Wahl der Distanz für die Distanzmatrix ist unterschiedlich
○ Generell wird für die Wahl der Distanz immer jeder Datenpunkt mit jedem der Cluster verglichen
○ Single-Linkage: Distanz zwischen zwei Clustern durch die kleinste Distanz zwischen zwei Objekten zweier Cluster beschrieben.
○ Complete-Linkage: Distanz zwischen zwei Clustern durch die größte Distanz zwischen zwei Objekten zweier Cluster beschrieben.
○ Average-Linkage: Distanz zwischen zwei Clustern durch das arithmetische Mittel zwischen den Objekten der Cluster beschrieben.

22
Q

Was sind Centroide? (V03F??)

A

○ Ein Centroid ist ein Mittelpunkt einer geometrischen Form
○ Bei Partitionierenden Clusterverfahren wird zu Beginn ein Centroid zufällig gewählt (ist damit kein berechneter Mittelpunkt)
○ Später wird der Mittelpunkt allerdings immer berechnet, wenn ein neuer Punkt dem Cluster hinzugefügt wurde

23
Q

Was ist der Unterschied zwischen K-Means-Algorithmus und Single Linkage Clustering? (V03F??)

A

○ Beim Single-Linkage-Verfahren wird für die Auswahl der zu fusionierenden Cluster die Distanz jedes Datenpunktes aus Cluster 1 mit Cluster 2 verglichen, um die minimale Distanz zu finden
○ K-Means Algorithmus verwendet für die Bestimmung der Distanz den Mittelpunkt des Clusters und guckt so zu welchem Cluster der Punkt näher liegt