Cluster Analyse Flashcards
Welches Agglomerationsverfahren verwendet man zur Identifikation von Extremwerten (“Außreizern)
Cluster Analyse
- Single Linkage
- betrachtet geringste Distanz zw. Clustern
Was versteht man unter “complete Linkage” im Rahmen von Clusteranalysen?
Das ist die Längste Distanz innerhalb eines Clusters, wo die Ähnlichkeit liegt
Welcher Agglomeration Clusteralgorithmus wird in den meisten fällen bei ausschließlich metrischen Daten verwendet ?
- Distanzmaße: Euklidische Distanz
- direkte Distanz zwischen 2 Punkten
- setzt metrische Daten voraus
Was muss bei einer Fragestellung im Fokus stehen, damit es sinnvoll ist, den Korrelationskoeffizienten als Ähnlichkeitsmaß für Clusteranalysen zu verwenden ?
- Sinnvoll wenn Fragestellung auf Beziehung zwischen den Variablen abzielt
beschreibe mit eigenen Worten wie das kmeans- Clustering abläuft
1) Cluster geben wir vor
2) Zuordnung der Fälle in Abhängigkeit der Cluster - Varianz
3) Distanz berechnen
4) Schwerpunkte berechnen (in Schwerpunkte kreuze setzen)
5) Scheuen an welchem Punkt welcher am nächsten liegt
Oft macht man vor einer Clusteranalyse noch eine Hauptkomponentenanalyse.
Warum wird diese durchgeführt ?
- Oft korrelieren die Daten miteinander (sind nicht unabhängig)
- was man bei Clusteranalyse nicht will
- da sie sonnst Ergebnisse verzerren
Was bedeutet es inhaltlich, wenn man eine Clusteranalyse mit hoch korrelierten Variablen durchführt (ohne PCA vorher)
Implizite Gewichtung
- Variablen korrelieren miteinander
- & schlimmstenfalls liegt eine Gewichtung vor
nenne die 4 wichtigsten Eigenschaften, die Clustervariablen idealerweise erfüllen sollen !!!!
1) Gruppierungsrelevant
2) Trennkraft
3) Messbarkeit
4) Clusterstabilität