Cluster Analyse Flashcards

1
Q

Welches Agglomerationsverfahren verwendet man zur Identifikation von Extremwerten (“Außreizern)

Cluster Analyse

A
  • Single Linkage
  • betrachtet geringste Distanz zw. Clustern
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Was versteht man unter “complete Linkage” im Rahmen von Clusteranalysen?

A

Das ist die Längste Distanz innerhalb eines Clusters, wo die Ähnlichkeit liegt

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Welcher Agglomeration Clusteralgorithmus wird in den meisten fällen bei ausschließlich metrischen Daten verwendet ?

A
  • Distanzmaße: Euklidische Distanz
  • direkte Distanz zwischen 2 Punkten
  • setzt metrische Daten voraus
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Was muss bei einer Fragestellung im Fokus stehen, damit es sinnvoll ist, den Korrelationskoeffizienten als Ähnlichkeitsmaß für Clusteranalysen zu verwenden ?

A
  • Sinnvoll wenn Fragestellung auf Beziehung zwischen den Variablen abzielt
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

beschreibe mit eigenen Worten wie das kmeans- Clustering abläuft

A

1) Cluster geben wir vor
2) Zuordnung der Fälle in Abhängigkeit der Cluster - Varianz
3) Distanz berechnen
4) Schwerpunkte berechnen (in Schwerpunkte kreuze setzen)
5) Scheuen an welchem Punkt welcher am nächsten liegt

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Oft macht man vor einer Clusteranalyse noch eine Hauptkomponentenanalyse.
Warum wird diese durchgeführt ?

A
  • Oft korrelieren die Daten miteinander (sind nicht unabhängig)
  • was man bei Clusteranalyse nicht will
  • da sie sonnst Ergebnisse verzerren
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Was bedeutet es inhaltlich, wenn man eine Clusteranalyse mit hoch korrelierten Variablen durchführt (ohne PCA vorher)

A

Implizite Gewichtung
- Variablen korrelieren miteinander
- & schlimmstenfalls liegt eine Gewichtung vor

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

nenne die 4 wichtigsten Eigenschaften, die Clustervariablen idealerweise erfüllen sollen !!!!

A

1) Gruppierungsrelevant
2) Trennkraft
3) Messbarkeit
4) Clusterstabilität

How well did you know this?
1
Not at all
2
3
4
5
Perfectly