Clusteranalyse Flashcards
(13 cards)
Ziele von Clusteranalysen
- Marktsegmentierung
- Spezifische Gruppen identifizieren und deren Kaufverhalten verstehen
- Marken und Produkte Clustern
- Testmärkte Clustern
- Gesellschaftliche Strukturen verstehen
Vorgehen Clusteranalyse
- Variablen auswählen
- Distanzmass auswählen
- Cluster-Verfahren auswählen
- Anzahl Cluster bestimmen
- Validität der Cluster-Lösung beurteilen
- Variablen auswählen
Formale Anforderungen
- alle Variablen sollten möglichst gleich viel Gewicht haben (z-standartisierung)
- Ausreisser ausschliessen
- möglichst distinktive Variablen
- beobachtbare- und nicht beobachtbare Variablen
- Distanzmass
- Euklidische Distanz
- City-Block Distanz ->höheres Distanzmass
- Clusterverfahren auswählen
- hierarchisch: Schrittweise Gruppenbildung ->Zuteilung zu Gruppen ist endgültig
- nonhierachrisch: Anzahl Cluster uns Startgruppierung wird vorgegeben ->schrittweises verschieben , bis Gruppierung nicht mehr besser wird (bsp- K-Means)
beschreibe die hierarchischen Clusterverfahren
- Für metrisch, nominalskalierte oder gemischt skalierte Variablen
- Für grosse Fallzahlen nicht geeignet
- Clusteranzahl muss nicht vorgegeben werden
- 1 Durchgang berechnet mehrere Lösungen
Wie ist der Ablauf der hierarchischen Clusteranalyse
jedes Objekt in 1 Cluster> Berechnung aller Distanzen > Suche nach den 2 Objekten mit geringster Distanz > Zusammenfassung der ähnlichsten Objekte
>Berechnung der neuen Abstände bis alle Objekte wieder in 1 Gruppe sind
=sehr langer Prozess
Welche Arten der Distanz gibt es?
- single Linkage (nächstgelegener Nachbar)
- Complete Linkage (entferntester Nachbar)
- Average Linkage
Ablauf K-Means
Vorgabe Startgruppierung> Berechnung Mittelwerte für Gruppeneigenschaften> Berechnung Fehlerquadratsummen> Was passiert bei Objektverschiebeung> Verminderung Fehlerquadratsumme? >J= Verlagerung des Objekts> Neuberechnung der Gruppenmittelwerte bis alle Objekte untersucht sind
- Anzahl Cluster bestimmen
- > keine festen Regeln
- Theoretische oder pragmatische Gründe
- Sprung bei Koeffizienten (Struktogramm oder Dendogramm)
- Relative Grösse von Clustern
- Clusteranzahl im Verhältnis zu Varaiblenanzahl, Wertevariation und Fallzahl
- Reliabilität und Validität der Cluster-Lösung beurteilen
- verschiedene Distanzmasse ausprobieren
- Verschiedene Clustermethoden ausprobieren
- Split half
- Bei nicht hierarchischen Verfahre kann die Reihenfolge eine Rolle spielen ->verschiedene Reihenfolgen ausprobieren
Clusteranalyse wird massgeblich beeinflusst durch…
- Wahl der Variablen
- Wahl des Fusionierungsalgorithmus
- Merkmale der zu clusternden Variablen
- Merkmale der zu gruppierenden Elementen
Kritik der Clusteranalyse
- vergleichsweise unwissenschaftlich
- kein singstiftendes Verfahren, sondern ein klassifizierendes Verfahren
- Unterschiedliche Verfahren führen meist zu anderen Ergebnissen