Modul 4 - Datenanalyse Flashcards
(19 cards)
Deskriptives Verfahren (Datenanalyse)
Orientierung an Stichprobe
Induktives Verfahren (Datenanalyse)
Von der Stichprobe auf die Grundgesamtheit schließen können
Lageparameter: Arithmetisches Mittel
Mittelwert
X = 1/n * (x1 + x2 + … + xn)
Lageparameter: Median
Wert der den Datensatz in zwei gleich Große hälften teilt
Streuungsparameter: Varianz
Quadrierte Abweichung vom Mittelwert
S^2 = 1/(n-1) * Summe 1 bis n von (xi - Mittelwert)^2
Streuungsparameter: Standardabweichung
Abweichung vom Mittelwert
Wurzel der Varianz
Definition Korrelationsanalyse
Verfahren zur Bestimmung der Stärke linearer Zusammenhänge zwischen zwei metrisch skalierten Variablen.
Logik der Korrelationsanalyse
- Korrelationskoeffizient kann Werte von -1 bis 1 annehmen
- Keine Korrelation = Unabhängigkeit
Definition Regressionsanalyse
Analyse einer einseitigen Abhängigkeit zwischen einer unabhängigen Variablen (x) und einer abhängigen
Variablen (y).
Vorgehensweise Regressionsanalyse
- lineare Schätzfunktion y = a+b*x aufstellen
- Ziel: a und b möglichst gut an empirische Daten anpassen
Definition Multiple Regressionsanalyse
Analysiert den einseitigen Einfluss mehrerer unabhängiger Variablen xj (j = 1, …J) auf eine abhängige
Variable (y).
Vorgehensweise multiple Regressionsanalyse
- Ermittlung einer Schätzfunktion y = a + b1x1 + b2x2 + … + bj*xj + e
- Schätzung der Regressionskoeffizienten a, b1, …
Wichtig bei multiplen Regressionsanalyse
Standardisierung der Regressionskoeffizienten (wegen verschiedenen Skalen)
B = b * (Standardabweichung x / Standardabweichung y)
Ablauf der Faktoranalyse
- Erstellen der Datenmatrix
- Berechnung der Korrelationsmatrix
- Bestimmung der Faktoren
- Rotation und Interpretation der Faktoren
Definition Faktorenanalyse
Reduziert eine größere Zahl an beobachteten Variablen (= Indikatorvariablen) auf wenige dahinterliegende nicht direkt
messbare (= latente) Faktoren
Definition Clusteranalyse
Die Clusteranalyse fasst Objekte (z.B. Kunden) auf Basis von ausgewählten Variablen zu Gruppen/Clustern
(z.B. Kundensegmente) zusammen.
Vorgehensweise Clusteranalyse
- Auswahl der Clustervariablen und Aufstellen der Datenmatrix
- Aufstellen einer Distanzmatrix
- Clusteralgorithmus
- Bestimmung der Clusterzahl
- Interpretation und Benennung der Cluster anhand der Merkmalsmittelwerte
Aufstellung einer Distanzmatrix
Summe der quadrierten Differenz aller Werte
Wie lässt sich die optimale Clusterzahl erkennen?
Anhand des Elbows (wenn Distanzmarke zu groß wird)