Faktoranalyse Flashcards
(36 cards)
Was ist die Grundidee der Faktorenanalyse?
Korrelationen von manifesten Items erklärt durch latente Faktoren
Reduktion der Werte ohne Informationsverlust
vereinfachte Darstellung von wechselseitigen Zusammenhängen in beobachteten Variablen k durch m zugrunde liegenden Variablen (m<k)
Was sind wichtige Werte der Faktorenanalyse? Was ist ihre Bedeutung?
Ladung = Korrelation von Item i mit Faktor Lambda λ
Kommunalität=
Eigenwert= Anteil der Gesamtvarianz den Faktor j für alle Items erklärt
Kommunalität= Varianzanteil eines Items, der durch die extrahierten Faktoren erklärt werden kann
Kommunalität = 1 wenn so viele Faktoren extrahiert wie Items
Eigenwert = Eigenschaft der Komponenten
Kommunalität=Eigenschaft der Items
Was sind unterschiede zwischen Regressionsmethoden und Faktoranalyse?
- Regression sagt streng ein Outcome durch einen Prädiktor vor
- in anderen Modellen gleichberechtigtere Beziehung zwischen Variablen
Welche Anwendungen hat die Faktorenanalyse?
- Ergründung gemeinsamer latenter Struktur von Daten
- Überprüfung faktorieller Validität von Fragebögen und Skalen
- Informationsreduktion und -verdichtung (zB Kompositscore)
Was sind die mathematischen Grundlagen der Faktorenanalyse?
Interkorrelationsmatrix R der k Variablen -> 2 Matrizen (Eigenvektoren und Eigenwerte) multipliziert = ergeben Ladungsmatrix Λ
aus Ladungsmatrix werden Faktoren extrahiert
Eigenwerte werden über Singulärwertezerlegung (SVD) und iterativer Lösung des Eigenwertproblems numerisch bestimmt
R= Λ * Λ(transponiert)
Was ist die Ladungsmatrix?
Produkt 2er Matrizen (Eigenvektoren * Eigenwerte) aus Interkorrelationsmatrix R
kann R reproduzieren
Hauptdiagonalen =/= 1
sondern: wie stark Items auf spezifischen Faktor/Komponente laden
Was ist die Interkorrelationsmatrix?
=R
quadratische (k*k)
symmetrische
reelle Matrix, Darstellung in der Variablen aufgetragen werden und korreliert werden
Hauptdiagonale = 1 da Korrelation mit sich selbst = Summe der quadrierten Ladungen der jeweiligen Variable über alle Komponente
= standardisierte Varianzc
Was ist eine Faktorladung?
Korrelation der jeweiligen Variable mit der jeweiligen Komponente
Wertebereich [-1;1] mit 0=unkorreliert
Was ist eine Komponente in der PCA?
eine latente Variable die Variation der manifesten Variablen erklärt
Was ist die Varianz-Kovarianz-Matrix?
=S
unstandardisierte interkorrelationstabelle
in Hauptdiagnonale der Martix nicht =1 sondern Varianz
Welches Ziel hat die PCA?
Vereinfachung = weniger Komponenten extrahieren & schauen ob R gut reproduzieren kann
Bestimmung Anzahl latenter Komponenten
Zusammenfassung der latenten Variable in Komponentenscores für jede Person = gewichteter Score (linearkombination) der standardisierten Variablen unter Heranziehung der Komponentenladungen
λ1x1+λ2x2+…λk*xk=Komponente
Extraktion der Komponenten, so dass sie maximal Varianz erklären -> monoton fallende Eigenwerte
erklärte Varianzanteile sind unabhängig
Wie funktioniert die Faktorenextraktion in der PCA?
Interkorrelationsmatrix der Variablen
Umrechnen in Ladungsmatrix via Multiplikation
erste Komponente gezogen
Diagonalfit der Ladungsmatrix nimmt ab (Elemente <1) und kann mittels Offdiagonalfit Matrix dargestellt werden um Abweichungen zu kontrollieren
R - Λ*Λ (transponiert)
generell: Anpassung muss besser werden mit mehr Komponenten
in PCA prinzipiell so viele Komponenten gezogen wie Variablen
-> Abbruchkriterium
Welche Abbruchkriterien der Faktorenextraktion kennen wir?
beziehen sich explizit oder implizit auf Diagonalfit und verwenden Eigenwerte
- Screetest (Knick) uneindeutig
- Kaiser-Guttman Kriterium:
Eig>1 Problem: bezieht sich nur auf Populationsmatrizen, führt zu Überextraktion von Komponenten in Stichprobendaten da auch in unkorrelierten Variablen Eig>1 möglich, besonders bei klein N
-Parallelanalyse (empfohlen, most valid)
vergleicht Verlauf der beobachteten Eigenwerten mit Eigenwerten aus vielen Datensätzen von Zufallsdaten
Koomponenten behalten, deren i-ter Eigenwert größer ist als
- mittlerer i-ter Eigenwert
- 95. Perzentil des i-ten Eigenwerts
.. der Zufallsdaten
Was sind Eigenwerte? Wie können sie berechnet werden?
=Varianzanteil den der Faktor j von der Gesamtvarianz aller Items erklärt
Eig=Σjλ² ij
-summieren sich auf k = Summe der Variablen
- monoton fallend
Eig > 0 = R und S sind positiv definit
Eig≥ 0 = R und S sind positiv semidefinit
-> Indikator für den Diagonalfit = erklärte Gesamtvarianz
Erklärte Varianz= Eig/k * 100
Stichprobenschätzung
je kleiner N umso mehr streuen Korrelationskoeffizienten um 0 -> Stichprobenfehler, Eigenwerte trotz unkorreliertheit der Daten bei >1
Wie können Komponenten interpretiert werden?
erklärt Anteil an Varianz
geometrische Interpretation als Achsen in einem Koordinationssystem
initiale Lösung der PCA ist orthogonal
- rechtwinkelig
- eindeutig hinsichtlich Eigenwerte
- uneindeutig hinsichtlich mancher Transformationen
nach Rotation:
bei unabhängigen Komponenten orthogonal, bei korrelierten Komponenten oblique/schiefwinkelige Komponenten
Wie funktioniert Faktorenrotation? Welche Methoden kennen wir? Welche wurde uns empfohlen?
Es werden Markervariablen gesucht
Rotation der Achsen eines Koordinatensystems, welche Koordinaten zu Datenpunkten modelliert
initiale Lösung ist rechtwinkelig
Methoden ua:
- Varimax: orthogonal, möglichst eindeutige Zuordnung von Variablen zu Komponenten “Einfachstruktur” = reine Rotation
- Quartimax: orthogonal, maximiert Erklärungswert der Komponenten ggü Variablen
- Oblimin: oblique, freie Schätzung der Korrelation zwischen Komponenten -> Vorteil ggü Varimax, wenn Komponenten unkorreliert sind wird dies auch wirklich erkannt
Welche Konsequenzen hat die Faktorenrotation?
orthogonale Rotation:
Ladungen verändern sich
Größe der Eigenwerte zueinander ändern sich
Summe der erklärten Varianz ist gleich
oblique Rotation:
Komponenten nicht mehr unabhängig
Ladungen verändern sich
Größe der Eigenwerte zueinander ändern sich
Summe der erklärten Varianz ändert sich (= korrelierte Komponenten überlappen)
Orthogonale oder oblique Rotation?
in der Psychologie oft oblique besseren Datenfit da reale Daten meist korreliert sind
realistischer als orthogonale Komponenten
Wann wird 100% der Varianz für eine Variable mittels PCA erklärt?
Wenn alle k Komponenten extrahiert werden
Kommunalität = 1
Ziel: weniger aber ausreichende Varianzerklärung
Was sind Kommunalitäten?
Anteil erklärter Varianz je Variable
Summe der quadrierten Ladungen aller Komponenten
h²=Σiλ²ij
1-h²= Uniquenessj
= Anteil nicht erklärter Varianz
sollte möglichst hoch sein
niedrige Kommunalität =/= niedrige Ladungen
Exklusion von Items mit niedriger Kommunalität verbessert Messeigenschaften & Ökonomie
Wie kann die PCA interpretiert werden?
theoretisch Sigifikanztest
häufig aber stattdessen effektstärkenbasierte Interpretation
Cutoff > .3 für relevante λ
-> dann h2=0.1 -> mindestens 10% Varianz der Variable erklärt
-> mittlerer Effekt nach Cohen
nur Heuristik, es gibt auch andere Cutoffs
Welche Unterschiede gibt es zwischen PCA und EFA?
verwandt aber nicht ident
PCA sucht Komponenten die ein Maximum der beobachteten Varianz erklären
EFA beruht auf Messmodell, das gemeinsame Faktoren identifiziert und a priori von Messfehlern (Itemspezifische Varianz) differenziert
EFA unterscheidet a priori in gemeinsame und spezifische Varianz
nicht erklärte Varianzanteile werden in PCA konzeptuell nicht als Messfehler angesehen
EFA kompatibler mit der Interpretation dass latente Faktoren beobachtete Variablen erklären
in PCA kann immer Lösung gefunden werden und immer bis zu k Komponenten extrahiert werde, bei EFA nicht
liefern häufig ähnliche Ergebnisse
Ladungen & Ladungsmuster häufig ähnlich
Komponenten- & Faktorscores oft hochkorreliert
Korrelationen von Scores mit Drittvariablen sind häufig gleich
PCA robuster:
- keine Einschränkungen bzgl Faktorenzahl
- keine Haywood cases
PCA gut wenn:
- Faktorenzahl unbestimmt, explorativ
idR erst PCA um Faktorenzahl zu bestimmen, dann EFA Ladungsmatrix berechnen und PAF
Was ist der Ziel der EFA?
Messmodell
versucht die den Variablen gemeinsame Varianz, bereinigt um Messfehler durch Faktoren zu erklären
-> beobachteter Wert erklärt als Linearkombination latenter Faktoren plus Messfehler
Vereinfachen + Zusammenfassen