Hauptkomponenten- und Faktorenanalyse Flashcards

1
Q
  1. Ziele und Verwendung von Hauptkomponenten- und Faktorenanalyse
A

Eine Vielzahl beobachteter Variablen die zugrunde liegende Struktur sog. Hauptkomponenten bzw. Faktoren zu ermitteln

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Was wird in diesem Kontext als Faktor verstanden?

A

Auch als eine latente Variable bezeichnet ist ein psychologisches Konstrukt, dessen Ausprägung nicht direkt messbar ist. Stattdessen wird das Konstrukt durch ver. beobachtbare Variablen gemessen, z.B. durch die Fragen eines Fragebogens Wenn die Antworten auf diese Fragen durch zugrundeliegende Faktoren hervorgerufen werden, dann ist klar, dass solche Antworten über Personen hinweg miteinander korrelieren, sollten

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Ausgangspunkt von PCA und FA & Korrelationsmatrix bei R bestimmen

A
  1. Die bivariate Korrelation mehrerer beobachteter Variablen und daher Korrelationsmatrizen. Wenn die Anzahl der korrelierten Variablen zunimmt, wir es immer schwerer die Cluster miteinander zu vergleichen und korrelierte Variablen zu ermitteln. Hier setzt die PCA und FA an.
  2. Korrelationsmatrix erstellen durch: R <- round(cor(daten), x)
    mit round werden die auf eine bestimmte Nachkommastelle gerundet
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Die Wichtigsten Verwendungen von FA und PCA

A

I. Verstehen: der Strukturen von Datensätzen (das Verstehen des Konstrukts „Intelligenz“ war auch mit Anlass der Entwicklung dieser Verfahren)
II. Entwicklung: eines geeigneten Fragebogens zur Erfassung mehrerer Dimensionen bzw. latenter Variablen
III. Reduktion: der Informationsmenge zur Weiterverarbeitung mit anderen Verfahren (z.B.: um Problemen der Multikollinearität im Rahmen einer multiplen Regression vorzubeugen, indem korrelierte Variablen zu einem Faktor zusammengefasst werden)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

explorative vs. konfimatorische Faktorenanalyse

A

I. explorative Faktorenanalyse: Auffinden einer möglicherweise zugrunde liegenden Datenstruktur. Vorab werden keine Annahmen gemacht darüber, wieviele Faktoren der Datenstruktur zugrunde liegen
II. konfirmatorische Faktorenanalyse: theoriegeleitete Ideen über die Anzahl der zugrunde liegenden Faktoren, Testen konkreter Hypothesen über die Faktorenstruktur; Sind eigentlich einfache Sonderfälle sog. Strukturgleichungsmodelle.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Determinante, Haupt- und Nebendiagonale

A

I. Hauptdiagonale: die Diagonale einer Matrix die von links oben nach rechts unten geht
II. Nebendiagonale: Die Diagonale einer Matrix, die von rechts oben nach links unten geht
III. Determinante: Die Determinante einer Matrix ist eine einzige Zahl, in deren Berechnung sämtliche Werte einer Matrix eingehen. Man schreibt für die Determinante det A oder |A|. Sie wird berechnet, indem das Produkt der Nebendiagonalen von dem der Hauptdiagonalen subtrahiert wird:
|A| = ad – bc

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Determinanten für (3 x 3)- bzw. (n x n)-Matrizen

A

(i). Für eine (3 x 3)-Matrix erfolgt die Berechnung mit der Regel des Sarrus
(ii). Im allgemeinen Fall von (n x n)-Matrizen kommt der Laplace´sche Entwicklungssatz zur Anwendung

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Geometrische Interpretation von Determinanten

A
  1. Bei einer (2 x 2 )-Matrix: Fasst man die beiden Spalten als zwei Spaltenvektoren auf, so spannen diese ein Parallelogramm (bzw. bei orthogonalen Vektoren ein Rechteck) auf.
  2. Allgemeine Regel für den Flächeninhalte: Der Betrag der Determinante von A entspricht dem Flächeninhalt des durch die Spaltenvektoren aufgespannten Parallelogramms
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Geometrische Interpretation von Determinanten: Eigenschaften zweier linear abhängiger Vektoren

A

würden geometrisch betrachtet aufeinander liegen – der Flächeninhalt und damit auch die Determinante sind jeweils 0. Da in diesem Fall die Matrix auch nicht invertierbar ist, kann man sagen:
|A| = 0 ⟺ A ist nicht invertierbar

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Bestimmung der Determinante mit R:

A

A <- Matrix(c())
det(A)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Fiktive Scatterplots und (Varianz-)Kovarianz-Matrix

A

(vi). Fiktive Scatterplots: Um Punktewolken lassen sich Ellipsoide bilden, die umso schmaler sind, je stärker die beiden Variablen X und Y miteinander korreliert sind
(vii) (Varianz-)Kovarianz- Matrix: S ist nun eine sog. (Varianz-)Kovarianz-Matrix, also:
S = S²x Kov(X;Y)
Kov(X,Y) S²y
Dann ist √|S| proportional zum Rauminhalt des zugehörigen Ellipsoiden: Die Determinante ist eine Maßzahl für die Größe des Ellipsoiden

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Definition: Eigenwertvektoren

A

–> beziehen sich immer auf eine quadratische Matrix!
1. Eigenwert: Sind alle λ, für die gilt: |A - λ * I| = 0.

  1. Eigenvektoren: Sei A eine quadratische (n x n)-Matrix, dann heißen alle Vektoren x, für die gilt, dass kein xi 0 ist, Eigenvektoren von A zum Eigenwert λ, wenn sie die Gleichung A * x = λ * x . A * x und λ * x sind dabei n-dimensionale Vektoren.
    a) Normalerweise wird jeder Vektor bei Multiplikation mit A gestreckt und gedreht. Eigenvektoren sind genau diejenigen Vektoren, die bei Multiplikation mit A zwar um λ gestreckt, nicht aber gedreht werden.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Interpretation von Eigenwertvektoren und Eigenwerten

A
  1. Ist das Skalarprodukt der Eigenvektoren = 0, dann stehen beide Vektoren orthogonal zueinander
  2. Berechnung des Skalarprodukts in R: Nun kann man von den Eigenvektoren die in R mit [,1] und [,2] beschriftet sind, also die Spalten der Eigenvektormatrix sind. Das Skalarprodukt berechnen, indem man:
    eigen.ergebnis$vektors[,1] %*% eigen.ergebnis$vectors[,2]
  3. Proportionalität zur Hauptachse: Die zu den Eigenvektoren gehörenden Eigenwerte wiederum sind proportional zu den Längen der Hauptachsen. Die Stärke des Zusammenhangs zweier Variablen kann also durch das Verhältnis der Eigenwerte ausgedrückt werden:
    a) Sind beide Variablen unkorreliert, sind beide Eigenvektoren gleich groß und das Verhältnis der Eigenwerte ergibt dann in etwas 1.
    b) Bei sehr starken Korrelationen hingegen wird das Verhältnis aus größtem relativ zum kleinstem Eigenwert zunehmend größer.
  4. Hauptachsen der Ellipsoiden: In die Ellipsen werden jeweils zwei orthogonal aufeinander stehende Geraden eingezeichnet, die die „Länge“ und „Höhe“ der Ellipsoiden darstellen, die sog. Hauptachsen
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Grundidee der PCA

A

I. Grundidee der PCA: Eine PCA ist eine orthogonale Transformation der Daten. Daws bedeutet, dass die m-vielen Originalvariablen durch Linearkombinationen p-vieler neuer Variablen, die nicht miteinander korreliert sind, dargestellt werden. Diese Linearkombination p-vieler unkorrelierte Variablen sind die sog. Hauptkomponenten.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Konstruktion von Hauptkomponenten

A
  1. Die Hauptkomponenten werden so konstruiert, dass die erste Hauptkomponente bereits möglichst viel der Variation der Originaldaten erklären kann.
  2. Die zweite Hauptkomponente erklärt dann zwar weniger Variation, aber immerhin am „zweitmeisten“ usw.
  3. Die Hoffnung dabei ist, dass die ersten paar Hauptkomponenten bereits so viel < Variation erklären können, dass die Originalzusammenhänge zwar nicht zu 100%, aber doch zu einem Großteil wiedergegeben werden können. Damit wäre eine Reduktion der Dimension von m auf p < m gelungen.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Definition Faktorladung, Faktorwert und Faktormatrix

A
  1. Faktorladung: Die Korrelationen zwischen den Faktoren bzw. Hauptkomponenten und den Variablen.
    a) Sie werden in einer Faktorladungsmatrix zusammengefasst
    b) sie geben die Koordinaten der Variablen im Koordinatensystem an
  2. Faktorladungsmatrix: Eine Matrix, üblicherweise bezeichnet als A, die die Ladungen enthält, wird Faktorladungsmatrix genannt
  3. Faktorenwerte: Jetzt geht es darum herauszufinden, welche Werte eine Person auf dem Faktor hat. Im Prinzip können die Faktoren als Linearkombination der Ausgangsvariablen mit den Ladungen als Koeffizienten dargestellt werden (Rechnung folgt)
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
17
Q

Was ist die Matrix R?

A
  1. Matrix der bivariaten Korrelationen der Ausgangsvariablen; quasi die Grundlage jeder PCA bzw. FA (Wenngleich auch eine Kovarianzmatrix benutzt werden kann, wenn aber mitunter zu anderen Ergebnissen führt).
  2. Da bei einer Korrelationsmatrix auf der Diagonalen nur Eisen stehen, ist die „Gesamtvarianz“ (= Summe der Diagonalelemente) der Daten als gleich der Anzahl der Variablen
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
18
Q

Was ist die Matrix Rrep?

A

Rrep: meint die reproduzierte Korrelationsmatrix: Eine FA oder PCA versucht die Zusammenhänge zwischen den Variablen möglichst gut mit weniger Hauptkomponenten bzw. Faktoren als Ausgangsvariablen wiederzugeben. Aus den Ladungen kann daher eine Matrix berechnet werden, die die von den Faktoren bzw. Hauptkomponenten vorhergesagten Zusammenhänge enthält Dies ist dann die reproduzierte Korrelationsmatrix.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
19
Q

Was sind die Matrizen A, L und V?

A

A: Faktorladungsmatrix
L: Eigenwertmatrix, eine Diagonalmatrix, in deren Diagonalen die Eigenwerte von R stehen
V: Eigenvektormatrix, in deren Spalten die Eigenvektoren zu den Eigenwerten stehen

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
20
Q

Schritte einer PCA oder FA

A

I. Variablenauswahl und Berechnung/Evaluation der Korrelationsmatrix
II. Extraktion der Hauptkomponenten bzw. Faktoren und Bestimmung der Kommunalitäten
III. Bestimmung der Anzahl der Hauptkomponenten bzw. Faktoren
IV. Rotation und Interpretation der Hauptkomponenten bzw. Faktoren
V. ggf. Berechnung der Faktorwerte

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
21
Q

Schritte einer PCA oder FA: 1. Variablenauswahl und Berechnung/Evaluation der Korrelationsmatrix: Welche Variablen sollten als Ausgangsvariablen genutzt werden?

A

Hier bestimmende Frage: Sind Daten für eine PCA/ FA geeignet?
I. Intervallskalenniveau: i.d.R., aber nicht zwingend wird von den Daten einer PCA oder FA Intervallskalenniveau erwartet. Dies liegt daran, dass als Grundlage die bivariaten Korrelationen herangezogen werden.
II. Als Ausgangsvariablen sollten verwendet werden:
(i). Variablen die inhaltlich zum Untersuchungsgegenstand passen und die
(ii). lineare Zusammenhänge zumindest zu einem Teil der anderen Variablen aufweisen

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
22
Q

Schritte einer PCA oder FA: 1. Variablenauswahl und Berechnung/Evaluation der Korrelationsmatrix: Welche Tests stehen an?

A
  1. Bartlett-Test: Testet die Nullhypothese, dass alle Korrelationen eigentlich Null sind (d.h., dass R =I ist); dazu müssen die Variablen normalverteilt sein. Wird der Bartlett-Test signifikant gehen wir davon aus, dass R nicht einer Einheitsmatrix entspricht. Die Korrelationen sind also alle ungleich 0. P-Wert in der Ausgabe ablesen. –> Testet also ob Korrelationen nicht zu klein sind
  2. Determinante Größer als 0.00001? mit det(R) ausgeben lassen und gucken ob dem so ist. Wenn sie größer ist, dann können wir Multikollinarität erstmal ausschließen
  3. Ist die Stichprobe und das Korrelationsmuster für eine PCA/ FA geeignet?
    Kaiser-Meyer-Olkin-(KMO)-Kriterium bzw. das Measure of Sampling Adequacy (MSA):
    (a) sowohl für einzelne Variablen als auch insgesamt berechnet.
    (b) variiert zwischen 0 und 1
    (c) es sollte keine der Werte < 0.5 sein, je größer die Werte sind, desto besser
    (d) von manchen Autor*innen verbale labels: 0.5 – 0.7 ist „mittelmäßig“; 0.7 – 0.8 ist „gut“ und 0.8 – 0.9 „sehr gut“ und höhere Werte sein „super“
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
23
Q

Schritte einer PCA / FA: 2. Extraktion der Hauptkomponenten bzw. Faktoren und Bestimmung der Kommunalitäten:

A

Wenn sich die Korrelationsmatrix für eine Faktorenanalyse eignet, dann steht die Extraktion der Faktoren bzw. Hauptkomponenten als nächstes an. Oft werden zunächst so viele Faktoren bzw. Hauptkomponenten bestimmt, wie es Variablen gibt und die Anzahl dann im nächsten Schritt reduziert

24
Q

Kommunalität

A

Die Varianz jeder Variablen hat zwei Komponenten:
(i) geteilte Varianz: einen Anteil, den sie gemeinsam mit anderen Variablen hat: Auch Kommunalität genannt und üblicherweise mit h² bezeichnet
(ii) spezifische Varianz: ein Anteil, der für sie spezifisch ist und nicht geteilt wird: üblicherweise mit u² (für unique)
(iii) Es gilt: u² = 1 – h²
(iv) h² ist die Summe der quadrierten Ladungen

25
Q

Kommunalitätsproblem

A

(i) Definition: PCA und FA interessieren sich die Kommunalität, also den Anteil geteilter Varianz. Als Kommunalitätsproblem bezeichnet man das Problem der Schätzung der Anfangskommunalität, also vor der ersten Faktorenextraktion

26
Q

Schritte einer PCA / FA: 2. Extraktion der Hauptkomponenten bzw. Faktoren und Bestimmung der Kommunalitäten: Wie werden Faktoren bei PCA und wie bei FA bestimmt?

A
  1. Hauptachsenanalyse: die Diagonale der Korrelationsmatrix wird durch die geschätzte Kommunalität ersetzt (sie wird dann reduzierte Korrelationsmatrix genannt). Auf Basis dieser wird dann eine PCA gerechnet. Dann werden die Kommunalitäten neu berechnet und dieser Vorgang wird wiederholt, bis sich nach einer bestimmten Anzahl von Iterationen die geschätzte Kommunalität nicht mehr wirklich verändert
  2. Maximum-Likelihood-Faktorenanalyse: wird die Maximum-Likelihood Methode zur Schätzung der Kommunalität verwendet.
27
Q

Bestimmung der Anzahl der Hauptkomponenten bzw. Faktoren

A

Frage: Wie viele Hauptkomponenten bzw. Faktoren sollen beibehalten werden, um trotz Reduktion der Dimensionen – Das Muster der Korrelation hinreichend gut wiedergeben zu können?
Hier spielen Eigenwerte (der Korrelationsmatrix) eine große Rolle: der Eigenwert eines jeden Faktors entspricht der Summe der quadrierten Ladungen der Variablen auf diesem Faktor  er gibt somit an, wieviel der Gesamtvarianz der Daten durch den Faktor erklärt wird
1. Eigenwertverlauf
2. Kaiser-Kriterium
3. Scree-Test
4. Parallelanalyse

28
Q

Bestimmung der Anzahl der Hauptkomponenten - Vorgehen bei einer PCA:

A

Bei einer PCA wird angenommen, dass h² = 1, das bedeutet, dass die Gesamtvarianz der Daten durch alle Faktoren komplett erklärt wird.
(i) Da wir hier immer eine Korrelationsmatrix betrachten, entspricht die Gesamtvarianz (= Summe der Diagonalelemente) der Anzahl der Variablen
(ii) eine Hauptkomponente mit einem zugehörigen Eigenwert von 1 erklärt also genauso viel Varianz wie eine beobachtete Variable selbst
(iii). nachliegend daher: insbesondere diejenigen Hauptkomponenten bzw. Faktoren mit hohem Eigenwert werden weiter berücksichtig.
(iv). i.d.R. Werden die Eigenwerte in absteigender Größe visualisiert und dann gibt es ver. Kriterien

29
Q

Bestimmung der Anzahl der Hauptkomponenten: 1. Eigenwertverlauf

A

Man findet oft, dass die ersten Eigenwerte groß sind und daher die zugehörigen Hauptkomponenten bzw. Faktoren viel Varianz erklären können, während die folgenden Eigenwerte allesamt klein und wenig verschieden voneinander sind. In diesem Fall würde man nur so viele Faktoren extrahieren, wie es große Eigenwerte gibt. > um diese Methode anzuwenden machen wie eigen(R)$values. Die Eigenwerte werden uns angezeigt.

30
Q

Bestimmung der Anzahl der Hauptkomponenten: 2. Kaiser-Kritierum

A

Gemäß diesem Kriterium sollen mur diejenigen Hauptkomponenten bzw. Faktoren extrahiert werden, die einen Eigenwert größer als 1 besitzen. In der Praxis scheint dieses Kriterium aber häufig zu einer Extraktion von zu vielen Hauptkomponenten bzw. Faktoren zu führen
-> um diese Methode anzuwenden machen wie eigen(R)$values. Die Eigenwerte werden uns angezeigt.

31
Q

Bestimmung der Anzahl der Hauptkomponenten: 3. Scree-Test

A

Auch dieser Test benutzt eine Visualisierung des Eigenwertsverlaufs. Legt man zwei Linien in den Verlauf ergibt sich zwischen zwei Eigenwerten ein Knick und es werden so viele Faktoren bzw. Hauptkomponenten extrahiert, wie Eigenwerte links von diesem Knick liegen.
plot(eigenwertmatrix, ylab = “Eigenwert”, typ = b)

32
Q

Bestimmung der Anzahl der Hauptkomponenten: 4. Paralleltest

A

Hier werden die Eigenwerte einer empirischen Korrelationsmatrix mit denen einer Korrelationsmatrix vergleichen, der eine zufällig gezogene Stichprobe gleicher Größe aus einer Population mit unkorrelierten Variablen zugrunde liegt. In letzterer Stichprobe sind jegliche beobachteten Zusammenhänge dann also zufällig entstanden. Die dabei resultierenden Eigenwerte der Korrelationsmatrix sind sich typischerweise sehr ähnlich und liegen auf einer Linie. Es werden dann diejenigen Hauptkomponenten bzw. Faktoren als wichtig erachtet, deren Eigenwerte über dem entsprechenden Eigenwert der Zufallsdaten liegt.

33
Q

Rotation und Interpretation der Hauptkomponenten bzw. Faktoren: Die initial gefundene Lösung

A

Der PCA oder FA muss nicht zwangsläufig die am besten interpretierbare sein. Eigentlich ist sie sogar arbiträr, da es unendlich viele andere Repräsentationen gibt, die genauso gut die Ausgangsvariablen beschreiben können – sie ist nur die mathematisch am einfachsten bestimmbare Lösung. Daher werden die Faktoren bzw. Hauptkomponenten anschließend so transformiert, dass sie gewissen Optimalitätskriterien entsprechen

34
Q

Rotation und Interpretation der Hauptkomponenten bzw. Faktoren: Optimalitätskriterien

A

(i) Einfachstruktur-Kriterium: durch eine Rotation soll i.d.R. das sog Einfachstruktur-Kriterium erreicht werden: die Variablen sollen eine hohe Ladung auf nur einem Faktor haben und entsprechend keine (oder nur geringe) Ladungen auf den anderen Faktoren
Erkenne ich, wenn die Werte der com bei der Ausgabe nahe bei bei 1 liegen. Die com gibt an, wie viele Hauptkomponenten nötig sind, um die Varianz einer Variablen zu erklären.

35
Q

Arten der Rotation

A
  1. orthogonale Rotation: varimax
  2. oblique Rotation: oblimin
36
Q

orthogonale Rotation: varimax

A

Die Hauptkomponenten bzw. Faktoren werden so rotiert, dass sie auch danach noch orthogonal zueinanderstehen und daher nicht miteinander korrelieren. Das bekannteste Verfahren dieser Art ist die Varimax-Rotation: Die Hauptkomponenten bzw. Faktoren werden so rotiert, dass sie mit einigen Variablen hoch und mit anderen Variablen niedrig zusammenhängen. In anderen Worten: Es werden hohe und niedrige quadrierte Ladungen angestrebt und mittlere Werte sollten vermieden werden. Dies wird erreicht, indem die Varianz der quadrierten Ladungen maximiert wird.

37
Q

oblique Rotation: oblimin

A
  1. Korrelationen: zwischen den Faktoren bzw. Hauptkomponenten werden zugelassen.
  2. Realität: Diese Variante dürfte die Realität psychologischer Untersuchungsgegenstände i.d.R. besser treffen, als orthogonale Rotationen
  3. Einfachstruktur: sie erreichen eine Einfachstruktur besser.
  4. Minimierung der Kreuzprodukte: der ursprünglichen Faktorladungen angestrebt wird. Dies rührt daher, dass diese Kreuzprodukte klein sind, wenn viele der Ladungen bei Null liegen.
  5. Achtung: Da oblique Rotationen auch orthogonale Lösungen liefern können, werden sie in der psychologischen Forschung bevorzugt.
38
Q

Interpretation der verbleibenden Faktoren bzw. Hauptkomponenten

A

Ist eine inhaltliche Angelegenheit und basiert im Wesentlichen darauf herauszuarbeiten, worin die Gemeinsamkeit derjenigen beobachteten Variablen liegen, die hohe Ladungen auf einen gemeinsamen Faktor bzw. eine gemeinsame Hauptkomponente haben. Was hier „hoch“ bedeutet ist ebenfalls nicht festgeschrieben, oft wird aber empfohlen, Ladungen < .30 zu ignorieren
daher auch die Funktion print.psych (pca,
cut = 0.3,
sort = TRUE)

39
Q

Berechnung der Faktorenwerte

A

In Abhängigkeit von der Zielsetzung: als letzter Schritt Berechnung der Faktorwerte für die einzelnen Personen  z.B.: wenn eine PCA oder FA zur Reduktion von Multikollinearität im Rahmen einer multiple Regression verwendet wurde
I. Berechnung: Im Grundprinzip werden die Faktorwerte durch eine Linearkombination so berechnet: Faktorwert = Ladung1 * Variablenwert1 + Ladung2 * Variablenwert2 usw.
Problem: Die Methode ist nicht optimal, da die resultierenden Werte von der Skalierung abhängig sind.
Lösung: Stattdessen werden andere Koeffizienten verwendet, die die Faktorenladungen korrigieren um die Korrelationen zwischen Variablen. Dadurch werden Unterschiede in der Maßeinheit und den Varianzen weniger problematisch. Diese Methode ist einfach umsetzbar, indem eine neue Matrix berechnet wird, deren Spalten die neuen Koeffizienten sind:
B = R-1 A Die Inverse der Korrelationsmatrix wird mit der Ladungsmatrix multipliziert. Die Spalten von B sind dann die neuen Koeffizienten

40
Q

Eigenschaften einer PCA

A

Suksessivität: die neuen Achsen sollen sukzessiv den größten Teil der Varianz der Daten aufklären, d.h. die erste Hauptkomponente soll am meisten Varianz aufklären, die zweite Hauptkomponente am zwei-meisten Varianz und so weiter
II. „orthogonale Rotationstransformation“: Die neuen Achsen sollen weiterhin unabhängig voneinander sein, also orthogonal zueinanderstehen

41
Q

Transformationsmatrix V

A
  1. Die Bedingungen der PCA (Sukzessivität und orthogonale Rotation) werden mit der sog. Transformationsmatrix V sichergestellt, die entsprechend mehrere Bedingungen erfüllen muss:
    a) Eine orthogonale Rotationstransformation erfordert, dass (1) V´ * V = I gilt
    b) ihre Determinante |V| = 1 ist.
    c) V muss so geartet sein, dass die Koordinaten der Personen auf den neuen Achsen sukzessiv maximale Varianz haben
42
Q

Zusammenhang von Eigenwert/ Eigenwertvektoren von R und Transformationsmatrix V

A
  1. Man kann zeigen, dass als Transformationsmatrix die Matrix V der Eigenvektoren resultiert. Ihre Multiplikation mit ihrer Transponierten ergibt eine Einheitsmatrix. Die Matrix der Eigenvektoren erfüllt schon mal die erste Bedingung.
  2. Für die zweite Bedingung muss oft eine Diagonalisierung stattfinden:
    a) Diagonalisierung =wenn eine geeignete Matrix durch Vor- und Nachmultiplikation in eine Diagonalmatrix transformiert werden kann
    b) Dies ist für Korrelationsmatrizen i.d.R. möglich und die resultierende Matrix enthält in der Diagonale die Eigenwerte von R: L = V´ RV. Letztlich wird die Information aus R durch die Diagonalisierung nur anders dargestellt.
    c) Die Formel kann auch umgeschrieben werden, dann können wir auch Schreiben: R = AA´
  3. Fundamentalgleichung der PCA: R = AA´
    a) R kann durch ein Produkt zweier Matrizen geschrieben werden, in die jeweils Eigenvektoren und die (Wurzeln der) Eigenwerte der Korrelationsmatrix eingehen
43
Q

Worüber gibt die Determinante Aufschluss?

A
  1. Inverse: ob ein Gleichungssystem eindeutig lösbar
    ist bzw. ob die Matrix invertierbar ist.
  2. Flächeninhalt: Sie gibt außerdem Aufschluss über die Fläche/Volumen des von den Vektoren aufgespannten Raums.
  3. Kovarianzmatrix: Betrachtete man dazu noch die Determinante einer Kovarianzmatrix, dann ist die Determinante eine Maßzal für doe größe des Ellipsioden
44
Q

Was machen Eigenwert und Eigenwertvektoren?

A
  1. Eigenwerte und Eigenvektoren sind besondere Skalare und Vektoren zu einer quadratischer Matrix.
  2. Dabei sind Eigenvektoren all diejenigen Vektoren, die nach der Multiplikation mit ihrer Matrix nur gestreckt, nicht aber gedreht werden. Im Zuge von Scatterplots geben Eigenvektoren die Hauptachsen des Ellipsoids an, deren Längen sich proportional zu den Eigenwerten verhalten.
45
Q

Unterschied PCA und FA

A
  1. (PCA) ist ein theoriefreies Verfahren zur Datenreduktion, bei dem versucht wird, Variablen zusammenzufassen.
  2. FA ist - im Prinzip - ein theoriegeleitetes Verfahren (Spezialfall von linearen Strukturgleichungsmodellen), das aus manifesten
    (messbaren) Variablen die für die Theorie relevanten, latenten (nicht messbaren) Variablen “vorhersagt”.
  3. Technisch unterscheiden sich die beiden Verfahren darin, von welcher Kommunalität initial ausgegangen wird:
    a) bei der PCA ist das 1. Dadurch können die Daten vollständig durch neue Variablen, die Hauptkomponenten ersetzt werden.
    b) bei der FA ist es das Quadrat der multiplen Korrelation: Jede Variable wird als Kriterium einer multiplen Regression mit den anderen Variablen als Prädiktor aufgefasst und das R² wird als initiale Schätzung der Kommunalität genutzt. Im Detail gibt es dann ver. Varianten, wie die Faktoren bestimmt werden.
46
Q

Wieviel Varianz in der ersten manifesten Variable kann durch alle Faktoren aufgeklärt werden?

A
  1. Diese Frage zieht auf die Kommunalität des erste Faktors ab. Kann ich unter h2 ablesen.
  2. Ergibt sich rechnerisch bei orthogonal rotierten Variablen als quadrierte Summe der Ladungen einer manifesten Variable. (erste Tabelle der Ausgabe, Zeilen)
47
Q

Wo kann ich die Gesamtpassung des Modells ablesen?

A

Bei “Fit based upon off diagonal values =
Diese Zahl ist dann die % Zahl.

48
Q

Wo finde ich in einer Ausgabe viele Varianz die einzelnen Hauptkomponenten aufklären?

A
  1. In ssloadings: Diesen Wert kann ich ablesen und er ist die Summe der quadrierten Ladungen des betreffenden Faktors
  2. proportion Var: Hier steht der Wert, der sich in % umrechnen lässt. Die ssloadings lassen sich auch in diesen Wert umrechnen. Indem man ihn durch die Gesamtvarianz (die Anzahl der Variablen, die die in der erste Tabelle in der Zeilen stehen) teilt.
49
Q
  1. Schritt: Bestimmung der Faktoren/ Hauptkomponenten: Vorteile, Nachteile der Maximum-Likelihood-Faktorenanalyse
A
  1. Vorteile:
    a) die vom Modell erzeugte Kovarianzmatrix ist auf Basis einer Stichprobe auf die Population generalisierbar
    b) Standardfehler der geschätzten Parameter können berechnet werden.
  2. Nachteile:
    a) Mathematik deutlich komplexer und zum anderen müssen bestimmte Verteilungsannahmen gemacht werden:
    (i) Die beobachteten Variablen müssen multivariat-normalverteilt sein
    (ii) die Erwartungswerte von Faktoren und Residuenvariablen sind 0
    (iii) die Residuen sind untereinander und mit den Faktoren unkorreliert
50
Q

Welche Matrixen unterscheidet man in der Oblimin-Rotation und warum?

A
  1. die Ladungen ist nicht mehr entsprechend den Korrelationen zwischen Variablen und Hauptkomponenten bzw. Faktoren.
    –> Daher unterscheidet man bei obliquen Rotationen mehrere Matrizen:
    (1) Die Mustermatrix: enthält die Ladungen der Variablen auf den Faktoren bzw. Hauptkomponenten nach der Rotation
    (2) Die Strukturmatrix: enthält die Korrelationen der Faktoren bzw. Hauptkomponenten mit den beobachteten Variablen
    (3) Die Korrelationsmatrix: Schließlich wird auch die Korrelationsmatrix der Faktoren bzw. Hauptkomponenten mit den beobachteten Variablen angegeben
51
Q

Welchen Wert nimmt unique (u²) in unserer Ausgabe an, wenn wir genauso viel Hauptkomponenten wie Variablen haben?

A

ungefähr 0

52
Q

Was zeigt ssloadings an und wie groß ist die Gesamtvarianz?

A
  1. ssloadings zeigt an, wie viel Varianz die jeweiligen Hauptkomponenten binden
  2. Die Summe von sslodings ist die Gesamtvarianz und entspricht der Anzahl der Hauptkomponenten
53
Q

Welchen Werten entsprechen den er durch die Hauptkomponenten aufgeklärten Varianz bei einer PCA ohne Rotation und mit genauso vielen Hauptkomponenten wie Variablen?

A

Den dazugehörigen Eigenwerten der Korrelationsmatrix

54
Q

Was ist die Residualmatrix?

A
  1. Definition: Die Differenz zwischen R und Rrep bezeichnet, die mit
    factor.residuals() angefordert werden kann.
  2. Interpretation: Wenn die Originalkorrelationen selber eher klein sind, würde man auch kleine Residuen erwarten; wenn die Originalkorrelationen aber groß sind, dann dürfen die Residuen auch etwas größer sein.
  3. Dreieck: Dazu werden in einem Dreieck der Residualmatrix und der Korrelationsmatrix (unter Aussparung der Diagonalen die Korrelationen quadriert und aufsummiert. Das Verhältnis der Summe aus Residualmatrix und Korrelationsmatrix wird dann noch von 1 subtrahiert, um einen Wert zu erhalten, der von 0 (keine Passung) bis 1 (vollständige Passung) läuft
    –> hier kommt genau der Wert raus, denn uns die PCA bei Fit based upon diagonal values rausgibt. Eine Passung >= 0.95 wird als gut angesehen.
55
Q

Wie kann h² bei einer PCA, wo schon Hauptkomponenten extrahiert wurden interpretiert werden?

A

Als Anteil der Varianz, die in der latenten Variable, als geteilte Varianz gilt. z.b: liegt h² bei 0.93 dann ist 93% der Varianz dieser Variable geteilt.

56
Q

Was ist ein Nebenprodukt der Rotation?

A
  1. Das auch die Hauptkomponenten ähnlich zur Varianzaufklärung beitragen. Daher werden auch entsprechend die Eigenwerte der rotierten Lösung ähnlicher
  2. die Kommunalität ändert sich durch eine Rotation jedoch nicht, nur die Ladungen, das ist ja das Ziel der Rotation