Woche3 Flashcards
(13 cards)
Was ist die PCA und wie funktioniert sie grundsätzlich?
- Hauptkomponentenanalyse (Pricipal Component Analysis) ist ein Extraktionsverfahren
- sie ermöglicht es, die Anzahl der relevanten Komponenten zu ermitteln -grundsätzliche Idee: In der Punktewolke eine neue Dimension bestimmen, die möglichst viel Varianz enthält. Aufspannen eines neuen Raums durch die Punktewolke. Transformation einer Menge gegebener Variablen in andere Menge Variablen (=Komponenten).
- PCA enthält so viele Komponenten, wie es Variablen gibt, so kann auch die ganze Varianz beschrieben werden.
- PCA geht von einer Uniqueness U=0 aus.
Was unterscheidet die PCA von “richtigen” faktoranalytischen Verfahren?
Im Gegensatz zur FA können die Varianzen bei der PCA nicht erklärt, sondern lediglich beschrieben werden. Es liegt kein Kausalmodell zugrunde.
Was ist bei der PCA (den Werten) wichtig?
Es ist wichtig, dass die einzelnen Komponente Eigenwerte haben, die größer als 1 sind, sonst findet gar keine Datenreduktion statt
Wie entscheide ich, welche Faktoren ich bei der PCA extrahiere?
Drei Kriterien spielen bei der Extraktion der Faktoren eine Rolle:
• Kaiser-Gutmann-Kriterium: Betrag Eigenwert > 1
• Kumulierte Gesamtvarianz: über 50% akzeptabel, über 60% ist gut (eigentlich soll es über 90% sein, ist in der Umfrageforschung nicht zu erreichen)
• Mit Hilfe des Screeplots ist der Informationsabstand der Komponenten zueinander grafisch darstellbar
Visualisierung durch „Knick“, man nimmt dann die Variablen oberhalb des Knicks
-> alle drei Kriterien ansehen und gegeneinander abwägen.
Wie zeige ich bei der pca nur noch die drei relevanten Komponenten an? (wenn es drei sind)
pca w_*, comp(3)
Was ist der Kaiser-Meyer-Olkin-Koeffizient?
Der Kaiser-Meyer-Olkin-Koeffizient ist ein weiteres Kriterium, um die Güte der Itembatterie zu testen. Er gibt an, wie stark die gemeinsame Korrelation zwischen den versch. Items ist.
Was ist der kritische Wert beim KMO und was bedeutet es, wenn er nicht erreicht wird?
Die Werte sollten über dem kritischen Wert 0,8 liegen, besonders der overall-Wert. Wenn der KMO-Wert zu klein ist sind die Partialkorrelationen zu groß sind.
Wie sind die KMO-Werte zu interpretieren?
0,00 to 0,49 unacceptable 0,50 to 0,59 miserable 0,60 to 0,69 mediocre 0,70 to 0,79 middling 0,80 to 0,89 meritorious 0,90 to 1,00 marvelous
wichtig: darf nicht schlechter als 0,50 sein.
ab 0,8 gut
Welches sind die drei gängigsten faktoranalytischen Verfahren?
1) Principal Components Factor (PCF)
2) Principal Factor (PF)
3) Iterated Principal Factor (IPF)
Wie steht es mit den faktoranalytischen Verfahren in Bezug auf die Uniqueness?
PCF unterschätzt Uniqueness, PF überschätzt Uniqueness, IPF ist am genauesten
1) Principal Components Factor (PCF)
- basiert auf PCA “Man nimmt an, dass Kommunalität (bzw Gewichtung) 1 ist und Uniqueness 0”
-wie bei PCA Annahme: Kommunalitäten gleich 1
-Unterschied zu PCA: nicht Abbruch bei Eigenvektoren, sondern Multiplikation mit den Eigenwerten
-Unwichtige Komponenten werden zur Uniqueness zugeschlagen
dann auch: Berechnung von h² bzw. 1 – h² möglich
-> Vergleich mit Annahme Uniqueness = 0
Unterschätzt unique Komponente!
fac xvar1 xvar2 …, pcf
2)Principal Factor (PF)
-schätzt erklärte Varianz über multiples R2
Gewichtungskomponente kommt hinzu
• Achtung: Summe der Eigenwerte kann Summe aller R² nicht übersteigen, Eigenwerte können negativ werden, unterschätzt Kommunalitäten tendenziell
-> Uniqueness wird überschätzt!
fac xvar1 xvar2 …, pcf
3) Iterated Principal Factor (IPF)
3) Iterated Principal Factor (IPF): iterative (wiederholende, zyklische) Schätzung eines multiplen R2 um Abweichung der modellimplizierte Kovarianzmatrix von der beobachteten zu miniminieren
Ausgangspunkt wie PF, dann aber verbesserte iterative Kommunalitätenschätzung
-> Bestes Verfahren