Multivariate Verfahren Flashcards

Win (51 cards)

1
Q

Aufgabe 1
Nennen Sie verschiedene Zielsetzungen, die man mit der Anwendung der
multiplen Regressionsanalyse verfolgt.

A

Lösung: Die multiple Regressionsanalyse dient der Kontrolle von
Störvariablen, sowie der Prognose und Erklärung des Verhaltens anhand
mehrerer unabhängiger Variablen.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Aufgabe 2
Das Konzept der erklärten Varianz erklärt sich nicht von selbst – tun Sie es
hier am Beispiel der linearen Regression!

A

Lösung: Anteil an Varianz an der Gesamtvarianz, der durch alle
Prädiktoren erklärt wird .
Die Regression beruht auf der Quadratsummenzerlegung
Der Determinationskoeffizient/das Bestimmtheitsmaß beschreibt den Anteil
der durch die Regression erklärten Variation an der Gesamtvariation: R2
Je näher also die tatsächlichen Y-Werte an den durch die
Regressionsgleichung vorhergesagten Werten liegen, desto geringer ist
das Residuum und desto größer die aufgeklärte Varianz.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Aufgabe 3
Sie wollen überprüfen, ob die Variable „Glaube an den freien Willen“
(metrisch skaliert) einen zusätzlichen Vorhersagebeitrag für Hilfeverhalten
(ebenfalls metrisch skaliert gemessen) leistet, nachdem (a)
soziodemografische Variablen (Alter, Einkommen, Geschlecht) und (b)
Rahmenbedingungen (Anzahl der Freunde, emotionale Reaktivität) bereits
berücksichtigt wurden.

a) Welches Verfahren würden Sie wählen, um diese Fragestellung zu
untersuchen?

A

Lösung:
Hierarchische Regression: Zuerst die soziodemografischen und
Rahmenvariablen in die Analyse aufnehmen (entweder in einem gemeinsamen Block, oder aber schon in 2 Blöcken), zuletzt Glaube an
freien Willen rein (s. S. 65-66 FLB).

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

b) Woran würden Sie erkennen, ob Glaube an Willensfreiheit unter diesen
Bedingungen tatsächlich einen zusätzlichen Vorhersagebeitrag leistet?

A

Lösung: Zunahme in R2(Delta R2) per F-Test testen (S. 66, FLB I)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Aufgabe 4
Was versteht man unter Multikollinearität, und wie kann man sie
aufdecken?

A

Lösung: Unter Multikollinearität versteht man eine hohe multiple Korrelation
eines Prädiktors mit anderen Prädiktoren. Eine hohe Multikollinearität wirkt
sich dahingehend aus, dass der Standardfehler des Regressionsgewichts
derjenigen Variablen, die mit den anderen hoch korreliert ist, groß ist und
das Regressionsgewicht somit unpräzise geschätzt wird.
Zur Bestimmung des Ausmaßes der Multikollinearität können zwei
Koeffizienten bestimmt werden, die voneinander abhängen: der Toleranz-
und der Varianzinflations-Faktor. Den Toleranzfaktor erhält man, indem
man die quadrierte multiple Korrelation einer unabhängigen Variablen mit
allen anderen unabhängigen Variablen von 1 abzieht. In der Literatur findet
man häufig den Hinweis, dass ein Wert des Toleranzfaktors kleiner als 0.10
Mulitkollinearität anzeigt, wobei auch bei größeren Werten Probleme
auftreten können. Der Varianzinflations-Faktor ist der Kehrwert der
Toleranz. Ein Wert des Varianzinflations-Faktors, der größer als 10 ist, wird
in der Literatur häufig als auffallend bewertet.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Aufgabe 5
Sie vermuten, dass die Variable „Beweglichkeit“ den positiven
Zusammenhang zwischen Alter und Depression moderiert. Was bedeutet
das? Erklären Sie zunächst, was eine Moderatorvariable ist und
veranschaulichen Sie die Zusammenhänge im Anschluss grafisch. Erklären
Sie außerdem, warum man im Fall stetiger bzw. metrischer
Moderatorvariablen eine Zentrierung der Variablen vornimmt und was
Zentrierung ist.

A

Lösung:
Moderator: von ihr hängt die Stärke des Zusammenhangs zwischen zwei
Variablen ab. Z.B. könnte der Zusammenhang zwischen Alter und
Depression bei niedrigerer Beweglichkeit stärker ausgeprägt sein als bei
höherer Beweglichkeit. Moderationseffekte entsprechen im Wesentlichen
dem Konzept der Interaktion in der Varianzanalyse, bloß dass dort sowohl der/die Prädiktor/en als auch die Moderatorvariable nominalskaliert sind (s.
Varianzanalyse).
Alter —> Depression

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Aufgabe 6
Sie vermuten, dass die Variable „Geschlecht“ den positiven
Zusammenhang zwischen Schuhgröße und Einkommen mediiert. Was
bedeutet das? Erklären Sie anhand eines selbstgewählten Beispiels
zunächst was eine Mediatorvariable ist und veranschaulichen Sie die
Zusammenhänge grafisch.

A

Lösung: Mediator: vermittelt den Zusammenhang zwischen zwei Variablen
– zwischen Schuhgröße und Einkommen besteht kein Zusammenhang,
erst unter Berücksichtigung des Geschlechts – Männer haben in der Regel
„höhere“ Positionen und verdienen mehr Geld als Frauen; da Männer i.d.R.
auch größere Füße als Frauen haben, vermittelt das Geschlecht den
Zusammenhang zwischen Schuhgröße und Einkommen.
Schuhgröße —>Geschlecht —>Einkommen

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Aufgabe 7

a) Was versteht man unter einer Suppressorvariablen?

A

Lösung: Eine Suppressorvariable ist eine unabhängige Variable, deren
Aufnahme in das multiple Regressionsmodell dazu führt, dass der
Beitrag einer anderen unabhängigen Variablen zur Erklärung der
Variation der abhängigen Variablen erhöht wird. In der Regel ist die
Suppressorvariable nur niedrig korreliert mit dem Kriterium, aber relativ
hoch mit einem anderen.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Aufgabe 8

Was ist ein Residuenplot (auch Residualplot genannt), und wofür setzt man ihn ein?

A

Lösung: In einem Residuenplot werden Residuen, üblicherweise
studentisierte Residuen, auf der Y-Achse gegen die aufgrund der
Regression vorhergesagten y-Werte auf der X-Achse abgebildet. Mit den
Residuenplots können Verletzungen der Annahme der Regressionsanalyse
wie bspw. Verletzungen der Homoskedastizität und Fehlspezifikationen
aufgedeckt werden.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Aufgabe 9
Grenzen Sie folgende Begriffe voneinander ab: Standardabweichung,
Standardfehler des Koeffizienten, Standardschätzfehler.

A

Lösung:
Standardabweichung bezeichnet die Wurzel der Varianz und ist ein Maß für die Streuung einzelner Werte um einen Mittelwert. Bei normalverteilten
Variablen schätzt sie den Parameter steuert.

Standardfehler des Koeffizienten ist eine theoretisch hergeleitete Größe,
die die Standardabweichung der Stichprobenverteilung eines Schätzers
(hier: Regressionskoeffizienten) bezeichnet. Sie wird verwendet um z.B.
Konfidenzintervalle zu bestimmen und statistische Tests der einzelnen
Regressionskoeffizienten durchzuführen.

Standardschätzfehler bezeichnet die Streuung von beobachteten Werten
um eine Regressionsvorhersage (z.B. Vorhersagelinie).

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Aufgabe 1
Sie sind als wissenschaftliche/r Mitarbeiter/in an einem psychologischen
Institut angestellt und möchten herausfinden, ob das Alter, das Geschlecht
und die Augenfarbe einen Einfluss auf die Intelligenz haben.
a) Charakterisieren Sie dazu zunächst Ihre Variablen hinsichtlich
Prädiktor/Kriterium und Skalenniveau.

A

Lösung: Alter – UV, intervallskaliert, Geschlecht – UV, nominalskaliert,
Augenfarbe – UV, kategorial, Intelligenz – AV, intervallskaliert

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Aufgabe 1
Sie sind als wissenschaftliche/r Mitarbeiter/in an einem psychologischen
Institut angestellt und möchten herausfinden, ob das Alter, das Geschlecht
und die Augenfarbe einen Einfluss auf die Intelligenz haben.

b) Wie sähe eine Funktionsgleichung aus?

A

Lösung:
multiple lineare Regressionsgleichung:
Intelligenz =ß 0 c + ß0 + ß1Alter * Alter + ß2Geschlecht* Geschlecht + ß 3Augenfarbe * Augenfarbe + ε

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

c) Angenommen, jeder der Koeffizienten wurde signifikant: Beschreiben
Sie, wie Sie die im Rahmen der linearen Regression ermittelten (nicht-
standardisierten) Koeffizienten interpretieren würden (b0, b alter, b geschlecht, b augenfarbe). Verdeutlichen Sie dies gegebenenfalls mithilfe konkreter
Zahlenwerte für die Koeffizienten.

A

Lösung:
b0: Wert des Kriteriums (Intelligenz), wenn alle Prädiktoren den Wert 0
annehmen
bi (i=Alter, Geschlecht, Augenfarbe): Wenn der Wert in X
eine Einheit zunimmt, nimmt der Wert von Y (Intelligenz) um b
Einheiten zu/ab (abhängig vom Vorzeichen), vorausgesetzt alle
anderen Prädiktoren sind konstant.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Aufgabe 2
Es wurde eine Regressionsanalyse mit der abhängigen Variable
„Einkommen“ und der unabhängigen „Alter“ durchgeführt. Um
herauszufinden, ob ein nicht-linearer Zusammenhang besteht, wurde die
Variable „Alter“ quadriert und zusätzlich in das Modell aufgenommen.
a) Welche Hypothesen wurden hier getestet?

A
H
0 (Gesamtmodell)
\: 
 
 0  (Bestimmtheitsmaß R
Steigungskoeffizienten sind 0), H
1 (Gesamtmodell)
H
0-(Alter)
\: 
Alter 
 0;  H
0-(Alter2)
\: 
Alter2 
 0 (die Steigungskoeffizienten für alter und 
alter2 unterscheiden sich jeweils nicht von 0 / weder alter noch alter2 liefert 
einen signifikanten Vorhersagebeitrag). Die dazugehörigen 
Alternativhypothesen lauten 
ܪଵ:ߚ௝ ≠ Ͳ
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

b) Stellen Sie die Regressionsgleichung auf

A

Einkommen = 36381.35 -2114.63alter + 71.36alter2

b0 b1 b2

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

c) Interpretieren Sie die Ergebnisse:

A

Modell klärt 95% Varianz auf, erheblich mehr als Zufall (p < .01). Trotzdem unterscheidet sich der Vorhersagebeitrag keines Prädiktors signifikant von 0. (mögliche Gründe: Kleine Stichprobe n=10, ggf.Multikollinearität)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
17
Q

Aufgabe 3
Es wurde eine multiple lineare Regression mit dem Kriterium
“Leistungsfähigkeit“ und den Prädiktoren „Entscheidungs- und
Handlungsspielraum“, „Vielfalt und Dynamik“, „Lernen und Rückmeldung“
und „Durchschaubarkeit“ berechnet.
Lediglich die Prädiktoren Handlungs-/ Entscheidungsspielraum (p = .05) und Lernen/Rückmeldung (p = .014) tragen signifikant zur Vorhersage bei.
Woran könnte es liegen, dass die beiden anderen Prädiktoren keinen
signifikanten Beitrag zur Varianzaufklärung leisten? Welche Statistiken
könnten Ihnen Auskunft geben?

A

Lösung: Hohe Korrelationen zwischen den Variablen/Redundanz der
Prädiktoren; Multikollinearität – Bestimmung der Toleranz bzw. des
Varianzinflationsfaktor VIF (Kehrwert der Toleranz) von Variablen: Niedrige
Toleranz/hoher VIF deutet darauf hin, dass Variable in Multikollinearität
verwickelt ist. Kleine Stichproben führen ebenfalls zu ungenauen
Schätzungen.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
18
Q

Aufgabe 4
Willermann et al. (1991) untersuchten den Zusammenhang von
Gehirngröße und Intelligenz. Hierzu erhoben sie unter anderem die
Handlungsintelligenz (PIQ) mit dem HAWIE-Intelligenztest, die
Gehirngröße in Pixeln mittels Magnet-Resonanz Tomographie
(MRICOUNT, Maßeinheit 10000 Pixel), sowie das Geschlecht von 20
männlichen und 20 weiblichen Probanden. Sie untersuchten die Frage:
Gibt es einen Zusammenhang zwischen Gehirngröße und Intelligenz?
Folgende Tabelle gibt die Regressionskoeffizienten und die Standardfehler
der Regression von Gehirngröße auf Handlungsintelligenz wieder.

a) Bestimmen Sie, ob die Regressionskoeffizienten signifikant sind

A

Die Testgröße läßt sich aus der Tabelle leicht ermitteln, indem
Parameterschätzer durch Standardfehler geteilt wird (siehe vervollständigte Tabelle). Bei Durchführung mit dem Computer wird der in der letzten Spalte befindliche p - Wert geprüft, ob er kleiner als 5% ist. Falls ja wir die Nullhypothese verworfen.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
19
Q

c) Formulieren Sie die statistischen Hypothesen des Tests des
Regressionskoeffizienten (Null- und Alternativhypothese).

A

H0: bj= 0 vs. H1: bj≠ 0

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
20
Q

Y Motivation = 9,94 + 0,435* Leistungss (zentr)+ 10,8*Gesch - 0,44 Leistungsseben (zentr.) * Geschlecht
mit b0=9.94, b1=0.435, b2=10.8, b3= -.44
(alle Steigungskoeffizienten waren signifikant)
Interpretieren Sie die in der Abbildung dargestellten Ergebnisse in
Kombination mit/unter Bezugnahme auf die oben dargestellten Ergebnisse:
a) Was bedeutet b1:

A

Lösung: Einfluss von Leistungsstreben auf Motivation in der Gruppe,
die mit 0 kodiert ist (Frauen).

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
21
Q

b) Was Bedeutet b3:

A

Lösung: b3 entspricht dem Unterschied der bedingten Anstiege
(Unterschied des Einflusses von Leistungsstreben auf Motivation bei
Männern im Vergleich zu Frauen; Frauen Referenzkategorie der
Dummykodierung).

22
Q

Aufgabe 6
In einer Untersuchung zur Lebenszufriedenheit (Y) wollen Sie die
Hypothese überprüfen, dass sich die Arbeitszufriedenheit (Xi) umso stärker auf das Lebenszufriedenheitsurteil auswirkt, umso größer die Wichtigkeit (X2), die man der Arbeit zuschreibt ist. Hierzu erheben Sie die
Lebenszufriedenheit, die Arbeitszufriedenheit und die Wichtigkeit mit
intervallskalierten Skalen. Beschreiben Sie, wie Sie zur Überprüfung dieser
Hypothese vorgehen. Formulieren Sie hierbei (mathematisch) das
Regressionsmodell, das Sie Ihrer Hypothesenprüfung zugrunde legen, und
formulieren Sie die statistische Nullhypothese, die Sie testen wollen.
Beschreiben Sie auch, wie Sie zu einer statistischen Hypothese gelangen.

A

Lösung: Es handelt sich um die Frage, ob es sich bei der Wichtigkeit (X 2) um eine Moderatorvariable für den Zusammenhang zwischen
Lebenszufriedenheit (Y) und Arbeitszufriedenheit (X1) handelt. Daher
formuliert man folgendes Regressionsmodell (optimalerweise, nachdem
man alle Variablen zentriert hat):
Y = b0 + b1* X1 +b2 * X2 + b3 * X1X2 +e

Die Nullhypothese lautet: ß3≤0, da bei der postulierten Moderator
Beziehung das Regressionsgewicht ß3 einen positiven Wert aufweisen
muss. Nur dann gehen höhere Werte auf der Variable X2 mit einem höheren Regressionsgewicht für die Variable X1
einher. Um diese gerichtete Nullhypothese zu überprüfen, testet man mit einem einseitigen t-Test, ob sich das Regressionsgewicht b3, das man anhand der Anwendung einer multiplen Regressionsanalyse erhält, bedeutsam von 0 in positiver Richtung unterscheidet. Ist der empirisch gefundene t-Wert größer als der kritische t-Wert, verwirft man die Nullhypothese. Hierzu muss das Alpha Niveau vorher festgelegt werden. Der üblichen Konvention folgend kann
dies auf 0.05 festgelegt werden. Um genug Teststärke zu haben,
sollte vor der Studie eine A-priori-Poweranalyse zu Bestimmung der
optimalen Stichprobengröße durchgeführt werden. Hierzu ist es notwendig,
die Effektgröße und die Teststärke vorher festzulegen.

23
Q

Aufgabe 7
Nachdem Sie eine einfache lineare Regression gerechnet haben, finden
Sie folgenden Residuenpolt. Die Achse „Fitted:x“ kennzeichnet die
vorhergesagten Werte. Welche Schlussfolgerungen ziehen Sie in Bezug
auf die Gültigkeit der Annahmen der Regressionsanalyse in diesem
Anwendungsfall? Welche Annahmen werden verletzt sein? Warum?

A

Lösung: Erstens weist der Residuenplot darauf hin, dass die Annahme der Homoskedastizität verletzt ist. Die bedingte Varianz der Residuen ist im Bereich negativer gefitteter Werte größer als im Bereich positiver gefitteter
Werte. Zweitens ist die Linearitätsannahme verletzt, da die Residuen nicht
unsystematisch um den Wert 0 schwanken, sondern ein kurvenlineares
Muster aufweisen.

24
Q

Problemlöseaufgaben
Aufgabe 1
Welches varianzanalytische Verfahren würden Sie zur Auswertung der
entsprechenden Daten anwenden und warum? Geben Sie bitte jeweils
auch die unabhängige(n) und abhängige(n) Variablen an!
1) Kinder mit und ohne
Aufmerksamkeitsauffälligkeiten werden
einem Stroop-Test unterzogen (sollen die
Farben von Farbwörtern benennen). Reize
der zwei interessierenden Bedingungen
(kongruent: Wort rot in rot geschrieben, Wort
blau in blau geschrieben) und inkongruent
(Wort rot in blau geschrieben, Wort blau in
rot geschrieben) werden in zufälliger
Reihenfolge dargeboten. Man möchte
wissen, ob auffällige Kinder einen größeren
Stroop-Effekt zeigen (Verlangsamung bei
inkongruent gegenüber kongruent).

A
Zweifaktorielle Varianzanalyse,  gemischtes 
Design: 
- UV: Gruppe (mit vs. ohne 
Aufmerksamkeitsauffälligkeiten): 
Gruppierungsfaktor 
- UV: Stroop-Kongruenz (kongruent, 
inkongruent): 
Messwiederholungsfaktor 
- AV: Reaktionszeit 

2x2 mit Messwiederholungen (wenn mehr als ein Messwert bei einer Testperson)

25
2) Es soll überprüft werden, ob die Form der Verpackung einer Seife einen Einfluss auf die wahrgenommene Attraktivität der Seife hat. Dazu werden 3 Verpackungsformen von je einer Gruppe bzgl. Attraktivität und Kaufbereitschaft auf Ratingskalen zu beurteilen.
``` 2 einfaktorielle Varianzanalysen (ohne Messwiederholung): UV: Verpackungsform (3 Faktorstufen/Gruppen) AV 1 : Attraktivitätsratings AV 2 : Ratings der Kaufbereitschaft ``` ``` Alternativ (und sogar m.E. besser): Multivariate Varianzanalyse rechnen, in der beide AV.s gleichzeitig berücksichtigt werden. MONAVA Heißt es gibt 2 AV ```
26
``` 3) Ein Konfitürenhersteller möchte wissen, welchen Einfluss die Wahl des Markennamens und die Wahl des Absatzweges alleine und gemeinsam auf den Absatz haben. Deshalb testet er 3 verschiedene Markennamen in zwei verschiedenen Absatzwegen. ```
``` 2-faktoriell ohne MWH (2 Gruppierungsfaktoren) UV1: Markenname (3 Stück) UV2: Absatzweg (2 Stück) AV: Absatz ```
27
4) In einer medizinischen Querschnittsuntersuchung (=1 Zeitpunkt) wird der Einfluss dreier verschiedener Diätformen auf das Körpergewicht festgestellt.
1-faktoriell (ohne Messwiederholung) UV: Diätform AV: Körpergewicht
28
Aufgabe 2 Eine Forschergruppe testet ein neues Medikament gegen Migräne. Dafür werden Patienten über 5 Wochen beobachtet. Man will erforschen, wie sich das Schmerzempfinden unter Medikamentengabe über die Zeit verändert. Unabhängige Variable: Woche (week.f, 5 Faktorstufen, 5-1=4 Freiheitsgrade), abhängige Variable: Wöchentliche Summenscores täglicher Schmerzratings auf einer Skala von 1-5; je höher das Rating, desto größer der Schmerz). Die Ergebnisse der Studie (Auswertung in R) sehen wie folgt aus. Das Niveau sei auf 5% festgesetzt. a) Was für eine Art von Varianzanalyse wurde hier gerechnet?
Lösung: Einfaktorielle Varianzanalyse mit Messwiederholung (UV: Woche) ANOVA
29
b) Was tut „Mauchly’s Test for Sphericity“? Wie ist das Ergebnis dieses Tests zu bewerten und was folgt daraus?
Lösung: Überprüft eine zentrale Voraussetzung für die Durchführung einer Messwiederholungs-Varianzanalyse, nämlich die Sphärizitäts- /Zirkularitätsannahme, die besagt, dass die Korrelationen zwischen Faktorstufen homogen sind (Zirkularitätsannahme), bzw. dass die Varianzen der Differenzen zwischen den einzelnen Faktorstufen homogen sind (Sphärizitätsannahme). Die beiden Annahmen gehen miteinander einher, wobei die Sphärizitätsannahme stärker ist. Hier ist Mauchly’s Test signifikant. Dies heißt, dass die Sphärizitätsannahme nicht erfüllt ist. Deshalb sollte man hier die korrigierten Überschreitungswahrscheinlichkeiten/Signifikanzen zugrunde legen, bei denen eine Freiheitsgradkorrektur vorgenommen wurde, um falschen Entscheidungen aufgrund des aufgrund der Verteilungsverletzung verzerrten ursprünglichen Signifikanztests entgegenzuwirken. Hierbei stehen zwei Korrekturmöglichkeiten zur Verfügung (1) nach Greenhouse-Geisser (GGe), (2) nach Huyn-Feldt (HFe)). (1) ist die konservativere und allgemein anerkanntere. Auch nach GG-Korrektur ist der Effekt von Woche noch signifikant.
30
c) Wie ist das Ergebnis zu interpretieren?
Lösung: Der Effekt von Woche ist sogar nach G(reenhouse)-G(eisser)-Korrektur signifikant, d.h. mindestens 2 Zeitpunkte unterscheiden sich signifikant voneinander; jetzt weiß man aber noch nicht, welche Zeitpunkte sich voneinander unterscheiden (Ähnliches gilt im Übrigen auch für Varianzanalysen ohne Messwiederholung, wenn Faktoren mit >2 Faktorstufen im Spiel sind – ein signifikanter (Haupt-) Effekt in der Varianzanalyse sagt auch da nur, dass sich mindestens 2 der Gruppen überzufällig unterscheiden, aber nicht welche.
31
d) Wie kann man bestimmen welche Faktorstufen genau sich | unterscheiden?
Lösung: t-Tests für abhängige Stichproben (Vorsicht: Alpha-Fehler-Inflation, s.o.; Bonferroni-Korrektur ist angebracht), s.a. Fisher Least Square Differences; Vorsicht: Bei post-hoc Analysen von Varianzanalysen mit unabhängigen Stichproben (ohne Messwiederholung) sollten für Paarvergleiche gängige Verfahren angewendet werden, die inhärent für Alpha-Fehler-Inflation korrigieren, z.B. Tukey HSD, s. FLB II, S. 53 ff., Zusatzmaterialien Outputblock IX FLB II ).
32
Aufgabe 3 Je drei Personen werden zufällig einer der Faktorstufenkombinationen zugeordnet, die sich aus Alkoholkonsum (a1 =15 ml; a2=30 ml) Koffeinkonsum (b1= kein Konsum, b2 =Koffein)Anschließend wird ein Aufmerksamkeitstest durchgeführt. Es ergeben sich folgende Testergebnisse: (Aufgabe adaptiert und erweitert von Bortz & Schuster, 2010, Aufgaben 14.5 und 14.7) a) Welche Art von Varianzanalyse ist hier indiziert?
Lösung: Zweifaktorielle VA ohne Messwiederholung/ mit 2 | Gruppierungsfaktoren
33
b) Bestimmen Sie die Zellenmittelwerte und den Gesamtmittelwert sowie die Zeilen- und Spaltenmittelwerte. Fertigen Sie ein Interaktionsdiagramm an, bei denen sich jeweils einmal Alkoholkonsum und einmal Koffeinkonsum auf der x-Achse befindet
Wenn Linien nicht parallel Laufen dann ist ein Interaktionseffekt wahrscheinlich.
34
e) Interpretieren Sie die Ergebnisse im Hinblick auf den Einfluss von Alkohol und Koffein auf Aufmerksamkeit.
Lösung: - Die inhaltliche Interpretation der Ergebnisse hängt davon ab, ob hohe Werte eine niedrige Aufmerksamkeitsleistung signalisieren oder eine hohe. Einmal angenommen, hohe Werte signalisieren hohe Aufmerksamkeitsleistungen: Weil es hier jeweils nur 2 Faktorstufen pro Faktor (A, B) gibt, lassen sich die Ergebnisse eindeutig interpretieren: - Haupteffekt B: die Aufmerksamkeitsleistungen sind besser in der Koffeinbedingung als in der Bedingung ohne Koffein. - Interaktion A*B: Der Koffeineffekt wird durch Alkohol moderiert, und zwar dahingehend, dass der Unterschied zwischen Koffein und nicht Koffein unter (leichtem) Alkoholeinfluss stärker ist. - Hätten die Faktoren mehr als 2 Faktorstufen/Ausprägungen gehabt, hätte man auch hier Kontraste oder post-hoc Vergleiche aufsetzen müssen, um herauszukriegen, welche Faktorstufen(kombinationen) sich eigentlich unterscheiden.
35
Aufgabe 2 Unterscheiden Sie zwischen bedingten Wahrscheinlichkeiten, Odds (Chancen bzw. Risiken) und Odds Ratios (Chancenverhältnis)! Was besagen diese Kennwerte? Verdeutlichen Sie die drei Konzepte anhand der folgenden 2 x 2 Häufigkeits-Tabelle, die (fiktional) den Zusammenhang zwischen Krankheitsmodell (psychosozial/organisch) und Disziplin (Psychologie, Medizin) illustriert
Lösung: - Bedingte Wahrscheinlichkeiten: Wahrscheinlichkeiten, einem bestimmten Krankheitsmodell zuzuneigen, gegeben die Zugehörigkeit zu einer bestimmten Disziplin (z.B. Wahrscheinlichkeit für Psychosoziales Modell gegeben Psychologe: P(Y=0/X=0) = 9/11=.82; geht theoretisch auch andersrum (bedingte Wahrscheinlichkeit, ein bestimmtes Krankheitsmodell zu wählen, gegeben eine Disziplin —>von inhaltlichen Fragen abhängig machen, welche Richtung der Berechnung sinnvoll ist) - Odds (Chancen): Verhältnis zweier komplementärer bedingter Wahrscheinlichkeiten; z.B. die Chance als Psychologe das psychosoziale Krankheitsmodell zu wählen ist 4.5 Mal höher als das organische Krankheitsmodell zu wählen: Chance =n11/n21 = 9/2 = 4,5 Das Odds Ratios (OR) beschreiben Chancenverhältnisse, die zwei Chancen miteinander vergleichen. Beispiel: Das OR für die Chance, das psychosoziale gegenüber dem organischen Krankheitsmodell zu wählen im Verhältnis zu der gleichen Chance bei Medizinern —> Um welchen Faktor erhöht sich das „Risiko“, das psychosoziale Krankheitsmodell anzulegen wenn man Psychologe ist – im Beispiel ist die Chance/ das Risiko fast 16x so hoch wie bei Medizinern: OR = n11/n21 //n12/n22 = 9/2 // 2/7 = 15,75
36
Aufgabe 3 Im Anwendungsbeispiel aus FLB II soll Alkoholmissbrauch (0=nein, 1=ja) auf der Grundlage von erblicher Vorbelastung (Erbe: 0=nein, 1=ja), Bedeutung von Alkoholkonsum im sozialen Umfeld (Umfeldmittel: gering=0, mittel=1; Umfeldgroß: gering=0, groß=1), Alter der Jugendlichen und ihrem Reizhunger vorhergesagt werden. Zu diesem Zweck wurde in R eine multiple logistische Regression gerechnet. Die Ergebnisse der Berechnung finden Sie auf der nächsten Seite. Bitte beantworten Sie folgende Fragen zum Ausdruck: a) Bitte spezifizieren Sie die Regressionsgleichung!
Lösung: Logit (Alkohol=1) = -13.987 + 1.633*Erbevorbelastet + 0.144*Umfeldmittel + 2.096*Umfeldgroß + 0.417 Alter + 0.231*Reizhunger
37
b) Welche Prädiktoren sind auf einem α = .05 Signifikanzniveau signifikant und woran erkennen Sie das (bitte im Ausdruck markieren)
Lösung: Erbe, Umfeld (groß vs. gering), Reizhunger (unter coefficients: z= b/s b; p < .05)
38
c) Bitte interpretieren Sie bErbevorbelastet= 1.633 und das dazugehörige Odds Ratio (OR)!
Lösung: Wenn Erbe um 1 Einheit steigt (von nicht vorbelastet zu vorbelastet), erhöht sich das erwartete Logit für Alkoholmissbrauch um 1.633 Einheiten – bei Konstanthaltung aller anderen Prädiktoren; Das dazugehörige OR eb-erbe ist 5.122 —>bei erblich Vorbelasteten ist das Risiko für Alkoholmissbrauch um das ca. 5fache erhöht im Vergleich zu nicht vorbelasteten.
39
d) Um wieviel größer ist das Risiko für Alkoholmissbrauch bei 17-jährigen im Vergleich zu 14-jährigen?
Lösung: | (eb-alter)3 = OR(Alter)hoch3=1.52hoch3= 3.51-fach erhöht
40
e) Woran erkennt man allein durch die Betrachtung der Konfidenzintervalle der OR, dass der Prädiktor Umfeldmittel keinen signifikanten Vorhersagebeitrag leistet?
Lösung: Das Konfidenzintervall schließt den Wert 1 ein (und ein OR von 1 besagt, dass die Chance/das Risiko für geringe und mittlere Bedeutung im Umfeld gleich ist).
41
f) Nagelkerke’s R2 ist in diesem Output mit 0.5617979 angegeben. Bitte interpretieren Sie diesen Wert.
Lösung: Dies ist ein Pseudo-R2 und kann analog zum Bestimmtheitsmaß der multiplen Regression interpretiert werden: Durch alle Prädiktoren zusammen werden 56,2 % der Varianz im Kriterium aufgeklärt.
42
g) Was besagen die Werte zu „Null deviance“ und „Residual deviance“?
Lösung: Null Deviance: LogLikelihood-Wert des Nullmodells (-2LL0), Residual Deviance: Loglikelihood-Wert des vollständig spezifizierten Modells (-2LLv) . Je kleiner der Wert, desto besser die Anpassung. Für das vollständig spezifizierte Modell ist der Wert 83.18-50.35=30.83 kleiner. (In SPSS wird diese Differenz per LR-Test getestet).
43
Aufgabe 4 Bestimmen Sie das OR (Wahrscheinlichkeit Brustkrebs mit erblicher Vorbelastung/Wahrscheinlichkeit Brustkrebs ohne erbliche Vorbelastung) mithilfe der vorgegebenen Werte und interpretieren Sie diesen Wert!
Lösung: OR = 9: Wahrscheinlichkeit für Brustkrebs mit „erblicher Vorbelastung“ 9fach erhöht gegenüber „keine erbliche Vorbelastung“.
44
Aufgabe 1 Erläutern Sie das Ziel der Clusteranalyse. Visualisieren Sie das Verfahren anhand eines Beispiels.
Lösung: Ziel der Clusteranalyse ist Personen oder Objekte nach bestimmten Merkmalen (z.B. verschiedene Indizes der Internetnutzung) zu kategorisieren. Dazu wird betrachtet, wie weit Personen/Objekte aufgrund Ihrer Merkmale voneinander entfernt sind. Liegen diese Personen nahe bei einander, könnten Sie in eine Gruppe zusammengefasst werden. Liegen sie weit weg voneinander, ist die Gruppierung weniger sinnvoll. Beispielsweise könnte man so verschiedene Charaktertypen (bzw. Internet- Nutzertypen) identifizieren, indem im Vorfeld Fragen erhoben werden.
45
Aufgabe 2 Erklären Sie wie ein Dendrogramm gelesen wird. Welche Bedeutung haben x-Achse und y-Achse für die Interpretation des Dendrogramms?
Lösung: Ein Dendrogramm visualisiert die Clusteranalyse. Auf der x-Achse sind alle Personen abgetragen, die in die Analyse einbezogen wurden. Auf der y- Achse ist die „Distanz“ der Personen oder Cluster zueinander abgetragen. Werden zwei Personen zusammengefügt, so bilden diese fortan ein Cluster. Diese Cluster können dann wiederum mit anderen Personen oder anderen Clustern zusammengefügt werden. Wie weit die Cluster voneinander entfernt liegen, lässt sich an der Länge der Geraden erkennen, die vor der Zusammenführung zu den bisherigen Clustern führt. Auch die Reihenfolge der Zusammenführungen lässt sich erkennen, sodass auf einen Blick erkannt werden kann, welche Cluster sich bei einer 2- oder einer 3-Clusterlösung ergeben.
46
Aufgabe 1 Folgende Begriffe spielen in der Hauptkomponentenanalyse eine zentrale Rolle: - Eigenwert der Komponente - Kommunalität eines Items - Faktorladung - Einfachstruktur Definieren Sie die Begriffe und stellen Sie die Zusammenhänge der Werte in einem geeigneten Schaubild für 4 Items und 2 Faktoren dar.
Lösung: Eigenwert: - Höhe der durch jeweils einen Faktor erklärten Varianz aller beobachteten Variablen - Summe der quadrierten Faktorladungen des Faktors über alle Variablen hinweg - Sollte größer als 1 sein, da der Faktor erst dann mehr Varianz als eine einzelne Variable aufklärt Kommunalität eines Items: - Höhe der Varianz eines einzelnen Items, die über alle Faktoren hinweg erklärt wird - Summe der quadrierten Ladungen über alle Faktoren hinweg bei einem Item Einfachstruktur: Bei einer Einfachstruktur laden nur bestimmte Variablen hoch auf einem Faktor und sehr niedrig auf alle anderen Faktoren. Faktorladung: Die Faktorladung aij D(Faktorladung des j-ten Faktors auf die i-te Variable (j = 1,...,m; i=1,...,p)) aus Formel (1) entspricht der Korrelation zwischen der i- ten Variablen und dem j-ten Faktor. Hohe Faktorladungen drücken gemäß dem Modell der Hauptkomponentenanalyse (Formel (1)) aus, dass der jeweilige Faktor, der eine nicht messbare Eigenschaft einer Person repräsentiert, einen hohen Einfluss auf die Ausprägungen der Variablen
47
Aufgabe 3 Ein wichtiger Schritt bei der Hauptkomponentenanalyse ist die Rotation der Komponenten. Was versteht man unter einer Rotation und wo liegt der Unterschied zwischen orthogonaler und obliquen Rotation. Lösung:
Problem: - anfängliche Faktorenlösung ist inhaltlich oft nicht interpretierbar Lösung: - Drehung des Faktorraums/Transformation der Faktorladungen, um eine Einfachstruktur zu erreichen Orthogonale Rotation: - Unkorreliertheit der Faktoren wird beibehalten - Faktoren können auch nach der Rotation unabhängig voneinander interpretiert werden - z.B. Varimax Oblique Rotation: - Unkorreliertheit der Faktoren wird aufgegeben - z.B. Promax
48
Aufgabe 4 Nach welchen Kriterien lässt sich die Anzahl der relevanten Hauptkomponenten bestimmen, und was besagen diese?
Lösung: Kaiser-Kriterium: - Alle Faktoren mit Eigenwert größer 1 werden als bedeutsam angesehen - Problem: überschätzt oft die tatsächliche Anzahl von Faktoren Scree-Test: - Grafische Darstellung des Eigenwertverlaufs - Extraktion aller Faktoren vor dem Knick - Problem: oft uneindeutig Parallelanalyse: - Generierung von mindestens 100 (oder 1000) Datensätzen mit Zufallszahlen, die einer Faktorenanalyse unterzogen werden - Extrahiert werden alle Faktoren, deren ursprünglich beobachtete Eigenwerte größer sind als die jeweiligen gemittelten Eigenwerte aus den Zufallsdatensätzen der Parallelanalyse
49
Aufgabe 1 Eine Hauptanwendung der PCA ist die Revision von Fragebögen (z.B. Verkürzung eines Fragebogens bei gleichbleibender Varianzaufklärung). In einem Fragebogen zur Erfassung des States Mindfulness (Achtsamkeit) mit den Subskalen Awareness und Bewertungsfreiheit ergab sich folgender Screeplot:
Ergänzen Sie mit Hilfe der Abbildung folgende Tabelle: Kriterium Anzahl der Faktoren Theorie 2 Kaiser-Guttman 5 Scree-Plot 2 oder 4 Parallelanalyse 3
50
Aufgabe 2 In der folgenden Analyse wurde eine 3-Komponentenlösung berechnet. Kennzeichnen Sie im dargestellten R-Output folgende Werte: - Eigenwert einer Komponente - Kommunalität eines Items - Beliebige Faktorladung - Aufgeklärte Varianz des Modells
``` PC1 h2 u2 SS loadings Cumm var ```
51
Aufgabe 3 Im vorliegenden Modell wurde eine Promax-Rotation verwendet. Begründen Sie kurz, wieso dies hier sinnvoll ist.
Lösung: Unrotierte Komponentenlösungen sind zumeist schwer zu interpretieren, da zumeist keine Einfachstruktur gegeben ist. Die Promax-Rotation ist sinnvoll, da anzunehmen ist, dass die einzelnen Faktoren nicht unabhängig voneinander sind (Subskalen eines psychologischen Konstrukts).