Voraussetzungen und theoretische Basis psychometrischer Tests Flashcards
(34 cards)
was ist ein psychologischer Test?
- Messmethode
- mit der ein oder mehr psychologisches Merkmal erfasst wird
- standardisiertes Vorgehen
- erhebt eine verhaltensstichprobe
- Verhalten wird durch die realisierten Bedingungen im test hervorgerufen
- Variation soll weitestgehend auf Variation des zu messenden Merkmals zurükzuführen sein
- Ziel ist eine quantitative
- und / oder qualitative Aussage über das Merkmal
=> es ist Anmaßend einfach von einem Wert auf eine Eigenschaft zu schließen, dieser Schritt muss reflektiert werden!!! -> theoretische Modellannahmen über die Entstehung von testantworten
wichtigstes Kriterium, wonach sich Tests einteilen lassen?
- Messgegenstand
Grundvoraussetzungen für die Konstruktion eines Tests
- das Merkmal sollte hinreichend definiert und erforscht sein (aber auch bisschen nebulös hilft natürlich wiederum der Forschung…)
- Verhalten im Test indiziert das Merkmal: aber warum soll das Wissen darüber, wo die sonne aufgeht einen Rückschluss auf Intelligenz zulassen? -> dem test liegen Annahmen oder Modelle zugrunde (bsp. fluide und kristalline Intelligenz), Anforderungsanalyse wurde gemacht und daraufhin der test konstruiert, Symptome kennzeichnen ie Störung (Experten haben sich geeinigt)
Annahmen der KTT (klassischen Testtheorie)
KTT = Reliabilitätstheorie -> liefert theoretische Begründung der reliabilität (Messgenauigkeit) der
Annhamen:
- Testwerte sind fehlerbehaftet
für Kennwerte der Population werden grieschische und für Stichprobe lateinische Buchstaben verwendet.
- es gibt einen wahren Wert = t (grieschisch tau)
- und einen beobachteten wert = x
- und die Abweichung der beiden voneinander ist der Messfehler = E (grieschisch epsilon)
- > der Messfehler variiert von messung zu Messung -> es lassen sich Formeln zur Schätzung der Messgenauigkeit (reliabilität) herleiten -> können den Bereich bestimmen, in dem der Wahre Wert einer Person liegt
- Grundvoraussetzung ist, dass die Testwerte angemessen variieren, Varianz darf nicht Null betragen und nicht unendlich groß sein
a priori Axiome (Grundannahmen) der KTT -> stellen Grundlagen für mathematische Ableitungen dar
- jeder beobachtete Wert X einer Person i in einem Test setzt sich zusammen aus einem wahren Wert Ti dieser person i und einem fehlerwert Ei
=> Xi=Ti+Ei - für jede Person i gibt es einen wharen (damit ist nur die wahre Ausprägung eines Merkmals gemeint, wie sie in diesem Test gemessen wird) Wert im Test, wenn ich den Test unendlich widerhole (ohne Erinnerungs- oder Übungseffekte) bekomme ich den Wahren wert-> Mittelwert oder erwartungswert aller Messergebnisse
=> Ti=E(Xi) - weil der Messfehler bei ganz vielen Wiederholungen = 0 wird. Für jede Testperson i stellt der Messfehler Ei eine Zufallsvariable mit dem erwartungswert (Mittelwert bei unendlich vielen Messungen) null dar
=> E(Ei)=0 - Die Messfehler sind unabhängig vom wahren Wert: Die Fehlerwerte Ei sind unabhängig von den wahren Werten Ti der Person i im Test. (bedeutet soviel wie: der test misst im unteren Bereich ebenso genau wie im oberen Bereich. Wenn das nicht der Fall ist bedeutet es z.B.: je höher der Depressionsscore, desto größer der Messfehler)
=>Corr (Ei, Ti)=0 - Die Messfehler zweier Tests A und B sind unkorreliert. Zwischen den Fehlerwerten zweier tests besteht eine Nullkorrelation (es geht um die gleiche Person, die zwei Tests macht). Dieser grundgedanke ist auch übertragbar auf einzelne Testteile bis hin zu Items -> die korrelation zweier Testwerte muss also auf den wahren Zusammenhang der merkmale zurückzuführen sein. Messfehler = unsystematische Fehler, die korrelation zweier tests kann aber durcaus durch systematische fehler erhöht sein, etwa die Anz
tworttendenz einer person.
=> Corr (Ea, Eb)=0 - Die Messfehler in einem test A sind unabhängig von den wahren Werten in Test B. Auch wenn die Person in einem anderen Merkmal ohe Werte hat, hat das keinen Effekt auf den Messfehler und damit auf die genauigkeit der Messung (z.B. ist Messgenauigkeit eines intelligenztests nicht davon abhängig ob die testpersonen hoch oder niedrig depressiv ist).
=> Corr (Ea, Tb)=0
wie entstehen Messfehler?
- bei der Testkonstruktion (Items oder Instruktion die mehrdeutig sind)
- bei der Durchführung (Testsituation und Zustand der Testperson sowie Testleiter variiert)
- bei der Auswertung (manchmal keine standardisierung möglich)
Definition: Reliabilität
= ist der Anteil der Varianz der wahren Werte (T) an der Varianz der beobachtbaren Werte (X)
Rel = Reliabilität (rTT wird manchmal allegemein für Reliabilität verwendet, manchmal nur für Retest-reliabilität)
Ein Reliabilitätskoeffizient von .80 bedeutet, dass die beobachtete Varianz der Testwerte zu 80% auf Unterschiede zwischen den wahren Werten der Testperson zurückzuführen sind und zu 20% auf Fehlervarianz. Wir können also nur wissen, wie stark die vorliegenden Messwerte streuen.
Ableitungen aus den Axiomen der KTT
Was ist die Güte des Tests?
Wie komme ich von der reliabilität zur Retest-Reliabilität und kann somit die Reliabilität des Tests schätzen?
Reliabilität = Verhältnis der Varianz wahrer Werte zur Varianz der beobachteten Werte.
=> Rel= Var(T) / Var (X)
(wir kennen nur den Nenner, nicht den Zähler. Wenn T=0, dann beobachte ich eigentlich nur Fehler. Wenn Varianz (T) = Varianz (X), dann habe ich eine hohe Reliabilität)
beobachtete Werte setzen sich additiv aus Wahren- und Fehlerwerten zusammen
=> X=T+E
Die Kovarianz zwischen addiditv zusammengesetzten Variablen lässt sich in verschiedene Kovarianzanteile zerlegen: Cov(Xt, Xt´) der Testwerte (Xt, Xt´) aus den tests t und t´:
Cov(Xt, Xt´) = Cov(Tt,Tt´)+Cov(Tt,Et´)+Cov(Tt´Et)+Cov(Et,Et´)
Aber die Fehlerwerte zeiwer Tests (hier t und t´) sind ja unkolleiert und korrelieren auch nicht mit den wahren Werten eines anderen Tests. Deshalb werden alle Kovarianzanteile, in denen Et oder Et´enthalten sind =0
=> Kovarianz der beobachteten werte = Kovarianz der wahren Werte
=> Cov(Xt,Xt´) = Cov(Tt,Tt´)
Die Varianz der wahren Werte entspricht der Kovarianz der beobachteten Werte.
t´ist die Wiederholung von t, deshalb nehmen wir an, dass die Wahren Werte Tt und Tt´ in einer festen beziehung zueinander stehen: völlig identisch (tau-äquivalent Tt=Tt´) oder sich um einen konstanten Wert unterscheiden (Tt=Tt´+Konstante). deshalb ist die Kovarianz identisch mit der Varianz der wahren werte
=> Cov(Tt,Tt´) = Var (Tt)
Fazit: die Varianz der Wahren Werte T kann somit geschätzt werden, nämlich als Kovarianz der beobachteten Werte Cov(Xt,Xt´), die bei Wiederholung des tests unter identischen bedingungen anfallen.
In der Formel für Reliabilität können wir jetzt also die Varianz (T) durch die Kovarianz (Xz,Xt´) ersetzen undVarianz (X) durch das Produkt der Standardabweichung SD von Xt und Xt´
=> Rel= Cov(Xt,St´) / SD(Xt)xSD(Xt´) = Corr(Xt.Xt´)
Somit taucht der unbekannte “wahre Wert” jetzt nicht mehr auf. wir können die Reliabilität des tests über die Korrelation des tests mit sich selbst (durch testwiederholung) schätzen = Retest-Reliabilität
Reliabilität= Korrelation der beobachteten Werte bei einer Messwiederholung
- Was ist die Kovarianz
- was die Korrelation
- was ist die Standardabweichung SD
- der zusammenhang der Varianz zweier Werte.
- standardisierte Kovarianz (Cov)
- Varianz im Quadrat
Korrelation = Kovarianz / Standardabweichung Corr = Cov/SD
Welche vier Methoden der Reliabilitätsschätzung lassen sich aus den Axiomen der KTT ableiten?
- Retest-Reliabilität
- Paralleltest-Reliabilität
- Split-Half-Reliabilität
- Interne Konsistenz
Retest-Reliabilität
rTT
derselbe test wird der selbten Stichprobe zweimal dargeboten.
Das richtige Zeitintervall zu finden ist schwierig:
- lang genug, damit nicht Übungs und wiederholungseffekt
- kurz genug, dass sich der wahre Wert nicht verändert
=> hilft nur pragmatik: wenn Forschung zeigt, dass ein Merkmal relativ stabil, sind lange Retest-Intervalle anzustreben.
- Erinnerungs und Ermüdungseffekte hängen von den testpersonen und deren otivation ab
-> Retest-reliabilität kann sich künstlich erhöhen, wenn Probandinnen versuchen extra ähnlich zu antworten
ABER: wird nicht durch Merkmalsveränderungen beeinflusst die alle betreffen, weil Mittelwertsunterschiede zwischen erster und zweiter Messung keinen Einfluss auf die Höhe der korrelation haben.
Paralleltestreliabilität
gilt als Königsweg
2 Messzeitpunkte
identische Stichprobe
zweiter Test ist nicht mit dem ersten identisch sondern nur inhaltlich äquivalent
Reliabilität = Korrelation der beiden Tests
=> da kein Erinnerungs und Übungseffekt kann ein kurzes zeitintervall gewählt werden und dadurch verliert das problem der Merkmalsfluktuation an Bedeutung
Schwierig: die Konstruktion zweier inhaltlich äquivalenter tests ist super aufwendig. Sie sollten die gleichen Mittelwerte und Streuung aufweisen, hoch miteinander uns anderen Variablen korrelieren. Es gibt wegen des aufwands nicht viele tests mit Parallelversionen, mahmal werden einfach nur die reihenfolge der items vertauscht = Pseudo-Paralletests
Split-Half-Reliabilität
Test wird nach durchführung in möglichst gleiche Teile aufgeteilt -> zwei Testwerte für jeden Probanden
- Odd-even-Methode: Aufteilung nach geraden und ungeraden Items (gut wenn Items nach Schwierigkeit geordnet oder gar keine Ordnung aufweisen)
- Aufteilung in erste und zweite Hälfte: geht nicht, wenn test nach schwierigkeit geordnet oder zeitlich begrenzt
- Halbierung auf Basis von Itemkennwerte: für alle Items erstmal Schwierigkeit und Trennschärfe ermitteln, dann möglichst ähnliche Itempaare bilden
-> bei Split-Half wird die Korrelation der beiden Hälften unterschätzt (weil weniger items und die Reliabilität nimmt mit mehr Items zu)
=> mit der spearman-Brown Formel schätzt man deshalb, wie hoch die reliabilität mit der doppelten Itemzahl wäre
Spearman-Brown-Formel
lässt sich die Höhe der Reliabilität bei veringerung oder Verkürzung des tests um k Testteile bestimmen. Umgekehrt lässt sich auch die erforderliche Testlänge (Itemzahl) ermitteln, um gewünschte Höhe der reliabilität zu erreichen.
=> Rel korr= k x Rel / 1+ (k-1) x Rel
Rel korr: für die testlänge korrigierte Reliabilität
Rel: Reliabilität des tests
k= Faktor, um den sich die Itemzahl erhöht
beispiel: korr beider Testhälften: r=.70
Verlängerungsfaktor: k=2 (Verdoppelung der Itemzahl)
–> Rel korr=.82 für Split-Half des tests
interne Konsistenz
= Verallgemeinerung der Halbierungsmethode: test wird nicht nur in zwei Hälften zerlegt, sondern in so viele Teile wie Items -> Korrelationen müssen ermittelt und die erhaltenen Werte auf die jeweilige Länge der Skala aufgewertet werden
–> Formel von Cronbach:
alpha = Cronbachs-Alpha
in der Formel wird die Summe der Varianzen der Items mit der varianz des Testwerts in Beziehung gesetzt.
Wenn es keine Kovarianz zwischen den Items gibt, entspricht die Summe der itemvarianzen exakt der varianz des Tests und Alpha wird null.
Je größer die zusammenhänge (Kovarianzen) zwischen den Items, desto mehr geht Alpha gegen 1
Formel verrät, von welchen faktoren die Höhe von Alpha abhängig ist:
von der Itemzahl, der Itemvarianz, Varianz der Testwerte und der Kovarianz der Items
-> je höher die items interkorrelieren, desto höher fällt Alpha aus.
ABER, daraus folgt nicht der umkehrschluss, dass ein hohes alpha für eine große Homogenität des tests spricht, weil Alpha hängt noch von weiteren Faktoren ab
-> je mehr Items ein Test enthält, desto höher fällt Alpha aus
-> deshalb kann ein test für ein heterogenes Konstrukt, der aus niedrig korrelierenden Items besteht, bei vielen Items ein hohes Alpha aufweisen
-> weist ein kurzer test ein hohes Alpha auf, sind die items meist redundant
-> Wenn ein Test so konstruiert ist, dass fast alle items bis zu einem bestimmten Punkt gelöst werden und dann nicht mehr (beipsiel Speed-test bei dem kaum fehler vorkommen), dann fällt alpha extrem hoch aus und ist aber kein gutes maß zur Schätzung der reliabilität
-> Alpa ist (wie alle reliabilitätskoeffizienten) stichprobenabhängig. In heterogenen Stichproben fällt die Varianz der testwerte höher aus, was dann zu höheren Werten für alpha führt
=> das gilt alles auch für split-half-Reliabilität, die eng mit Alpha verbunden ist
Definition: Standardmessfehler
= gibt an, wie stark die Messfehler um die wahren Werte der Person(en) streuen
der einzelne Messfehler lässt sich nicht ermitteln. Aber es lässt sich schätzen wie sehr der Messfehler bei vielen wiederholten Messungen um den wahren Wert streuen würde
=> Standardmessfehler: sE
=> sE=sX x die Wurzel aus 1-Rel
sX= Stanardabweichung der (beobachteten) Testwerte
Rel = reliabilität des Tests
=> Standardmesserfehler ist umso kleiner, je reliabler der Test
praktische bedeutung des Standardmessfehlers
Bei Normalverteilung der testwerte liegen 68% der Messergebnisse im Bereich +/- einer Standardabweichung um den wahren Wert.
Beispiel:
Test ist normiert, Normwerte haben eine SD von 10. Die reliabilität des Tests =.96. Der Standardmessfehler von 2,0 sagt, dass die beobachtbaren Werte der person bei extrem vielen messwiederholungen in 68% der Fälle maximal 2,0 Punkte vom wahren Wert abweichen => heißt soviel wie: bei einer messung ist der wahre wert einer Person mit einer wahrscheinlichkeit von 68% maximal zwei Punkte von ihrem wahren Wert entfernt.
in der Praxis ist die sicherheitswarscheinlichkeit von 68% unüblich, eher werden 90, 95 oder 99 % Sicherheitswarscheinlichkeit vorgegeben = Irrtumswarscheinlichkeit von 10, 5, 1 %
Was ist das Konfidenzintervall
= Bereich, in dem die beobachteten Testwerte um den wahren Wert streuen.
= gibt den Bereich an, in dem der wahre Testwert einer Person bei einer zuvor festgelegten Sicherheits- bzw. Irrtumswarscheinlichkeit liegt.
Das Konfidenzintervall (KI) für den Messwert X einer Person wird mit dieser formel bestimmt: KI=X +/- z alpha /2 x sE -> bei einseitiger fragestellung entweder + oder -
Rolle des z-Werts
z alpha/2 bezieht sich auf die standardnormalverteilung -> gibt an, wie viele Standardabweichungen ein Wert vom mittelwert der verteilung entfernt liegen kann, damit noch x Prozent der fläche unter der verteilungskurve abgedeckt sind
z= 1,96 heißt: die Standardnormalverteilung vom mittelwert geht 1,96 Standardabweichungen nach links und nach rechts. Die so begrenzte Fläche unter der Verteilungskurve umfasst 95% der gesamtfläche, an beiden Enden bleiben 2,5% der fläche.
Bei z=1 werden 68% der fläche abgedeckt
was ist eine Minderungskorrektur?
Wenn Messwerte fehlerbehaftet sind, wirkt sich das mindernd auf die Höhe der korrelation mit einer anderen Variablen aus. Weil laut den Axiomen der KTT korrelieren die Messfehler zweier Tests nicht. Die Korrelation muss also umso niedriger ausfallen, je größer der Anteil der Messfehler an den beobachteten Werten ist, bzw. je niedriger die Reliabilität.
=> deshalb doppelte Minderungskorrektur (doppelt, weil die Reliabilitäten beider Variablen berücksichtigt werden.
Definition der doppelten Minderungskorrektur
= liefert eine Schätzung für die Korrelation der wahren Werte zweier Variablen, wenn deren reliabilitätskoeffizienten bekannt sind und die Korrelation der beobachteten Werte bekannt ist. Dadurch wird gleichsam die Minderung korrigiert, welcher Korrelationskoeffizienten unterliegen, wenn die miteinander korrelierenden Messwerte fehlerbehaftet sind.
Kritische Differenz
-> wenn zwei testergebnisse verglichen werden mit der frage, ob sie sich bedeutsam voneinander unterscheiden. Weil ein beobachteter Wert kann ja auch durch Messfehler entstanden sein. Deshalb möchte man wissen, wie große eine Differenz sein muss, um nicht mehr alleine mit Messfehlern erklärt werden zu können.
Zur rechnung müssen beide Variablen die gleiche Standardabweichung haben.
Dann kann die kritische Differenz berechnet werden und danach vergleichen werden, ob die empirische Differenz größer oder kleiner ist.
Achtung: die Anzahl der vergleiche sollte möglichst gering gehalten werden, ansonsten besteht Gefahr, fälschlicherweise signifikante Effekte zu finden.
Definition: einfache Minderungskorrektur
= liefert eine Schätzung für die Korrelation eines Tests mit einem Kriterium unter der Annahme, dass das Kriterium Messfehlerfrei erfasst wird. Damit wird geichsam die Minderung korregiert, die durch die fehlerbehaftete Messung des Kriteriums entsteht.
Die einfache Minderungskorrektur kann auch auf den Test angewendet werden, dann wird r corr Test anstelle von r corr c (c=Kriterium) geschrieben
=> das ist ein Validitätskoeffozient (Korrelation des tests mit einem relevanten kriterium). Validitätskoeffizienten sind kaum vergleichbar, wenn sie sich auf Kriterien beziehen, die unterschiedlich genau messbar sind, wie z.B. Intelligenztests, die an Schulerfolg validiert wurden. Test 1 an der Abi note und Test 2 an der Lehrerbeurteilung. Die Vailidität von Test zwei wird darunter leiden, dass nur eine Messung und subjektiv. Deshalb ist es üböich, Valifitätskoeffizienten für die Reliabilität des kriteriums zu korrigeren
Vorhersage auf der Basis von Testwerten
Testwerte zur Prognose zukünftiger leistungen oder verhaltensausprägung -> Korrelative Studien zwischen Tests und Maßen für Erfolg und Bewährung => Korrelation zwischen Prädiktor und Kriteriumsvaribale
z.B. mittels Intelligenztest den Erfolg auf dem Gymnasium vorhersagen
=> bei intervallskallierung mittels Regressionsrechnung