Testtheorie& Testkonstruktion Flashcards
(36 cards)
Was ist eine Testtheorie?
Unter einer Testtheorie versteht man die Gesamtheit der Methoden zur Behandlung jener Fragestellungen, die sich bei der Testkonstruktion und Testauswertung ergeben.
Im speziellen geht es um den Zusammenhang zwischen Testverhalten und Testmerkmal.
Was ist die Klassische Testtheorie?
Die Klassische Testtheorie (KTT) stellt eine Sammlung von Methoden dar, die seit Beginn des vorigen Jahrhunderts zur exakten und ökonomischen Erfassung interindividueller Unterschiede entwickelt wurden.
Was ist die Wesentliche Annahme der KTT
Die mit einem Test ermittelte Merkmalsausprägung eines Individuums setzt sich aus dem „wahren Wert“ dieses Individuums und einem Messfehler zusammen.
Mit den Methoden der KTT soll der Anteil dieses Messfehlers bestimmt werden -> „Messfehlertheorie“
Was besagt das Existenzaxiom?
Es existiert ein wahrer Wert Tvi als Erwartungswert einer Messung Xvi.
Tvi=E(Xvi)
Wobei:
Xvi: Wert einer Person v im Item i eines Tests
Tvi: „true score“ einer Person v im Item i eines Tests
Was besagt das Verknüpfungsaxiom?
Jede Messung Xvi setzt sich aus dem wahren Wert Tvi und einem zufälligen Messfehler Evi.
Xvi= Tvi+Evi
Wobei:
Xvi: Wert einer Person v im Item i eines Tests
Tvi: „true score“ einer Person v im Item i eines Tests
Evi: Messfehler der Messung mit Item i an Person v
Gleiches gilt für die Varianz (S², Var):
Var(Xvi)= Var(Tvi)+ Var(Evi)
Was besagt das Unabhängigkeitsaxiom?
Aus der Verbindung des Existenz- und des Verknüpfungsaxioms resultiert das Unabhängigkeitsaxiom.
Die Korrelation zwischen den Messfehlern E und den wahren Werten T bei beliebigen Personen und beliebigen Items ist null.
Corr(Tvi, Evi)= 0
Wobei:
Tvi: „true score” einer Person v im Item i eines Tests
Evi: Messfehler der Messung mit Item i an Person v
Was ist die Reliabilität?
Reliabilität: Messgenauigkeit (Zuverlässigkeit) eines Tests
Theoretisch gilt die Reliabilität als Anteil der Varianz der wahren Werte an der Varianz der beobachteten Testwerte:
Reliabilität rtt= (Varianz (T))/ (Varianz (X))
Die Reliabilität bildet die Basis zur Berechnung des Standardmessfehlers, der wiederum zur Ermittlung des Konfindenzintervalls (Vertrauensintervall, Vertrauensbereiche) benötigt wird.
Wie groß ist der Wertebereich der Reliabilität?
Der Wertebereich geht theoretisch von 0 bis 1.
Betrüge die Fehlervarianz Var(E)=0, hieße dies:
Rel rtt= (Var(T))/ (Var(X))= (Var(T)/ (Var(T)+Var(E))= (Var(T))/ (Var(T))=1,0
Der Test misst völlig fehlerfrei.
Betrüge die Varianz der wahren Werte Var(T)= 0, hieße dies, dass der Test nichts messen würde, das Ergebnis besteht nur aus Fehlervarianz.
Was ist die Paralleltest-Reliabilität?
Liegen zwei parallele Formen A und B eines Tests vor, so kann die Paralleltest-Reliabilität geschätzt werden als Korrelation der Werte der beiden Testformen:
Reliabilität rtt= Corr(XA, XB)
Zwei Tests XA und XB werden als „parallel“ bezeichnet, wenn beiden Messungen derselbe True Score T zugrunde liegt:
E(XA)=E(XE)= T
und wenn beide Tests gleiche Streuungen und gleiche Anteile von wahrer und Fehlervarianz aufweisen:
Var(XA)= Var(XB)= Var(T)+ Var(E)
Was ist die Retest- Reliabilität?
Aus der Definition eines Paralleltests geht hervor, dass jeder Test zu sich selbst parallel ist. Folglich kann die Reliabilitätsbestimmung auch erfolgen, indem derselbe Test zweimal (Test-Retest) derselben Stichprobe vorgegeben wird:
Reliabilität rtt= Corr(Xp1, Xp2)
Die Retest- Reliabilität wird dann als Korrelation zwischen den Messwerten zum ersten und zum zweiten Messzeitpunkt bestimmt.
Wann tritt eine Unterschätzung der Retest-Reliabilität auf?
Eine Unterschätzt der Retest-Reliabilität tritt auf, wenn das gemessene Merkmal zeitlich nicht stabil ist.
Wann tritt eine Überschätzung der Retest-Reliabilität auf?
Eine Überschätzung der Retest-Reliabilität tritt auf, wenn die 2. Messung durch Gedächtniseffekte beeinflusst wird (insb. Leistungstests).
Was ist die Split-half-Reliabilität?
Besteht ein Testverfahren aus einer größeren Anzahl von Items, so kann die Reliabilität über die Split-half-Reliabilität (Testhalbierungs-Reliabilität) geschätzt werden. Die Items dieses Tests werden in zwei möglichst parallele Testhälften Xa und Xb aufgeteilt und die Korrelation der zwei Testhälften bestimmt.
Rel rtt= (2*Corr(Xa,Xb))/(1+Corr(Xa,Xb)
Was bedeutet die Aufwertung einer Split-half-Reliabilität?
Die resultierende Halbtestkorrelation entspricht nur der Reliabilität eines Tests halber Länge. Die Korrelation der beiden Testhälften muss rechnerisch auf die volle Testlänge aufgewertet werden. Die Spearman-Brown-Korrektur beschreibt allgemein, wie sich die Reliabilität eines Tests bei Testverlängerung oder -verkürzung ändert.
rkk= (krtt)/(1+(k-1)rtt); wobei k das Vielfache der Testverlängerung bedeutet
Was ist die Interne Konsistenz?
Sie ist die Verallgemeinerung der Testhalbierungsmethode auf beliebig viele Testteile: Besteht ein Testverfahren aus Items, die das gleiche Merkmal erfassen, so kann auch jedes einzelne Item als separater Testteil zur Messung dieses Merkmals aufgefasst werden. Aus den Zusammenhangsstrukturen der Items kann dann die interne Konsistenz als Schätzung der Reliabilität des Testverfahrens geschlossen werden.
Cronbach’s Alpha:
Rel(x)=a= (m/(m-1))*(1-(Summe(Var(Xi))/(Var(X)))
m= Anzahl der Items
Var(Xi)= Varianz des Items i
Var(X)= Varianz des Gesamttests
Was sind die Vorteile der internen Konsistenz?
- Es muss nur eine Messung erfolgen (weniger Aufwand, keine Erinnerungseinflüsse).
- Es müssen keine Parallelformen eines Tests konstruiert werden.
- Das erfasste Merkmal muss zeitlich nicht stabil sein (naja, besser gesagt reicht es, wenn das Merkmal nur über die Dauer des Tests stabil ist).
Was beschreiben der Standardmessfehler und das Konfidenzintervall?
Bei der Bestimmung der Reliabilität hatte sich gezeigt, dass jede psychometrische Messung mit einem Fehler behaftet ist. Je höher die Reliabilität eines Tests ist, desto geringer ist der Fehler einer Messung, die mit diesem Test vorgenommen wird. Da alle Messungen mit einem Messfehler behaftet sind, kann das Ergebnis einer testpsychologischen Untersuchung eigentlich nie mit einem einzigen Wert ausgedrückt werden, sondern immer nur durch die Angabe eines Bereiches, in dem der wahre Testwert mit einer bestimmten Wahrscheinlichkeit liegt. Dieser Bereich, der die Reliabilität eines Verfahrens mit berücksichtigt, wird als Vertrauensbereich oder Konfidenzintervall bezeichnet. Je höher die Reliabilität eines psychologischen Tests ist, desto genauer ist die Messung und desto kleiner ist der Vertrauensbereich.
Rel rtt= (Var(T)/Var(X)= (Var(X)-Var(E))/Var(X)=1-(Var(E)/Var(X)
SMF= SD(E)= SD(X)√(1-Rel)
Der SMF erlaubt es, den Vertrauensbereich zu schätzen, innerhalb dessen bei gegebenem beobachtetem Wert (dem Testwert) der wahre Wert liegt:
Tv=Xv+/-ZaSMF
Dabei wird üblicherweise von einer Irrtumswahrscheinlichkeit von 5% ausgegangen, so dass za= 1,96 ist (bei zweiseitiger Fragestellung)
Welche Frage beantwortet die Kritische Differenz?
Unterscheiden sich zwei Testwert tatsächlich signifikant voneinander oder ist die vorliegende Differenz der zwei Werte nur auf die Messungenauigkeit der Verfahren zurückzuführen?
Was ist die Validität? (Messick)
Validität ist ein integriertes bewertendes Urteil über das Ausmaß, in dem die Angemessenheit und die Güte der Interpretationen und Maßnahmen auf Basis von Testwerten oder anderen diagnostischen Verfahren durch empirische Belege und theoretische Argumente gestützt sind.
Was ist die Inhaltsvalidität?
Der Begriff der Inhaltsvalidität bezieht sich darauf, inwieweit die Inhalte eines Tests bzw. der Items, aus denen er sich zusammensetzt, tatsächlich das interessierende Merkmal erfassen.
Überprüfung: in der Regel theoretisch-argumentativ
Was ist die Konstruktvalidität?
Konstruktvalidität umfasst die empirischen Befunde und Argumente, mit denen die Zuverlässigkeit der Interpretation von Testergebnissen im Sinne erklärender Konzepte, die sowohl die Testergebnisse selbst als auch die Zusammenhänge der Testwerte mit anderen Variablen erklären, gestützt wird.
Überprüfung: in der Regel experimentell/statistisch
Was ist die Kriteriumsvalidität?
Kriteriumsvalidität bedeutet, dass von einem Testergebnis auf ein für diagnostische Entscheidungen praktisch relevantes Kriterium außerhalb der Testsituation geschlossen werden kann.
Überprüfung: Bestehen Zusammenhänge zwischen Testergebnis und einem Außenkriterium?
Wann ist eine Untersuchung intern valide?
Eine Untersuchung ist dann intern valide, wenn die Unterschiede in der abhängigen Variablen zwischen verschiedenen Versuchsbedingungen eindeutig auf die Veränderungen der unabhängigen Variablen, d.h. auf die unterschiedlichen Behandlungen (Versuchsbedingungen) zurückgeführt werden können.
Was sind mögliche Einflussgrößen auf die interne Validität?
- Zeiteinflüsse (Äußere Einflüsse die zwischen zwei Messungen eine Wirkung auf die AV ausüben)
- Reifung (Biologisch-psychologische Veränderungen der Versuchsperson im Verlauf einer Untersuchung)
- Testeffekte (Effekte die durch das Testen selbst entstehen, meist Kerneffekte)
- Veränderung der Messinstrumente
- Statistische Regression (tritt bei Untersuchungen mit Extremgruppen auf)
- Auswahlverzerrungen
- Experimentelle Einbußen (Ausfälle von Versuchsteilnehmern)