Klassische Testtheorie Flashcards Preview

Testtheorie > Klassische Testtheorie > Flashcards

Flashcards in Klassische Testtheorie Deck (32):
1

Was besagt das Existenzaxiom?

Das Existenzaxiom besagt, dass ein wahrer Wert true score existiert. Dieser wahre Wart ist der Erwartungswert der gemessenen Leistung einer Person.

2

Was besagt das Verknüpfungsaxiom?

Das Verknüpfungsaxiom besagt, dass sich die gemessene Leistung einer Person aus ihrem wahren Wert und dem Messfehler zusammensetzt.

Der Messfehler spielt in der KTT eine wesentliche Rolle. Sie wird dahrer auch als Messfehlertheorie bezeichnet.

3

Was besagt das Unabhängigkeitsaxiom?

Das Unabhängigkeitsaxiom besagt, dass der wahre Wert einer Person und der bei der Messung entstandene Messfehler nicht korrelieren

4

Durch welche Zusatzannahmen muss das Unabhängigkeitsaxiom erweitert werden und warum?

Da bei Messfehlertheorien im allgemeinen angenommen wird dass es sich bei dem Messfehler um eine Zufallsvariable handelt muss das Unabhängigkeitsaxiom erweitert werden.

Daher wird Unkorreliertheit angenommen zwischen den Messfehlern derselben Person bei unterschiedlichen Tests und den Messfehlern unterschiedlicher Personen beim selben Test.

5

Nenne drei Folgerungen, die sich aus den Axiomen ergeben.

Der Erwartungswert des Messfehlers ist 0

die Varaizn des gemessenen Werts setzt sich aus der Varainz der Wahren Werte und der Varianz der Messfehler zusammen

die Kovarianz von gemessenen Werten entspricht der Kovarianz der wahren Werte.

6

Welcher Frage wird bei Äquivalenten Messungen nachgegangen? Nenne vier Zugängen.

Bei Äquivalenten Messungen geht es um die Frage, welche Voraussetzungen erfüllt sein müssen, um annhemen zu können, dass zwei Tests oder auch Items, dasselbe psychologische Merkmal messen.
Replikation
Parallelmessung
tau-äquivalente Messungen
essentielle tau äquivalente Messungen

7

Was fordert die Replikation?

Bei der replikation wird gefordert, dass verschiedene Messinstrumente bei derselben Person zu exakt demselben Messergebnis kommen müssen um von einer wiederholten Messung zu sprechen. Sie stellt die strengesten und für die Praxis unrealistschen Forderungen

8

Was versteht man unter Parallelmessung?

Um eine Parallelmessung handelst es sich wenn zwei Test oder Items denselben Erwartungswert und die selbe Varianz besitzen.

Parallelmessungen erfassen das gleiche psychologische Merkmal gleich genau, da die Gleichheit der Varianzen der Messwerte auch gleiche Varianzen der Messfehler bedeutet.

9

Was spricht man von tau-äquivalenter Messung?

Um tauäquivalente Messungen handelt es sich wenn zwie Tests oder Items, denselbsen Erwartungwert aber unterschiedliche Varianz besitzen.

Tau äquivalente Messungen erfassen das gleiche Merkmal verschieden genau.

10

Was versteht man unter essentiell tau äquivalenten Messungen?

bei essentiell tau äquivalenten Messungen unterschieden sich die Erwartungswerte zweier Items oder Tests um eine additive Konstante. Die Varianzen können ebenfalls verschieden sein.

11

Die reliabilität eines Tests gibt den Grad der Genauigkeit an, mit dem eine Test ein bestimmtes Merkmal misst. Was steht im Rahmen der KTT dabei im Vordergrund und was kann man vereinfacht sagen?

Bei der KTT steht bei der Reliabilität die Varianz des Messfehlers im Vordergrund. Vereinfacht gesagt: je größer die Varianz des Messfehlers desto geringer die Reliabilität.

12

Wie wird bei der Retest-Reliabilität vorgegangen?

Hierbei wird derselbe Test derselben Stichprobe zweimal vorgelegt. Vorausgesetzt es gibt weder Veränderung der Messfehlereinflüsse noch unsystematische Veränderungen des wahren Werts entspricht die geschätzte Reliabilität der Korrelationen der Testergebnisse der beiden Durchgänge.

Um unsystematische Veränderungen handelt es sich, wenn die zeitlichen Veränderungen nicht bei allen Personen gleichartig sind z.B. bei manchen Personen bleibt der wahre Wert gleich bei anderen steigt er.
Bei Leistungstest ergeben sich Probleme z.B. aufgrund von Deckeneffekten.

13

Wie wird bei der Paralleltest-Reliabilität vorgegangen?

Hierbei werden den personen zwei Tests vorgelegt, die parallele Messungen darstellen. Die Korrelation der Ergebnisse schätzt die Reliabilität der beiden Tests.

Probleme ergeben sich, wenn die beiden Tests nicht völlig parallel sind. Eine strenge Testung der Parallelität zweier Tests ist im Rahmen der KTT nicht möglich.
Die eleganteste Prüfung der Parallelität von Tests ohne auf die moderne Testtheorie zurückzugreifen, stellen konfirmatorische Faktorenanalysen dar.

14

Wie wird bei der Split-Half Reliabilität vorgegangen?

Hierbei wird ein aus mehreren Items bestehender Test in zwei möglichst parallele Untertests geteilt. Die Korrelation der Ergebnisse der beiden Untertests schätzt die Reliabilität des halb so langen Tests. Um auf die geschätzte Reliabilität zu kommen wird auf einen Spezialfall der Formel von Spearman-Brown zurückgegriffen

15

Wie wird die Reliabilität mittels Innerer Konsistenz ermittelt?

Hierbei wird jedes Item eines aus mehreren Items bestehender Test als eigne Messung des interessierenden Merkmals betrachtet. Die innere Konsistenz kann dann vereinfacht als durchschnittliche Korrelation aller Items dieses Tests verstanden werden, hängt aber auch von der Anzahl an Items im Test ab.

Die bekanntesten Kennwerte zur inneren Konsistenz sind Cronbachs alpha und Lambda3 nach Guttman

16

Was muss bei der Berechnung von Cronbachs alpoha und Lambda3 nach Guttman beachtet werden?

bei der Berechung müssen wie Items gleichartig gepolt sein, d-h- hohe müssen inhaltlich immer dieselbe Bedeutung haben (z.B. für eine hohe Ausprägung des Merkmals sprechen)
weder alpha noch lambda sind ein Maß für die Eindimensionalität von Items.

17

Welche Höhe sollte bei der reliabilität angestrebt werden?

Allgemein so hoch wie möglich.
Die Höhe der Reliabilität hängt jedoch u.a. von folgenden Punkten ab:
Art des zu erfassenden Merkmals:

Leistungsvariablen sind deutlich präziser messbar als z.B. Einstellungen
Bei heterogenen Merkmalen kann die innere Konsistenz deutlich geringer sein als z.B. die Retest- oder Paralleltest Reliabilität.

Individual- versus Kollektivdiagnostik:

bei Individualdiagnostik sollte die Messgenauigkeit höher sein als bei Messung der Durchschnittsleistung eines Kollektivs, da sich die Messfehler bei der Zusammenfassung von Messungen mehrerer Individuen reduzieren.

Einsatzbedingungen:

Bei Tests, die nicht adaptiv vorgegeben werden können, hängt die Reliablität relativ stark von der Testlänge ab.
Daher weisen Tests und Fragebögen, die zum Screening eingesetzt werden meist eine geringere Reliabiliät auf.

Kosten-Nutzen-Abwägungen
Objektivierbarkeit

18

Warum wird die Reliabilität als Basis für die Erstellung von Konfidenzintervallen für wahre Werte genommen?

Weil die Reliabilität als Maß der Genauigkeit der messung des wahren Werts einer Person verstanden werden kann.
Es gibt zwei Arten von Intervallen:
auf basis der Messfehlervarianz
auf basis der Schätzfehlervarianz.

19

Man sollte von der Validität möglicher Interpretationen von Testergebnissen sprechen. Vor der Validierung muss also überlegt werden welche Bereiche man bezüglich der Validität betrachten möchte. Nenne fünf Bereiche.

Verschiedene Interpretationen des Testergebnisses können sich beziehen auf:

die Bewertung des Endergebnisses,
das Verallgemeinern des Ergebnisses,
die Extrapolation auf andere Bereiche,
das kausale Erklären und
mögliche, die sich durch das Treffen von Entscheidungen als Folge des Testergebnisses ergeben.

20

Was bedeutet eine operationale Merkmalsdefinition?

Um eine operationale Merkmalsdefinition handelt es sich, wenn die testaufgaben den interessierenden Anforderungsbreich direkt repräsentieren.
Ein operational definierten Merkmal bezieht sich zunächst nur auf die spezifischen Test- bzw. Merkamlsinhalte.

z.B. Test zur Erfassung des Kurzzeitgedächtnisses.

21

Wann spricht man von theoretischen Merkmalsdefinitionen?

Bei theoretischen Merkmalsdefinitionen werden Theorien herangezogen, die verdeutlichen, worauf bestimmte Unterschiede zwischen Personen zurückgeführt werden können und wie sich diese Unterschiede in den Testergebnissen ausdrücken.

Siehe Eysenck: Annhmen über neuronale Strukturen in denen sich Personen mit unterschiedlichen Ausprägungen der Persönlichkeitsdimension Extraversion unterscheiden. Daraus leitet er Unterschiede in bestimmten Erlebens- und Verhaltensweisen ab, auf die sich dann die Items, die zur Erfassung der Extraversion herangezogen werden, beziehen.

22

Was bedeutet Inhaltsvalidität? Welche Unterscheidung muss hier zwischen operational und theoretischen Merkmalsdefinitione vorgenommen werden.

Inhaltsvalidität bezieht sich darauf, inwieweit die Inhalte der Tests bzw. der Items, aus denen sich ein Test zusammensetzt, tatsächlich das interessierende Merkmal erfassen (hierbei wird ein Expertenurteil vorgenommen).

Bei operationalisierten Merkmalen bezieht sich die Inhaltsvalidität vor allem auf die Verallgemeinerbarkeit der Testergebnisse, wobei es darum geht inwieweit die ausgewählten Items eine repräsentative Auswahl aus der menge aller möglicher Aufgaben sind.
Z.B.: Wie gut decken die Prüfungsfragen, das vorgetragene Stoffgebiet ab?

Bei theoretisch definierten Merkmalen muss zusätzlich angenommen werden können. dass unterschiedliche Antworten Unterschiede im interessierenden Merkmal erklären können. Das bedeutet, es muss von den Antworten auf die items auf das interessierende Merkmal geschlossen werden können. Dies kann nur durch eine gute theoretische Fundierung und eine daran orientierte Itemkonstruktion gewährleistet werden.

23

Was ist Augenscheinvalidität?

Augenscheinvalidität gibt an inwieweit der Validitätsanspruch eines Tests vom bloßen Augenschein her einem Laien gerechtfertigt erscheint.

24

Was versteht man unter Konstruktvalidität?

Konstruktvalidität umfasst die empirischen befunde und Argumente mit denen die Zuverlässigkeit der Interpretation von Testergebnissen im Sinne erklärender Konzepte, die sowohl Testergebnisse als auch Zusammenhänge der Testwerte mit anderen Variablen erklären, gestützt wird.
Bei der Konstruktvalidiät geht es im wesentlichen darum Testergebnisse vor dem Hintergrund eines theoretischen Konstrukts zu interpretieren.

25

Welche Bereiche unterscheidet man bei der Konstruktvalidität?

Bereich der Theorie und des Beobachtbaren.
Theorie beschäftigt sich mit nicht direkt beobachtbaren latenten Konstrukten und deren Zusammenhängen. Im idealfall sind diese Zusammenhänge durch Axiome formalisiert. Korrespondenzregeln geben an, wie sich die theoretischen Zusammenhänge auf den Bereich des Beobachtbaren auswirken. Bei diesen Auswirkungen handelt es sich meist um die Zusammenhänge zwischen den manifesten Variablen mitunter aber auch um Unterschiede zwischen Gruppen.

26

Wie kann die Konstruktvalidität überprüft werden?

Über Analyse von Antwortprozessen > cognitive lab
über den Vergleich von theoretisch erwarteten Itemschwierigkeiten mit empirisch ermittelten

27

Was versteht man unter Kriteriumsvalidität?

Kriteriumsvalidität bedeutet, dass von einem Testergebnis auf ein für diagnostische Entscheidungen praktisch relevantes Kriterium außerhalb der Testsituation geschlossen werden kann. Kriteriumsvalidität kann durch empirische Zusammenhänge zwischen dem testwert und möglichen Außenkriterien belegt werden. Je enger diese Zusammenhänge, desto besser kann die Kriteriumsvalidiät als belegt gelten.
Von größter Bedeutung ist welche Außenkriterien gewählt werden eine theoretisch hergeleiterter Zusammenhang ist von Vorteil.
Außenkriteren: Übereinstimmungsval und prognostisceh Val

28

Warum sollten bei der berechnung der Kriteriumsval Verdünnungsformeln zum Einsatz kommen?

Die Validität wird hier durch zwei Messfehler verdünnt (Messung Test und des Außenkriteriums)

29

Was ist die Grundidee der Taylor-Russel Tafeln?

Es wird angenommen dass ein Individuum über eien bestimmte Mindestausprägung des zu erhebenden Merkmals verfügen muss, um für eine bestimmte Anforderung geeignet zu sein. Je nachdem wie hoch diese Mindestausprägung ist, ist nur ein gewisser Prozentsatz der relevanten Population wirklich geeignet, Dieser Prozentsatz nennt sich Grundquote GQ.

Weiters wird aufgrund des Testergebnisses ein bestimmter Anteil der Testpersonen als geeignet betrachtet. Dieser Anteil nennt sich Selektionsrate.

30

Nenne Schwächen der KTT bezüglich der Skalierung.

Die Annahme, der beobachtete Testwert setze sich aus einem wahren Wert und einem Fehlerwert zusammen, ist empirisch nicht überprüfbar, da beide Größen nicht direkt beobachtbar sind
Es kann nicht überprüft werden, ob die Testwerte Intervallskaleniveau aufweisen. Dies ist aber insorfern wichtig , da die KTT für ihre Kalküle Intervallskalennibeau voraussetzt.

31

Nenne Schwächen der KTT bezüglich der Konstruktvalidität.

Es besteht nicht die Möglichkeit anhand der Modellannahmen zu überprüfen ob die Testitems bezüglich des jeweils untersuchten Merkmals homogen sind. Streng genommen ist dies aber Voraussetzung für die Berechnung des Testwertes als Summenwert über alle Items. Ersatzweise nimmt man zu Homogenitätsbeurteilung die Itemtrennschärfen sowie die Itemninterkorrelationen als Basis der internen Konsistenz. Die untersuchten Merkmale können daher nur operational definiert werden.

32

Welche Schwächen ergeben sich bei der KTT in Bezug auf Stichprobenabhängigkeit?

Die Kennwerte der KTT insbesondere Itemschwierigkeit, itemtrennschärfe und Reliabiltät sind stichprobenabhängig. Je nachdem an welchen Personen die Messungen durchgeführt werden, können unterschiedliche Ausprägungen für dieselben Kennwerte resultieren. Es bleibt unklar inwieweit man die gefundenen Ergebnisse verallgemeinern werden kann.