03 Gütekriterien Flashcards

1
Q

Was sind die drei Haupttestgütekriterien?

A

Objektivität = Unabhängigkeit der Messung

Reliabilität = Zuverlässigkeit (Genauigkeit) der Messung

Validität = Gültigkeit der Messung

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Was gibt die Objektivität an?

A

in welchem Maß die Testergebnisse vom Testanwender unabhängig sind

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

In welche drei Unterbereiche kann man die Objektivität unterteilen?

A

o Durchführungsobjektivität
o Auswertungsobjektivität
o Interpretationsobjektivität

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Was gilt für die Durchführungsobjektivität?

A
  • Durchführungsbedingungen müssen genau spezifiziert sein
  • Durchführung unabhängig von Testleiter:in immer gleich (Ausschluss des Einflusses von Störvariablen)
  • Anweisungen im Testmanual
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Welche Anweisungen sollten im Testmanual bei der Durchführungsobjektivität gegeben sein?

A

o Zeitvorgaben
o Benötigte Materialien
o Umgang mit Fragen und Störungen
o Standardisierte Instruktionen

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Wann kann die Durchführungsobjektivität als hoch oder gegeben angesehen werden?

A

wenn alle Bedingungen festgelegt sind, die sich auf das Testverhalten auswirken können

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Was gilt bei der Auswertungsobjektivität?

A
  • Genaue Angaben, wie eine Antwort zu verstehen ist, müssen vorliegen (= Auswertungsregeln)
  • Das Testergebnis hängt nicht von Auswerter:in ab
  • kann numerisch bestimmt und somit angegeben werden (Auswerterübereinstimmung)
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Inwiefern kann das Testergebnis nach der Auswertungsobjektivität von der Auswerter*in abhängen?

A

o richtig oder falsch (z.B. Leistungstest)
o hoch oder niedrig (z.B. Persönlichkeitstest)
o gegeben oder nicht (z.B. Klinische Diagnose

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Wann gilt die Auswertungsobjektivität als hoch oder gegeben?

A

wenn klare Anweisungen und Hilfsmittel (z.B. Schablonen, Computertests) zur Auswertung vorliegen

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Was versteht man unter Interpretationsobjektivität?

A
  • Klare Vorgaben, was individuelle (numerische) Rohwerte bedeuten (→ Normierung)
  • Testergebnis unabhängig von Ort, Zeit, Testleiter:in und Auswerter:in
    o Leistung in einem Test → unterdurchschnittlich, normal, überdurchschnittlich (gemindert, normal, hochbegabt)
    o Persönlichkeitsausprägung → normal vs. extrem
    o Anzahl gegebener Symptome → Störungsbild
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Wann kann die Interpretationsobjektivität als hoch oder gegeben angesehen werden?

A

wenn genau beschrieben ist, wie man von einem Rohwert zu einer Aussage über die Merkmalsausprägung gelangt (Normtabellen, Kriterien)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Welche Verfahren können verwendet werden, um die Reliabilität einer Messung zu erhöhen?

A
  • Zweimalige Erfassung des gleichen Merkmals
    o Retest
    o Paralleltest
    o Testhalbierung
  • Über Interkorrelation der Items
    o Interne Konsistenz
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Wie setzt sich der Testwert zusammen?

A

Kombination des ”wahren” Messwertes (True Score) und Abweichung

xi=τi+ϵi

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Was ist der (Mess-)Fehler?

A

Diskrepanz zwischen dem beobachteten Wert und dem True-Score

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Was sind die drei Annahmen den klassischer Testtheorie?

A
  • Mittelwert der Messfehler ist 0 (Messfehler als Abweichung):
    M(ϵi ) = 0
  • True Scores und Fehler sind unkorreliert (hängen nicht voneinander ab):
    Cov(τi, ϵi ) = 0
  • Die Fehler sind untereinander unkorreliert:
    Cov(ϵi,ϵj ) = 0
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Was kennzeichnet die Reliabilität und wie ist sie mathematisch definiert?

A
  • Reliabilität (Zuverlässigkeit) eines Tests kennzeichnet den Grad der Genauigkeit (Präzision), mit dem das geprüfte Merkmal gemessen wird
  • Die Reliabilität ist definiert als das Verhältnis der Varianz der True-Scores und der beobachteten Testwerte
    rel(X) = Var(T)/Var(X) = Var(T)/ (Var(T)+Var(ϵ))
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
17
Q

Was ist der Maximal- und der Minimalwert der Reliabilität und was bedeuten sie?

A

Maximalwert: rel(X) = 1
o Die Varianz der Messfehler ist 0
o Die Messung ist frei von Messfehlern

Minimalwert: rel(X) = 0
o Die Varianz der True Scores ist 0
o Die Messung reflektiert nur Messfehler

18
Q

Wie groß sollte die Reliabilität sein, ab wann wird es problematisch?

A

Reliabilität sollte >.80 sein; problematisch, wenn <.60

19
Q

Durch welche Variablen ist die Reliabilität definiert?

A

durch nicht direkt beobachtbare Variablen definiert (True-Score- und Fehlervarianz)

20
Q

Was ist der Re-Test? Wann wird er eingesetzt?

A
  • Person mehrmals mit dem demselben Test untersuchen
  • zeitstabile Merkmale (z.B. Intelligenz, SES etc.): wahrer Wert einer Person bleibt identisch, Fehleranteil variiert
  • Korrelation zwischen beiden Messzeitpunkten Schätzer der Reliabilität
21
Q

Was sind die Probleme beim Retest?

A

o Reliabilität vs. Stabilität
o Lerneffekte

22
Q

Was ist der Paralleltest?

A
  • zwei parallele Testversionen, die das Merkmal X identisch operationalisieren
  • Beide Testversionen werden von einer Person bearbeitet
  • Korrelation zwischen den Tests ist Schätzer der Reliabilität:
23
Q

Was sind die Probleme beim Paralleltest?

A

o Parallele Versionen?
o Hoher Aufwand
o Positionseffekte (Ermüdung, Transfer etc.)

24
Q

Was ist die Testhalbierung?

A
  • verschiedene Teile des gleichen Tests kommen zu ähnlichen Ergebnissen
  • Untersuchung einer Stichprobe mit einem Test  danach Items in zwei Hälften aufteilen
  • Korrelation zwischen den beiden Testhälften dient als Schätzer der Reliabilität
25
Q

Was sind die Probleme bei der Testhalbierung?

A
  • Aufteilung der Items
  • Testhälften selbst schon mit Messfehler behaftet
26
Q

Was untersucht die Interne Konsistenz? Und wie?

A
  • Kommen die einzelnen Items eines Tests zu dem gleichen Ergebnis ?
  • Jedes Item wird als kleiner Test für sich behandelt und mit dem Testwert korreliert
  • mittlere Korrelation zwischen den Items dient als Schätzer der Reliabilität (z.B. KR20, Cronbachs α)
27
Q

Was sind die Probleme der Internen Konsistenz?

A

Heterogene Konstrukte, mehrdimensionale Tests

28
Q

Was gibt die Validität an?

A
  • Gültigkeit der Messung
  • gibt an, wie gut der Test das misst, was er zu messen vorgibt
29
Q

Welche drei Unterbereiche gibt es bei der Validität?

A
  • Inhaltsvalidität = Passung Konstrukt
  • Kriteriumsvalidität = Außenkriterium
  • Konstruktvaldität = Passung nomologisches Netzwert
30
Q

Was wird bei der Inhaltsvalidität überprüft? Und wie? Was gibt es dabei für Probleme?

A
  • Inhalt der Testitems deckt alle relevanten Aspekte des Konstrukts erschöpfend ab
    o Augenschein-Validität: Die Bestandteile des Tests erscheinen selbst Laien als gerechtfertigt
    o Curriculare Validität = Passung zu Curriculum
  • Problem: Nicht quantifizierbar, Einschätzung
  • Meist wird die Inhaltsvalidität durch die Einbeziehung von Experten/innen in die Testentwicklung gesichert
31
Q

Was wird bei der Kriteriumsvalidität geprüft? Welche beiden Optionen gibt es? Welche Validitäten sind dabei zufriedenstellend?

A
  • Korrelation mit einem relevanten Außenmerkmal
    o konkurrent: gleichzeitige Erfassung (z.B. Korrelation mit einem bereits etabliertem Testverfahren)
    o prädiktiv/prognostisch: spätere Erfassung (z.B. Korrelation mit Note am Schuljahresende)
  • Validitäten zwischen .40 und .60 zufriedenstellend, aber inhaltlich je nach Konstrukt gewichten
32
Q

Was ist die Konstruktionsvalidität und welche zwei Optionen gibt es?

A

Ableitung von Hypothesen, die durch die Testergebnisse bestätigt werden (nomologisches Netzwerk)

o konvergent: Korrelationen mit Konstrukten, mit denen der Test korrelieren sollte (z.B. Leseleistung mit Rechtschreibleistung)

o diskriminant: Keine Korrelationen mit Konstrukten, mit denen der Test nicht korrelieren sollte (z.B. Leseleistung nur schwach mit non-verbaler Intelligenz)

33
Q

Welche Beziehungen gelten zwischen der Reliabilität, Objektivität und Validität?

A
  • Reliabilität kann nur so hoch sein, wie die Objektivität aber ein objektiver Test ist nicht zwangsläufig reliabel
  • Die Validität kann nur so hoch sein, wie die Reliabilität; aber ein reliabler Test ist nicht zwangsläufig valide
34
Q

Was ist das Reliabilität-Fidelitäts-Dilemma? Was resultiert daraus?

A
  • Reliabilitäts-Verfahren, die auf der Bestimmung der Homogenität basieren (z.B. interne Konsistenz), fallen höher aus, je homogener die eingesetzten Aufgaben sind
  • kann die Breite (Fidelität) des abgedeckten Konstruktes einschränken, was ein Teilaspekt der Validität ist
  • Breiten-Tiefen-Tradeoff: Es ist selten möglich, ein Konstrukt in seiner gesamten Breite mit einer begrenzten Menge von Aufgaben zuverlässig abzubilden.
35
Q

Was ist die systematische Fehlervarianz?

A
  • Klasssiche Testtheorie geht davon aus, dass Fehler unsystematisch sind und sich deshalb gegenseitig aufheben
  • Wenn alle Items ähnlich sind (Formulierungen etc.), dann führt dies u.U. zu systematischer Fehlervarianz
  • Da diese konstant ist und nicht variiert, kann sie nicht von der True-Score-Varianz unterschieden werden
    –> wahre Reliabilität wird überschätzt

xi = Ti +ϵi
Cov(Ti, ϵi) = 0
Cov(ϵi, ϵj) = 0

36
Q

Welche vier Nebengütekriterien gibt es?

A
  • Fairness
  • Ökonomie
  • Nützlichkeit
  • Zumutbarkeit und soziale Akzeptanz
37
Q

Wann gilt das Nebengütekriterium Fairness als erfüllt? Welche Beispiele gibt es dafür?

A
  • fair ist diagnostisches Verfahren, wenn es Messwerte liefert, die für alle Proband:innen frei ist von Diskriminierung sind
  • Beispiel: Mathematiktest aus Textaufgaben, der Kinder mit Migrationshintergrund benachteiligt
  • Lösung: Gruppenspezifische Normwerte für unterschiedliche Gruppen (z.B. Geschlecht, Alter, Sprachniveau)
38
Q

Wann gilt das Nebengütekriterium Ökonomie als erfüllt? Welche Beispiele gibt es? Welche Probleme ergeben sich daraus?

A
  • Als ökonomisch gilt ein Instrument, wenn es diagnostische Daten gleicher Qualität zu einem günstigeren Preis (bzw. in kürzerer Zeit) liefert als alternative Instrumente.
    o Beispiel 1: Gruppentestung vs. Einzeltestung
    o Beispiel 2: Computertestung für 5.000 vs. 2.000 d teure Papier-Bleistift-Testung, die aber 5-mal mehr Zeitaufwand erfordert
  • Problem: Kosten-Nutzen-Erwägungen sind nicht immer eindeutig lösbar!
39
Q

Wann ist das Nebengütekriterium Nützlichkeit erfüllt?

A
  • Nützlich ist ein diagnostisches Verfahren, wenn es:
    o Informationen liefert, die bereits vorhandene Verfahren nicht liefern können
    o hilft, Fehler zu verhindern, die bei mehrmaliger Verwendung eines bereits vorhandenen Instruments zu befürchten wären (z.B. Testwiederholungseffekte)
  • ABER: Nutzen eines Messinstruments verringert sich mit der Zahl bereits vorhandener Instrumente für das gleiche Merkmal!
40
Q

Wann ist das Nebengütekriterium Zumutbarkeit und soziale Akzeptanz erfüllt?

A
  • Zumutbar gelten und sozial akzeptiert werden solche Verfahren, die im Rahmen der erforderlichen Informationsgewinnung von Seiten der Diagnostiker:innen und Proband:innen als gewinnbringend angesehen werden
    o zeitsparende Verfahren idR eher akzeptiert
    o transparente Verfahren idR eher akzeptiert.
  • ABER: Transparente Verfahren sind weniger verfälschungssicher!