03 Gütekriterien Flashcards

(40 cards)

1
Q

Was sind die drei Haupttestgütekriterien?

A

Objektivität = Unabhängigkeit der Messung

Reliabilität = Zuverlässigkeit (Genauigkeit) der Messung

Validität = Gültigkeit der Messung

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Was gibt die Objektivität an?

A

in welchem Maß die Testergebnisse vom Testanwender unabhängig sind

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

In welche drei Unterbereiche kann man die Objektivität unterteilen?

A

o Durchführungsobjektivität
o Auswertungsobjektivität
o Interpretationsobjektivität

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Was gilt für die Durchführungsobjektivität?

A
  • Durchführungsbedingungen müssen genau spezifiziert sein
  • Durchführung unabhängig von Testleiter:in immer gleich (Ausschluss des Einflusses von Störvariablen)
  • Anweisungen im Testmanual
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Welche Anweisungen sollten im Testmanual bei der Durchführungsobjektivität gegeben sein?

A

o Zeitvorgaben
o Benötigte Materialien
o Umgang mit Fragen und Störungen
o Standardisierte Instruktionen

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Wann kann die Durchführungsobjektivität als hoch oder gegeben angesehen werden?

A

wenn alle Bedingungen festgelegt sind, die sich auf das Testverhalten auswirken können

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Was gilt bei der Auswertungsobjektivität?

A
  • Genaue Angaben, wie eine Antwort zu verstehen ist, müssen vorliegen (= Auswertungsregeln)
  • Das Testergebnis hängt nicht von Auswerter:in ab
  • kann numerisch bestimmt und somit angegeben werden (Auswerterübereinstimmung)
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Inwiefern kann das Testergebnis nach der Auswertungsobjektivität von der Auswerter*in abhängen?

A

o richtig oder falsch (z.B. Leistungstest)
o hoch oder niedrig (z.B. Persönlichkeitstest)
o gegeben oder nicht (z.B. Klinische Diagnose

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Wann gilt die Auswertungsobjektivität als hoch oder gegeben?

A

wenn klare Anweisungen und Hilfsmittel (z.B. Schablonen, Computertests) zur Auswertung vorliegen

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Was versteht man unter Interpretationsobjektivität?

A
  • Klare Vorgaben, was individuelle (numerische) Rohwerte bedeuten (→ Normierung)
  • Testergebnis unabhängig von Ort, Zeit, Testleiter:in und Auswerter:in
    o Leistung in einem Test → unterdurchschnittlich, normal, überdurchschnittlich (gemindert, normal, hochbegabt)
    o Persönlichkeitsausprägung → normal vs. extrem
    o Anzahl gegebener Symptome → Störungsbild
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Wann kann die Interpretationsobjektivität als hoch oder gegeben angesehen werden?

A

wenn genau beschrieben ist, wie man von einem Rohwert zu einer Aussage über die Merkmalsausprägung gelangt (Normtabellen, Kriterien)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Welche Verfahren können verwendet werden, um die Reliabilität einer Messung zu erhöhen?

A
  • Zweimalige Erfassung des gleichen Merkmals
    o Retest
    o Paralleltest
    o Testhalbierung
  • Über Interkorrelation der Items
    o Interne Konsistenz
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Wie setzt sich der Testwert zusammen?

A

Kombination des ”wahren” Messwertes (True Score) und Abweichung

xi=τi+ϵi

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Was ist der (Mess-)Fehler?

A

Diskrepanz zwischen dem beobachteten Wert und dem True-Score

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Was sind die drei Annahmen den klassischer Testtheorie?

A
  • Mittelwert der Messfehler ist 0 (Messfehler als Abweichung):
    M(ϵi ) = 0
  • True Scores und Fehler sind unkorreliert (hängen nicht voneinander ab):
    Cov(τi, ϵi ) = 0
  • Die Fehler sind untereinander unkorreliert:
    Cov(ϵi,ϵj ) = 0
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Was kennzeichnet die Reliabilität und wie ist sie mathematisch definiert?

A
  • Reliabilität (Zuverlässigkeit) eines Tests kennzeichnet den Grad der Genauigkeit (Präzision), mit dem das geprüfte Merkmal gemessen wird
  • Die Reliabilität ist definiert als das Verhältnis der Varianz der True-Scores und der beobachteten Testwerte
    rel(X) = Var(T)/Var(X) = Var(T)/ (Var(T)+Var(ϵ))
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
17
Q

Was ist der Maximal- und der Minimalwert der Reliabilität und was bedeuten sie?

A

Maximalwert: rel(X) = 1
o Die Varianz der Messfehler ist 0
o Die Messung ist frei von Messfehlern

Minimalwert: rel(X) = 0
o Die Varianz der True Scores ist 0
o Die Messung reflektiert nur Messfehler

18
Q

Wie groß sollte die Reliabilität sein, ab wann wird es problematisch?

A

Reliabilität sollte >.80 sein; problematisch, wenn <.60

19
Q

Durch welche Variablen ist die Reliabilität definiert?

A

durch nicht direkt beobachtbare Variablen definiert (True-Score- und Fehlervarianz)

20
Q

Was ist der Re-Test? Wann wird er eingesetzt?

A
  • Person mehrmals mit dem demselben Test untersuchen
  • zeitstabile Merkmale (z.B. Intelligenz, SES etc.): wahrer Wert einer Person bleibt identisch, Fehleranteil variiert
  • Korrelation zwischen beiden Messzeitpunkten Schätzer der Reliabilität
21
Q

Was sind die Probleme beim Retest?

A

o Reliabilität vs. Stabilität
o Lerneffekte

22
Q

Was ist der Paralleltest?

A
  • zwei parallele Testversionen, die das Merkmal X identisch operationalisieren
  • Beide Testversionen werden von einer Person bearbeitet
  • Korrelation zwischen den Tests ist Schätzer der Reliabilität:
23
Q

Was sind die Probleme beim Paralleltest?

A

o Parallele Versionen?
o Hoher Aufwand
o Positionseffekte (Ermüdung, Transfer etc.)

24
Q

Was ist die Testhalbierung?

A
  • verschiedene Teile des gleichen Tests kommen zu ähnlichen Ergebnissen
  • Untersuchung einer Stichprobe mit einem Test  danach Items in zwei Hälften aufteilen
  • Korrelation zwischen den beiden Testhälften dient als Schätzer der Reliabilität
25
Was sind die Probleme bei der Testhalbierung?
- Aufteilung der Items - Testhälften selbst schon mit Messfehler behaftet
26
Was untersucht die Interne Konsistenz? Und wie?
- Kommen die einzelnen Items eines Tests zu dem gleichen Ergebnis ? - Jedes Item wird als kleiner Test für sich behandelt und mit dem Testwert korreliert - mittlere Korrelation zwischen den Items dient als Schätzer der Reliabilität (z.B. KR20, Cronbachs α)
27
Was sind die Probleme der Internen Konsistenz?
Heterogene Konstrukte, mehrdimensionale Tests
28
Was gibt die Validität an?
- Gültigkeit der Messung - gibt an, wie gut der Test das misst, was er zu messen vorgibt
29
Welche drei Unterbereiche gibt es bei der Validität?
- Inhaltsvalidität = Passung Konstrukt - Kriteriumsvalidität = Außenkriterium - Konstruktvaldität = Passung nomologisches Netzwert
30
Was wird bei der Inhaltsvalidität überprüft? Und wie? Was gibt es dabei für Probleme?
- Inhalt der Testitems deckt alle relevanten Aspekte des Konstrukts erschöpfend ab o Augenschein-Validität: Die Bestandteile des Tests erscheinen selbst Laien als gerechtfertigt o Curriculare Validität = Passung zu Curriculum - Problem: Nicht quantifizierbar, Einschätzung - Meist wird die Inhaltsvalidität durch die Einbeziehung von Experten/innen in die Testentwicklung gesichert
31
Was wird bei der Kriteriumsvalidität geprüft? Welche beiden Optionen gibt es? Welche Validitäten sind dabei zufriedenstellend?
- Korrelation mit einem relevanten Außenmerkmal o konkurrent: gleichzeitige Erfassung (z.B. Korrelation mit einem bereits etabliertem Testverfahren) o prädiktiv/prognostisch: spätere Erfassung (z.B. Korrelation mit Note am Schuljahresende) - Validitäten zwischen .40 und .60 zufriedenstellend, aber inhaltlich je nach Konstrukt gewichten
32
Was ist die Konstruktionsvalidität und welche zwei Optionen gibt es?
Ableitung von Hypothesen, die durch die Testergebnisse bestätigt werden (nomologisches Netzwerk) o konvergent: Korrelationen mit Konstrukten, mit denen der Test korrelieren sollte (z.B. Leseleistung mit Rechtschreibleistung) o diskriminant: Keine Korrelationen mit Konstrukten, mit denen der Test nicht korrelieren sollte (z.B. Leseleistung nur schwach mit non-verbaler Intelligenz)
33
Welche Beziehungen gelten zwischen der Reliabilität, Objektivität und Validität?
- Reliabilität kann nur so hoch sein, wie die Objektivität aber ein objektiver Test ist nicht zwangsläufig reliabel - Die Validität kann nur so hoch sein, wie die Reliabilität; aber ein reliabler Test ist nicht zwangsläufig valide
34
Was ist das Reliabilität-Fidelitäts-Dilemma? Was resultiert daraus?
- Reliabilitäts-Verfahren, die auf der Bestimmung der Homogenität basieren (z.B. interne Konsistenz), fallen höher aus, je homogener die eingesetzten Aufgaben sind - kann die Breite (Fidelität) des abgedeckten Konstruktes einschränken, was ein Teilaspekt der Validität ist - **Breiten-Tiefen-Tradeoff**: Es ist selten möglich, ein Konstrukt in seiner gesamten Breite mit einer begrenzten Menge von Aufgaben zuverlässig abzubilden.
35
Was ist die systematische Fehlervarianz?
- Klasssiche Testtheorie geht davon aus, dass Fehler unsystematisch sind und sich deshalb gegenseitig aufheben - Wenn alle Items ähnlich sind (Formulierungen etc.), dann führt dies u.U. zu systematischer Fehlervarianz - Da diese konstant ist und nicht variiert, kann sie nicht von der True-Score-Varianz unterschieden werden --> wahre Reliabilität wird überschätzt xi = Ti +ϵi Cov(Ti, ϵi) = 0 Cov(ϵi, ϵj) = 0
36
Welche vier Nebengütekriterien gibt es?
- Fairness - Ökonomie - Nützlichkeit - Zumutbarkeit und soziale Akzeptanz
37
Wann gilt das Nebengütekriterium Fairness als erfüllt? Welche Beispiele gibt es dafür?
- fair ist diagnostisches Verfahren, wenn es Messwerte liefert, die für alle Proband:innen frei ist von Diskriminierung sind - Beispiel: Mathematiktest aus Textaufgaben, der Kinder mit Migrationshintergrund benachteiligt - Lösung: Gruppenspezifische Normwerte für unterschiedliche Gruppen (z.B. Geschlecht, Alter, Sprachniveau)
38
Wann gilt das Nebengütekriterium Ökonomie als erfüllt? Welche Beispiele gibt es? Welche Probleme ergeben sich daraus?
- Als ökonomisch gilt ein Instrument, wenn es diagnostische Daten gleicher Qualität zu einem günstigeren Preis (bzw. in kürzerer Zeit) liefert als alternative Instrumente. o Beispiel 1: Gruppentestung vs. Einzeltestung o Beispiel 2: Computertestung für 5.000 vs. 2.000 d teure Papier-Bleistift-Testung, die aber 5-mal mehr Zeitaufwand erfordert - Problem: Kosten-Nutzen-Erwägungen sind nicht immer eindeutig lösbar!
39
Wann ist das Nebengütekriterium Nützlichkeit erfüllt?
- Nützlich ist ein diagnostisches Verfahren, wenn es: o Informationen liefert, die bereits vorhandene Verfahren nicht liefern können o hilft, Fehler zu verhindern, die bei mehrmaliger Verwendung eines bereits vorhandenen Instruments zu befürchten wären (z.B. Testwiederholungseffekte) - ABER: Nutzen eines Messinstruments verringert sich mit der Zahl bereits vorhandener Instrumente für das gleiche Merkmal!
40
Wann ist das Nebengütekriterium Zumutbarkeit und soziale Akzeptanz erfüllt?
- Zumutbar gelten und sozial akzeptiert werden solche Verfahren, die im Rahmen der erforderlichen Informationsgewinnung von Seiten der Diagnostiker:innen und Proband:innen als gewinnbringend angesehen werden o zeitsparende Verfahren idR eher akzeptiert o transparente Verfahren idR eher akzeptiert. - ABER: Transparente Verfahren sind weniger verfälschungssicher!