Gütekriterien 1 Flashcards

1
Q

Testbatterie - Definition

A

Kombination aus unterschiedlichen Einzeltests (z.B.: Intelligenztests, die verschiedene Bereiche der Intelligenz erfassen)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Unterschied zwischen Itemvarianz und -trennschärfe

A

Varianz = Differenzierungfähigkeit eines Items = Streuung (SD) –> Wie gut differenziert das Item die Merkmalsträger?

Trennschärfe = Die Korrelation des Items mit dem Testwert (also allen anderen Items der Skala) –> wie gut repräsentiert das Item die Skala?

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Übersicht Gütekriterien: Objektivität, Validität, Reliabilität, Normierung & weitere Gütekriterien

A
  1. Objektivität: Wie stark hängt das Ergebnis davon ab, wer die testdurchführung leitet, den Test auswertet und interpretiert?
  2. Reliabilität: Wie genau oder zuverlässig ist das Messergebnis? Wie stark verändert sich das Ergebnis bei einer Testwiederholung?
  3. Validität: Wie gut gelingt es genau das Merkmal zu messen, das mit dem test gemessen werden soll (und nicht ein anderes)?
  4. Normierung: wie gut lässt sich das Testergebnis mit den Ergebnissen anderer Menschen vergleichen?
  5. Weitere Gütekritieren:
    a) Fairness
    b) Ökonomie
    c) Nützlichkeit
    d) Zumutbarkeit/ Soziale Akzeptanz
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Objektivität -Definition

A

Das Ergebniss eines diagnostischen Verfahren kommt unabhängig davon zustande, wer die Untersuchung, die Auswertung und die Interpretation durchführt

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Objektivität - Arten

A
  1. Durchführungsobjektivität
  2. Auswertungsobjektivität
  3. Interpretationsobjektivität
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Objektivität - 1. Durchführungsojektivität: Definition, Anweisungen im Testmanual & Berechnung

A
  1. Definition: Durchführungsbedingungen müssen genau spezifiziert werden –> Durchführung unabhängig von VL immer gleich (Ausschluss des Einflusses von Störvariablen)
  2. Anweisungen im Testmanual:
    a) Zeitvorgaben
    b) Benötigte Materialien
    c) Umgang mit Fragen und Störungen
    d) Standardierte Instruktionen
  3. Berechnung:
    a) wird (kann) i.d.R. nicht nummerisch angegeben / bestimmt werden
    b) Durchführungsobjektivität darf als hoch/ gegeben angesehen werden, wenn alle Bedingungen festgelegt sind, die sich auf das Testverhalten auswirken können
    Beispiel s. F. 14
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Objektivität - Auswertungsobjektivität

A
  1. Definition: Genaue Abgaben, wie eine Antwort (nummerische Abgabe) zu verstehen ist, müssen vorliegen (= Auswertungsregeln)
  2. Das Testergebnis hängt nicht von Auswerter ab:
    a) richtig oder falsch (z.B.: Leistungstests)
    b) hoch oder niedrig (z.B.: Persönlichkeitstests)
    c) gegeben oder nicht gegeben (z.B.: klinische Diagnose)
  3. Berechnung:
    a) Auswertungsübereinstimmung: kann numerisch bestimmt und somit angegeben werden
    b) Auswertungsobjektivität darf als hoch/ gegeben angesehen werden, wenn klare Anweisungen und Hilfsmittel (z.B.: Schablonen, Computertests) zur Auswertung vorliegen
  4. Probleme: insbesondere, wenn Antworte offen sind –> erfordert detallierte Auswertungsregeln (z.B.: WISC-V) s. F. 16
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Objektivität - Interpretationsobjektivität

A
  1. Definition: Kalre Vorgaben, was individuelle (numerische) Rohwerte bedeuten (–> Normierung)
  2. Testergebnis unabhängig von Ort, Zeit, VL und Auswerter:
    a) Lesitung in einem Test: unterdurchschnittlich, normal, überdurchschnittlich (gemindert, normal, hochbegabt)
    b) Persönlichkeitsausprägung: normal vs. extrem
    c) Anzahl gegebener Symptome: Störungsbild
  3. Berechnung:
    Interpretationsobjektivität darf als hoch / gegeben angesehenw erden, wenn genau beschrieben ist, wie man von einem Rohwert zu einer Aussage über die Merkmalsausprägung gelangt (Normtabellen, Kritierien)
    Beispiel s. F. 18/ 19
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Reliabilität - Definition

A

Die Genauigkeit einer Messung; ein Testverfahren ist perfekt reliabel, wenn die damit erhaltenen Testwerte frei von zufälligen Messfehlern sind. Das Testverfahren ist umso weniger reliabel, je größer die Einflüsse von zufälligen Messfehlern sind
= Messgenaugigkeit
Beispiel: mehrere Waagen stimmen in ihre Anzeige überein/ eine Waage zeigt immer das gleich, wenn ich das gleich drauflege

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Reliabilität - Reliabilitätskoeffizient

A

= Korrelationskoeffizient
Wertebereich zwischen -1 und 1
1 = Freiheit von Messfehlern (perfekte Reliabilität)
0 = Testergebnis ist ausschlißlich durch Messfehler zustandegekommen
negativer Wert = es wurde vergessen Ites zu rekodieren oder ähnliches

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Reliabilität - Reliabilitätskoeffizient

A

= Korrelationskoeffizient
Wertebereich zwischen -1 und 1
1 = Freiheit von Messfehlern (perfekte Reliabilität)
0 = Testergebnis ist ausschlißlich durch Messfehler zustandegekommen
negativer Wert = es wurde vergessen Ites zu rekodieren oder ähnliches
s. F. 22

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Reliabilität - Methoden der Reliabilitätsschätzung

A
  1. Retest-Methode: der gleiche Test wird 2 mal dargeboten
  2. Paralleltest-Methode: Der Test und eine parallele Version desselben werden verwendet
  3. Spilt-Half-Test bzw. Testhalbierungsmethode: Ein Test wird in 2 Teile “zerlegt”; es wird die Korrelation der beide Testteile geprüft
  4. Interne Konsisitenz: Jedes Items wird als Testteil betrachtet
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Reliabilität: Methoden der Reliabilitätsschätzung: 1. Retest Reliabilität - Definition, Bestimmung, Annhahme

A
  1. Definition: Dasselbe Testverfahren wird an derselben Stichprobe mehrfach durchgeführt
  2. Bestimmung:
    Reliabilität ergibt sich aus der Korrelation der Testwerte der unterschiedlichen Druchgänge (rtt)
  3. Annahme: die wahren Werte der Person haben sich zwischen den Testdruchführungen nicht verändert
    s. F. 23
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Reliabilität: Methoden der Reliabilitätsschätzung- Retest Reliabilität: Wann anwenden und wovon ist der Reliabilitätsindex abhängig

A
  1. Höhe des Reliabilitätsindex ist abhängig von:
    a) Stabilität des/ der Merkmals/Merkmalsträger
    b) Länge des Messintervalls
  2. Anwenden bei:
    a) kruzen Messzeitintervallen (wenige Wochen bis Monate), aber Vorsicht: Erinnerungs- und Übungseffekte
    b) Bereite Maße mit wenigen Items zur Erfassung komplexer Merkmalskonstrukte
    c) Erfassung relativ stabiler Merkmale
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Reliabilität: Methoden der Reliabilitätsschätzung - Paralleltestreliabilität: Definition, Bestimmung und Annahme

A
  1. Definition: Parallele Testformen werden an derselben Stichprobe durchgeführt
  2. Bestimmung:
    Reliabilität ergibt sich aus der Korrelation der Testwerte der beiden Tests
  3. Annahme: Beide Tests messen das gleiche Merkmal
    s. F. 25
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Reliabilität: Methoden der Reliabilitätsschätzung - Paralleltest Reliabilität - Anwendung

A
  1. In der Realität eher selten –> da hoher Aufwand und schwierige Konstruktion
  2. eher bei Leistungs als bei Perönlichkeitstests
  3. Parallelität wird angenommen, wenn Mittelwerte und Streuung der Testwerte gleich sind (und wenn Paralleltest Reliabilität hoch ist)
17
Q

Reliabilität: Methoden der Reliabilitätsschätzung - Split-Half Reliabilität: Definition, Bestimmung & Annahme

A
  1. Definition: Quasi-parallele Halbtests (Test wird in zwei Hälften geteilt) werden an derselben Stichprobe durchgeführt
  2. Bestimmung: Reliabilität ergibt sich aud der Korrelation der Testwerte der beiden Testhälften
  3. Annahme: Beide Testhälften messen das gleiche Merkmal
    s. F. 27
18
Q

Reliabilität: Methoden der Reliabilitätsschätzung - Split-Half Reliabilität - Methoden de Testhalbierung

A
  1. Odd-Even-Methode: Items werden abwechselnd den Tests zugeordnet, z.B.: alle gradzahligen Items = Test 1, alle ungeraden Items = Tests 2 (s. F.28)
  2. Zeitpartitionierungs-Methode: Testberartung wird in zeitlich zwei gleich lange Abschnitte aufgeteilt (s. F. 29)
  3. Methode der Itemzwillige: Anhand von Schwierigkeit und Trennschärfe werden Itempaare gebildet, ein Item pro Paar wird zufällig Test 1, das andere Test 2 zugeteilt
19
Q

Reliabilität: Methoden der Reliabilitätsschätzung - Paralleltest und Split-Half Reliabilität: Vorteil und Problem

A
  1. Vorteile: Keine Erinnerungs- und Übungseffekte
  2. Problem: Streng parallele Test(hälften) so gut wie unmöglich
20
Q

Reliabilität: Methoden der Reliabilitätsschätzung - Split-Half Reliabilität - Wovon ist die Halbierungsmethode abhängig, was erfordert eine Testhaldierungsbestimmung und Einsatz

A
  1. Halbierungsmethode abhöngig von:
    a) Homogenität edr Items (Einzeltests eines Gesamttests)
    b) Anzahl der Items (meist nur bei gerader Anzahl möglich)
  2. Testhalbierungsreliabilitätsbestimmung erfordert zusätzlich eine Indexkorrektur um eine Testverdopplung (siehe Spearman-Brown-Formel)
  3. Einsatz: eher seltene Anwendung
    Fallbeispiel s. F. 32
21
Q

Reliabilität: Methoden der Reliabilitätsschätzung - Interne Konsistenz: Definition, Bestimmung & Annahme

A
  1. Definition: Testverfahren wird einmalig durchgeführt
  2. Bestimmung: Reliabilität ergibt sich aus der Korrelation der Werte der einzelnen Items (jedes Item wird quasi als eizelner Testteil betrachtet)
  3. Annahme: Alle Items messen das gleiche Merkmal
22
Q

Reliabilität: Methoden der Reliabilitätsschätzung - Interne Konsistenz - Berechnung & Maß

A
  1. Häufigstes Maß: Cronbachs alpha
  2. Höhe der Reliabilität ist abhängig von:
    a) Homogenität vs. Heterogenität der Items
    b) Testlänge (Anzahl der Items)
  3. Zu empfehlen bei:
    a) Maßen mit vielen heterogenen Items zur Erfassung breiter Konstrukte
    b) Wenn nur einmalige Testdurchführung möglich/ökonomisch/sinnvoll ist
    –>Formel s. F. 34 (nicht klausurrelvant)
23
Q

Reliabilität: Methoden der Reliabilitätsschätzung - Interne Konsistenz - Probleme mit Cronbachs alpha und Alternative

A
  1. Probleme: Vorannahmen, die nicht immer zutreffen (essentielle T-Äquivalanz) z.B.: empfinden nicht alle dieselben Items als schwierig oder leicht
  2. Alternative: McDonalds Omega:
    a) komplizierte zu bestimmen
    b) weniger strenge vorraussetzungen
    c) Vorraussetzung: T-Kongenerität: Items messen gemeinsames Merkmal, aber wahre Werte hängen unterschiedlich mit dem Merkmal zusammen
    –> Formel s. F. 35 (nicht klausurrelevant)
24
Q

Interpretation Reliabilität

A
  1. Stichprobenabhängigkeit: Alle Reliabilitätsindices basieren auf Korrelationen und sind daher stichprobenabhängig
  2. Interpretation: Wie hoch die Reliabilität sein sollte, kann nicht genau festgemacht werden, denn es ist vom jeweiligen Anwendungsfall/ Verfahren abhängig - Daumenregel:
    Rel < .70 = unakzeptabel
    Rel > .70 = akzeptabel
    Rel > .80 = gut
    Rel > .90 = Sehr gut
25
Q

Möglichkeiten zur Reliabilitätssteigerung

A
  1. Einfache Formulierung: Umsicht bei der Konstruktion von Messverfahren –> Prinzip einfache Formulierung von Frage/Aussagen (s.F. 37)
  2. homogene Items: möglichst Verwendung homogener Items (aber Vorsicht vor Redundanz)
  3. gröere Stichproben
  4. Testverlängerung (mehr Items)
26
Q

Möglichkeiten zur Reliabilitätssteigerung: Testverlängerung - Prinzip & Bestimmung

A
  1. Prinzip: je mehr Informationen, umso genauer wird das zu erfassende Objekt gemessen
  2. Bestimmung: durch Spearman-Brown-Formel
    a) Vorraussetzung: homogene Items
    b) Mittels der Formel kann bestimmt werden, wie die Reliabilität eines Tests mit seiner Verlängerung zunimmt/ Kürzung veringert wird
    c) Formel: (p + Rel(Y1)) / ((1 + (p-1) * Rel(Y1))
    p: Verlängerungsfaktor (wieviel mal so viele Items als vorher?)
    Rel(Y1): Reliabilität des Tests, der um Faktor p verlängert wird
    Rel(Y2): Reliabilität des um p verlängerten Faktors
    s. F. 38-40
27
Q

Weitere Gütekriterien: 1. Fairness

A
  1. Definition: Als fair gibt ein diagnostische Verfahren dann, wenn es Messwerte liefert, die nicht durch eine Gruppenzugehöhrigkeit eines Diagnostikanten in irrelevanter Weise beeinflusst werden –> das Verfahren ist für alle Probanten frei von Diskriminierung (z.B.: Mathematiktest aus Textaufgaben benachteiligt Kinder mit adnerer Muttersprache)
  2. Lösung:Gruppenspezifische Normwerte für unterschiedliche Gruppen (z.B.: Geschlecht, Alter, Sprachnievau)
28
Q

Weitere Gütekriterien: Ökonomie

A
  1. Definition: Als ökonomisch gilt ein Instrument, wenn es diagnostische Daten gleicher Qualität zu einem günstigeren Preis (bzw. in kürzerer Zeit) liefert als alternative Instrumente (z.B.: Gruppen- vs. Einzeltests)
  2. Problem:Kosten-Nutzen-Erwägungen sind nicht immer eindeutig lösbar
29
Q

Weitere Gütekriterien: Nützlichkeit

A
  1. Definition: ein diagnostisches Verfahren ist dann nützlich, wenn es:
    a) Informationen liefert, die bereits vorhandene Verfahren nicht liefern können
    b) hilft, Fehler zu vermeiden, die bei mehrmaliger Verwendung eines bereits vorhandenen Verfahrens zu befürchten wären (z.B.: Testwiederholdungseffekte)
  2. Problem: Der Nutzen eines Messinstruentes verringert sich mit der Zahl bereits vorhandener Instrumente für das gleiche Merkmal
30
Q

Weitere Gütekriterien: Zumutbarkeit / soziale Akzeptanz

A
  1. Definition: Zumutbar gelten und sozial akzeptiert werden solche Verfahren, die im Rahmen der erforderlichen Informationsgewinnung von Seiten der Diagnostikerinnen und Diagnostikandinnen als gewinnbringend angesehen werden.
  2. Eigenschaften zumutbarer Verfahren:
    a) wenig zeitaufwand
    b) transparente Verfahren werden i.d.R. eher akzeptiert (Achtung weniger Verfälschungssicher!)
    c) Intelligenztests werden bei der Personaldiagnostik als wenig akzeptabel empfunden