Testevaluation Flashcards

1
Q

Testevaluation - Einordnung in die Schritte der Testkonstruktion

A

Schritt 3 (Verteilungs-, Items- & Skalenanalyse) und Schritt 4 (Itemrevision & -selektion)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Testevaluation: Verteilung - Normalverteilung

A

1.Gausche Glockenkurve, Symmetrische Verteilung
2. Mehrheit der Werte liegt um den Mittelpunkt der Skala
3. Vorraussetzung für viele statistische Verfahren
s F. 11

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Testevaluation: Verteilung - Schiefe

A
  1. Definition: Maß für die Symmetrie/ Asymmetrie eines Items
  2. Einordnung:
    a) rechtsschief: linkssteile Verteilung - Schiefe > 0
    b) linksschief: rechtssteile Verteilung - Schiefe < 0
    c) normalverteilung: symmetrische Verteilung - Schiefe = 0
  3. Effekte:
    a) Bodeneffet: Mittelwerte sind sehr niedrig, kaum jemand “löst” das Items, differenziert schlecht im unteren Bereich
    b) Deckeneffekt: Mittelwert sehr hoch, fast alle “lösen” das Item, differenziert schlecht im oberen Bereich
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Testevaluation: Verteilung - Kurtosis (Exzess)

A
  1. Definition: gibt auskunft über die Breit- bzw. Schmalgipfligkeit
  2. Wertebedeutung:
    a) Wert > 0: spricht für eine schmalgipflige (spitze) Verteilung –> Leptokurtisch
    b) Wette < 0: spricht für eine breitgipflige (flache) Verteilung –> platykurtisch
    c) Werte = 0 keine Abweichung von Normalverteilung –> Mesokurtisch
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Testevaluation: Verteilung - Gipfligkeit (Modalität)

A

Ein- vs. mehrgipflige Verteilung:
Normalerweise eingipflig erwünscht (siehe Normalverteilung)
Wenn zweigipflig –> Item ggf. mehrdeutig formuliert?
biomodale Verteilung = zweigipflig

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Ursachen für Abweichungen von einer Normalverteilung

A
  1. Antwortverteilun ist Zweipigflig/Mehrgipflig:
    Mögliche Ursachen:
    a) Item war polarisierend
    b) Item war wiedersprüchlich/mehrdeutig formuliert
    c) Item hat mehrere Dinge gleichzeitg abgefragt
  2. Antwort ist schief:
    Mögliche Ursachen:
    a) Items war zu leicht (linksschief)
    b) Item war zu schwer (rechtsschief)
  3. Weitere möglichkeiten für Abweichungen von Normalverteilung:
    a) Heterogene Stichproben: zwei Unterstichproben, die zusammen eine Mischverteilung bilden
    b) das Merkmal ist nicht normalverteilt
    –> Übung zur Verteilungen s. F. 16-20
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Dekriptive Daten: Mittelwerte und Streung

A
  1. Mittelwert: zentrale Tendenz einer Verteilung. Alle Werte addiert und durch die Anzahl der Werte geteilt
  2. Streuung: Verteilung aller Werte um den Mittelwert. Häufig berechnet als Standardabweichung (SD):
    a) Geringe SD: Die Werte liegen in der Regel nach am Mittelwert
    b) Hohe SD: Die Werte liegen in der Regel weit vom Mittelwert entfernt
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Deskriptive Daten und Verteilungen

A
  1. Hohe SD spricht für große Streuung der Werte abseits des Mittelwerts (z.B.: bimodale Verteilung)
  2. Standardabweichung nahe 0 spricht für wenig bis keine Streuung abseits des Mittelwerts (z.B.: Spitze Verteilung)
  3. Sehr hohe bzw. sehr niedrige Mittelwert spricht für Decken bzw. Bodeneffekt (z.B.: schiefe Verteilung)
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Testevaluation: Itemschwierigkeit - Schwirigkeitsindex

A
  1. Ziel: Jedes Item sollte zwischen Merkmalstragenden differenzieren können (z.B.: gelöst vs. nicht gelöst, bejahen vs. verneinen, etc.)
  2. Definition: Schwirigkeitsindex (auch Popularitätsindex) Pi stellt den prozentualen Anteil richtiger (bzw. zustimmender) Antworten für das Item i in einer Stichprobe der Größe n dar
  3. Interpretation:
    a) Index hoch: max 100, wenn die Aufgabe leicht ist (bzw. im Sinne eines Merkmales bekräftigt wird)
    b) Intex niedirg: min. 0, wenn die Aufgabe schwierig ist (bzw. das Item abgelehnt wird)
    –> “Leichtigkeitsindex”
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Itemschwierigkeit bei dichotomen Aufgaben

A
  1. Definition Itemschwirigkeit bei dichotomen Aufgaben: Anzahl aller, die das Item richtig beantwortet aben geteilt durch die Anzahl aller Teilnehmenden, dann multipliziert durch 100
  2. Interpretation:
    a) Hoher Schwirigkeitsindex = niedrige Schwierigkeit (leichtes Item)
    b) niedriger Schwierigkeitsindex = hohe Schwierigkeit (schweres item)
    für beispiel s F. 26
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Itemschwirigkeit bei der Messung maximalen Verhaltens (dichotome Aufgaben)

A
  1. Power-Tests:
    a) Definition: Leistungstests ohne Zeitbeschränkung oder ohne Zeitdruck –> Niveautests
    b) Itemschwirigkeit: Falschantworten und ausgelassene Antworten (übersprungene) werden gleich behandelt –> Formel bleibt gleich s. F. 27
  2. Speed- Tests:
    a) Definition: Leistungstests mit Zeitbeschränkung
    b) Itemschwierigkeit: unbearbeitete Antworten (nicht geschafft aufgrund der Zeitbeschränkung) werden korrigiert berücksichtigt
    –> bei der Berechnung des Schwierigkeitsindex werden unbearbeitete Items ausgelassen: nb = richtige + flasche + ausgelassene Items
    s. F. 28
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Itemschwierigkeit bei dichotomen Aufgaben: Korrektur für Ratewahrscheinlichkeit

A
  1. items können durch Raten gelöst werden –> kann Testergebnis verfälschen
  2. Prinzipiell müsste man also für die Ratewahrscheinlichkeit korrigieren, dadurch wird der Schwierigkeitsindex kleiner (Items werden schwieriger)
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Itemschwierigkeit bei der Messung typischen Verhaltens - Antwortskala beginnt bei 0

A
  1. Anwendung:
    a) bei dichotomen Antworten wie bei Powertests
    b) bei emtrischen Daten
  2. Berechnung: bei metrischen Daten wird der Schwirigkeitsindex Pi für intervallskalierte Stufen k des Items i von 0 bis k -1 berechnet (Antwortskala). Durch Teilung der Spaltensummen durch die maximale Punktsumme
  3. Formel: Spaltensumme / ((Anzahl der Probanten mal (maximale Antwort -1)) * 100
    –> Achtung formel gilt nur, wenn Antwortskala von 0-k geht!
    s. Beispiel und Formel F. 31
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Itemschwierigkeit bei der Messung typischen Verhaltens - Antwortskala beginnt nicht bei 0

A
  1. Änderung: Im Nenner muss nun der minimal errechbare Wert von dem maxinal erreichbaren Wert abgezogen werden
    –> Achtung: es muss von jeder Probant*in der minimale Wert abgezogen werden (im Zähler)
  2. Formel: (Spaltensumme minus minimale Antowrt für das Items für jeden Probanten) / ((Anzahl aller Probanten * (max. Antwort - min. Antwort)) * 100

s. F. 32

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Itemschwirigkeit bei der Messung typischen Verhaltens - Merke

A
  1. Welche Formel verwenden: ist abhängig von der Antwortskala:
    a) Dichotom oder intervallskaliert
    b) Niedrigster Wert 0 oder anderer Wert
  2. Itemschwirigkeit:
    a) ist immer abhängig von der untersuchen Stichprobe
    b) Höchste Differenzierung für typisches Verhalten bei P1 = 50
    c) Für eine Differenzierung auf in den Extremen ist eine breite Streuung von Items unterschiedlicher Schwierigkeit anzustreben
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Testevaluation: Itemvarianz - Definition

A
  1. Differenzierungsfähigkeit eines Items hinsichtlich der untersuchten Stichprobe
  2. Itemvarianz bei dichotomen Items: ist das Produkt der Wahrscheinlichkeiten, das Item zu lösen (bejahren) und nicht zu lösen (verneinen), und hängt direkt mit der Schwirigkeitsindex (pi) zusammen
    s. F. 36
17
Q

Testevaluation: Itemvarianz und Itemschwierigkeit

A
  1. Items mit mittlerer Schwierigkeit differenzieren viele Probant*innen
  2. Items mit hoher oder niedriger Schwierigkeit differenzieren wenige Probant*innen

–> Zusammenhang zwischen Itemschwierigkeit und Varianz ist kurvilinear (quadratisch)
–> Items mit mittlerer Schwierigkeit liefern die höchste Differenzierungsfähigkeit und damit die größte Varianz:
Var(xi) = 0.25 bei Pi= 50

s. F. 37

18
Q

Itenvarianz bei intervallskalierten Items

A
  1. Die itemvarianz legt die Differenzierungfähigkeit eines Items hinsichtlich der untersuchten Stichprobe fest
    –> Formel nicht klausurrelevant
19
Q

Testevaluation: Itemtrennschärfe: Definition, Aussagekraft & Vorraussetzung

A
  1. Definition: Ist die Korrelation zwischen Itemswert mit einem Testwert, der aus den übrigen Items des Tests gebildet wird (Item-Test-Korrelation) = rit
    r = Korrelationskoeffizient, i = Item, t = Test
  2. Aussagekraft: Wie prototypisch ist ein Item für eine Skala/ wie gut repräsentiert es die Gesamtskala?
  3. Vorraussetzung: Alle Items messen inhaltlich dasselbe Merkmal ( = Itemhomogenität)
20
Q

Testevaluation: Itemtrennschäfte - Berechnung

A
  1. Testwert: Der Testwert eines Probanten wird üblicherweise als Zeilensumme sämtlicher Itemwerte des Probanten gebildet (z.B.: Itemwerte: Item (I) 1 = 5, I2 = 3, I3 = 4, Testwert = 5 + 3+ 4 = 12)
  2. “part-whole Korrektur”:
    a) Zweck: Um die Trennschäfe nicht zu überschätzen
    b) Berechnung: die Zeilensumme wird ohne das betreffende Item gebildet, weil das betreffende Item innerhalb des Skalenwerts sonst mit in die Korrelation eingeht (Trennschäfe wird überschätzt) (im Beispiel: part-whole Korrektur für I2= 5 + 4 = 9)
    s. F. 41
21
Q

Interpretation der Trennschäfe

A
  1. Wertebereich: Kann Werte zwischen -1 und 1 annehmen (=Korrelationskoeffizient)
    a) rit –> 0: Item differenziert gegenüber dem Gesamttest nicht gut und ist damit ein ungeeigneter Indikator des Gesamttestwerts
    b) rit –> 1: Ite ist homogen gegenüber dem Gesattest. Aber hohe Werte nicht immer gut –> ist Item redundant?
    c) rit –> -1: Item ist invers homogen gegenüber dem Gesamttest ( –> bei negativem Zusammenhang Item ggf. falsch kodert / negativ formuliert?)
  2. Regel:
    a) rit > 0.4: angemessene bis ausgezeichnete Trennschärfe je nach Homogenität bzw. Heterogenität des Konstruktes
    b) rit zwischen 0.2 und 0.4: Grenzbereich: Item sollt entwerden ausgeschlossen oder revidert werden
    c) rit < 0.2: Item sollte ausgeschlossen werden
22
Q

Testevaluation: Kriterien der Itemselektion

A
  1. Berüchsichtigt werden müssen:
    a) Verteilung
    b) Schwierigkeit
    c) Varianz
    d) Trennschäfe
    gleichermaßen
  2. Idealerweise: differenziert ein Test über den gesamten SChwierigkeitsbereich ( 5 =< Pi <= 95):
    a) Items mit mittlerer Schwierigkeit differenzieren gut zwischen Merkmalsträgern mit hoher und niedriger Merkmalsausprägung (große Itemvarianz) am besten
    b) Zur Erfassung extremer Merkmalsausprägungen sind Items mit hoher oder niedriger Schwierigkeit (geringe Itemvarianz) auszuwählen
    c) jedes Item sollte aber varianz aufweisen (differenzierungfähig sein)
  3. Trennschärfe: Grundsätzlich sollte Items über eine gue Trennschärfe verfügen rit zwischen 0.4 und 0.7 und Items ohne Trennschärfe sollte ausgeschlossen werden (rit –> 0)