Testevaluation Flashcards
Testevaluation - Einordnung in die Schritte der Testkonstruktion
Schritt 3 (Verteilungs-, Items- & Skalenanalyse) und Schritt 4 (Itemrevision & -selektion)
Testevaluation: Verteilung - Normalverteilung
1.Gausche Glockenkurve, Symmetrische Verteilung
2. Mehrheit der Werte liegt um den Mittelpunkt der Skala
3. Vorraussetzung für viele statistische Verfahren
s F. 11
Testevaluation: Verteilung - Schiefe
- Definition: Maß für die Symmetrie/ Asymmetrie eines Items
- Einordnung:
a) rechtsschief: linkssteile Verteilung - Schiefe > 0
b) linksschief: rechtssteile Verteilung - Schiefe < 0
c) normalverteilung: symmetrische Verteilung - Schiefe = 0 - Effekte:
a) Bodeneffet: Mittelwerte sind sehr niedrig, kaum jemand “löst” das Items, differenziert schlecht im unteren Bereich
b) Deckeneffekt: Mittelwert sehr hoch, fast alle “lösen” das Item, differenziert schlecht im oberen Bereich
Testevaluation: Verteilung - Kurtosis (Exzess)
- Definition: gibt auskunft über die Breit- bzw. Schmalgipfligkeit
- Wertebedeutung:
a) Wert > 0: spricht für eine schmalgipflige (spitze) Verteilung –> Leptokurtisch
b) Wette < 0: spricht für eine breitgipflige (flache) Verteilung –> platykurtisch
c) Werte = 0 keine Abweichung von Normalverteilung –> Mesokurtisch
Testevaluation: Verteilung - Gipfligkeit (Modalität)
Ein- vs. mehrgipflige Verteilung:
Normalerweise eingipflig erwünscht (siehe Normalverteilung)
Wenn zweigipflig –> Item ggf. mehrdeutig formuliert?
biomodale Verteilung = zweigipflig
Ursachen für Abweichungen von einer Normalverteilung
- Antwortverteilun ist Zweipigflig/Mehrgipflig:
Mögliche Ursachen:
a) Item war polarisierend
b) Item war wiedersprüchlich/mehrdeutig formuliert
c) Item hat mehrere Dinge gleichzeitg abgefragt - Antwort ist schief:
Mögliche Ursachen:
a) Items war zu leicht (linksschief)
b) Item war zu schwer (rechtsschief) - Weitere möglichkeiten für Abweichungen von Normalverteilung:
a) Heterogene Stichproben: zwei Unterstichproben, die zusammen eine Mischverteilung bilden
b) das Merkmal ist nicht normalverteilt
–> Übung zur Verteilungen s. F. 16-20
Dekriptive Daten: Mittelwerte und Streung
- Mittelwert: zentrale Tendenz einer Verteilung. Alle Werte addiert und durch die Anzahl der Werte geteilt
- Streuung: Verteilung aller Werte um den Mittelwert. Häufig berechnet als Standardabweichung (SD):
a) Geringe SD: Die Werte liegen in der Regel nach am Mittelwert
b) Hohe SD: Die Werte liegen in der Regel weit vom Mittelwert entfernt
Deskriptive Daten und Verteilungen
- Hohe SD spricht für große Streuung der Werte abseits des Mittelwerts (z.B.: bimodale Verteilung)
- Standardabweichung nahe 0 spricht für wenig bis keine Streuung abseits des Mittelwerts (z.B.: Spitze Verteilung)
- Sehr hohe bzw. sehr niedrige Mittelwert spricht für Decken bzw. Bodeneffekt (z.B.: schiefe Verteilung)
Testevaluation: Itemschwierigkeit - Schwirigkeitsindex
- Ziel: Jedes Item sollte zwischen Merkmalstragenden differenzieren können (z.B.: gelöst vs. nicht gelöst, bejahen vs. verneinen, etc.)
- Definition: Schwirigkeitsindex (auch Popularitätsindex) Pi stellt den prozentualen Anteil richtiger (bzw. zustimmender) Antworten für das Item i in einer Stichprobe der Größe n dar
- Interpretation:
a) Index hoch: max 100, wenn die Aufgabe leicht ist (bzw. im Sinne eines Merkmales bekräftigt wird)
b) Intex niedirg: min. 0, wenn die Aufgabe schwierig ist (bzw. das Item abgelehnt wird)
–> “Leichtigkeitsindex”
Itemschwierigkeit bei dichotomen Aufgaben
- Definition Itemschwirigkeit bei dichotomen Aufgaben: Anzahl aller, die das Item richtig beantwortet aben geteilt durch die Anzahl aller Teilnehmenden, dann multipliziert durch 100
- Interpretation:
a) Hoher Schwirigkeitsindex = niedrige Schwierigkeit (leichtes Item)
b) niedriger Schwierigkeitsindex = hohe Schwierigkeit (schweres item)
für beispiel s F. 26
Itemschwirigkeit bei der Messung maximalen Verhaltens (dichotome Aufgaben)
- Power-Tests:
a) Definition: Leistungstests ohne Zeitbeschränkung oder ohne Zeitdruck –> Niveautests
b) Itemschwirigkeit: Falschantworten und ausgelassene Antworten (übersprungene) werden gleich behandelt –> Formel bleibt gleich s. F. 27 - Speed- Tests:
a) Definition: Leistungstests mit Zeitbeschränkung
b) Itemschwierigkeit: unbearbeitete Antworten (nicht geschafft aufgrund der Zeitbeschränkung) werden korrigiert berücksichtigt
–> bei der Berechnung des Schwierigkeitsindex werden unbearbeitete Items ausgelassen: nb = richtige + flasche + ausgelassene Items
s. F. 28
Itemschwierigkeit bei dichotomen Aufgaben: Korrektur für Ratewahrscheinlichkeit
- items können durch Raten gelöst werden –> kann Testergebnis verfälschen
- Prinzipiell müsste man also für die Ratewahrscheinlichkeit korrigieren, dadurch wird der Schwierigkeitsindex kleiner (Items werden schwieriger)
Itemschwierigkeit bei der Messung typischen Verhaltens - Antwortskala beginnt bei 0
- Anwendung:
a) bei dichotomen Antworten wie bei Powertests
b) bei emtrischen Daten - Berechnung: bei metrischen Daten wird der Schwirigkeitsindex Pi für intervallskalierte Stufen k des Items i von 0 bis k -1 berechnet (Antwortskala). Durch Teilung der Spaltensummen durch die maximale Punktsumme
- Formel: Spaltensumme / ((Anzahl der Probanten mal (maximale Antwort -1)) * 100
–> Achtung formel gilt nur, wenn Antwortskala von 0-k geht!
s. Beispiel und Formel F. 31
Itemschwierigkeit bei der Messung typischen Verhaltens - Antwortskala beginnt nicht bei 0
- Änderung: Im Nenner muss nun der minimal errechbare Wert von dem maxinal erreichbaren Wert abgezogen werden
–> Achtung: es muss von jeder Probant*in der minimale Wert abgezogen werden (im Zähler) - Formel: (Spaltensumme minus minimale Antowrt für das Items für jeden Probanten) / ((Anzahl aller Probanten * (max. Antwort - min. Antwort)) * 100
s. F. 32
Itemschwirigkeit bei der Messung typischen Verhaltens - Merke
- Welche Formel verwenden: ist abhängig von der Antwortskala:
a) Dichotom oder intervallskaliert
b) Niedrigster Wert 0 oder anderer Wert - Itemschwirigkeit:
a) ist immer abhängig von der untersuchen Stichprobe
b) Höchste Differenzierung für typisches Verhalten bei P1 = 50
c) Für eine Differenzierung auf in den Extremen ist eine breite Streuung von Items unterschiedlicher Schwierigkeit anzustreben