Testevaluation Flashcards by Ja Nie

Testevaluation - Einordnung in die Schritte der Testkonstruktion

Schritt 3 (Verteilungs-, Items- & Skalenanalyse) und Schritt 4 (Itemrevision & -selektion)

How well did you know this?

Not at all

Perfectly

Testevaluation: Verteilung - Normalverteilung

1.Gausche Glockenkurve, Symmetrische Verteilung
2. Mehrheit der Werte liegt um den Mittelpunkt der Skala
3. Vorraussetzung für viele statistische Verfahren
s F. 11

How well did you know this?

Not at all

Perfectly

Testevaluation: Verteilung - Schiefe: Definition

Maß für die Symmetrie/ Asymmetrie eines Items

How well did you know this?

Not at all

Perfectly

Testevaluation: Verteilung - Kurtosis (Exzess): Definition und Wertebedeutung

Definition: gibt Auskunft über die Breit- bzw. Schmalgipfligkeit
Wertebedeutung:
a) Wert > 0: spricht für eine schmalgipflige (spitze) Verteilung –> Leptokurtisch
b) Wette < 0: spricht für eine breitgipflige (flache) Verteilung –> platykurtisch
c) Werte = 0 keine Abweichung von Normalverteilung –> Mesokurtisch

How well did you know this?

Not at all

Perfectly

Testevaluation: Verteilung - Gipfligkeit (Modalität)

Ein- vs. mehrgipflige Verteilung:

Eingiflig: Normalerweise eingipflig erwünscht (siehe Normalverteilung)
Zweigipflig (bimodale Verteilung): Wenn zweigipflig –> Item ggf. mehrdeutig formuliert?

How well did you know this?

Not at all

Perfectly

Ursachen für Abweichungen von einer Normalverteilung

Antwortverteilung ist Zweipigflig/Mehrgipflig:
Mögliche Ursachen
Antwort ist schief
Weitere möglichkeiten für Abweichungen von Normalverteilung
–> Übung zur Verteilungen s. F. 16-20

How well did you know this?

Not at all

Perfectly

Dekriptive Daten: Mittelwerte - Definition und Berechnung

Definition: zentrale Tendenz einer Verteilung.
Berechnung: Alle Werte addiert und durch die Anzahl der Werte geteilt

How well did you know this?

Not at all

Perfectly

Deskriptive Daten und Verteilungen: Merksätze - Hohe SD spricht für…

… große Streuung der Werte abseits des Mittelwerts (z.B.: bimodale Verteilung)

How well did you know this?

Not at all

Perfectly

Testevaluation: Itemschwierigkeit - Schwirigkeitsindex (Populationsindex): Ziel

Jedes Item sollte zwischen Merkmalstragenden differenzieren können (z.B.: gelöst vs. nicht gelöst, bejahen vs. verneinen, etc.)

How well did you know this?

Not at all

Perfectly

Itemschwierigkeit bei dichotomen Aufgaben: Berechnung und Interpretation

Definition Itemschwirigkeit bei dichotomen Aufgaben: Anzahl aller, die das Item richtig beantwortet aben geteilt durch die Anzahl aller Teilnehmenden, dann multipliziert durch 100
Interpretation:
a) Hoher Schwirigkeitsindex = niedrige Schwierigkeit (leichtes Item)
b) niedriger Schwierigkeitsindex = hohe Schwierigkeit (schweres item)
für Beispiel s F. 26

How well did you know this?

Not at all

Perfectly

Itemschwirigkeit bei der Messung maximalen Verhaltens (dichotome Aufgaben): Bei Power-Tests

Definition - Power-Test: Leistungstests ohne Zeitbeschränkung oder ohne Zeitdruck –> Niveautests
Itemschwirigkeit: Falschantworten und ausgelassene Antworten (übersprungene) werden gleich behandelt –> Formel bleibt gleich s. F. 27

How well did you know this?

Not at all

Perfectly

Itemschwierigkeit bei dichotomen Aufgaben: Korrektur für Ratewahrscheinlichkeit

items können durch Raten gelöst werden –> kann Testergebnis verfälschen
Prinzipiell müsste man also für die Ratewahrscheinlichkeit korrigieren, dadurch wird der Schwierigkeitsindex kleiner (Items werden schwieriger)

How well did you know this?

Not at all

Perfectly

Itemschwierigkeit bei der Messung typischen Verhaltens - Antwortskala beginnt bei 0

Anwendung:
bei metrischen Daten
Berechnung: bei metrischen Daten wird der Schwirigkeitsindex Pi für intervallskalierte Stufen k des Items i von 0 bis k -1 berechnet (Antwortskala). Durch Teilung der Spaltensummen durch die maximale Punktsumme
Formel: Spaltensumme / ((Anzahl der Probanten mal (maximale Antwort -1)) * 100
–> Achtung Formel gilt nur, wenn Antwortskala von 0-k geht!
s. Beispiel und Formel F. 31

How well did you know this?

Not at all

Perfectly

Itemschwierigkeit bei der Messung typischen Verhaltens - Antwortskala beginnt nicht bei 0

Änderung: Im Nenner muss nun der minimal errechbare Wert von dem maxinal erreichbaren Wert abgezogen werden
–> Achtung: es muss von jeder Probant*in der minimale Wert abgezogen werden (im Zähler)
Formel: (Spaltensumme minus minimale Antowrt für das Items für jeden Probanten) / ((Anzahl aller Probanten * (max. Antwort - min. Antwort)) * 100

s. F. 32

How well did you know this?

Not at all

Perfectly

Itemschwirigkeit bei der Messung typischen Verhaltens - Merke

Welche Formel verwenden: ist abhängig von der Antwortskala:
a) Dichotom oder intervallskaliert
b) Niedrigster Wert 0 oder anderer Wert
Itemschwirigkeit:
a) ist immer abhängig von der untersuchen Stichprobe
b) Höchste Differenzierung für typisches Verhalten bei P1 = 50
c) Für eine Differenzierung auf in den Extremen ist eine breite Streuung von Items unterschiedlicher Schwierigkeit anzustreben

How well did you know this?

Not at all

Perfectly

Testevaluation: Itemvarianz - Definition

Study These Flashcards

Differenzierungsfähigkeit eines Items hinsichtlich der untersuchten Stichprobe: Wie stark unterscheiden sich die Antworten auf ein Item zwischen verschiedenen Personen?

Testevaluation: Itemvarianz und Itemschwierigkeit

Study These Flashcards

Items mit mittlerer Schwierigkeit differenzieren viele Probant*innen
Items mit hoher oder niedriger Schwierigkeit differenzieren wenige Probant*innen
Zusammenhang zwischen Itemschwierigkeit und Varianz ist kurvilinear (quadratisch)
Items mit mittlerer Schwierigkeit liefern die höchste Differenzierungsfähigkeit und damit die größte Varianz:
Var(xi) = 0.25 bei Pi= 50

s. F. 37

Itenvarianz bei intervallskalierten Items

Study These Flashcards

Die itemvarianz legt die Differenzierungfähigkeit eines Items hinsichtlich der untersuchten Stichprobe fest
–> Formel nicht klausurrelevant

Testevaluation: Itemtrennschärfe: Definition, Aussagekraft & Vorraussetzung

Study These Flashcards

Definition: Ist die Korrelation zwischen Itemswert mit einem Testwert, der aus den übrigen Items des Tests gebildet wird (Item-Test-Korrelation) = rit
r = Korrelationskoeffizient, i = Item, t = Test
Aussagekraft: Wie prototypisch ist ein Item für eine Skala/ wie gut repräsentiert es die Gesamtskala?
Vorraussetzung: Alle Items messen inhaltlich dasselbe Merkmal ( = Itemhomogenität)

Testevaluation: Itemtrennschäfte - Berechnung

Study These Flashcards

Testwert: Der Testwert eines Probanten wird üblicherweise als Zeilensumme sämtlicher Itemwerte des Probanten gebildet (z.B.: Itemwerte: Item (I) 1 = 5, I2 = 3, I3 = 4, Testwert = 5 + 3+ 4 = 12)
“part-whole Korrektur”:
a) Zweck: Um die Trennschäfe nicht zu überschätzen
b) Berechnung: die Zeilensumme wird ohne das betreffende Item gebildet, weil das betreffende Item innerhalb des Skalenwerts sonst mit in die Korrelation eingeht (Trennschäfe wird überschätzt) (im Beispiel: part-whole Korrektur für I2= 5 + 4 = 9)
s. F. 41

Interpretation der Trennschäfe: Was bedeutet ein WErt von 1, 0 & -1?

Study These Flashcards

Wertebereich: Kann Werte zwischen -1 und 1 annehmen (=Korrelationskoeffizient)
1. rit –> 0: Item differenziert gegenüber dem Gesamttest nicht gut und ist damit ein ungeeigneter Indikator des Gesamttestwerts

rit –> 1: Ite ist homogen gegenüber dem Gesamttest. Aber hohe Werte nicht immer gut –> ist Item redundant?
rit –> -1: Item ist invers homogen gegenüber dem Gesamttest ( –> bei negativem Zusammenhang Item ggf. falsch kodert / negativ formuliert?)

Testevaluation: Kriterien der Itemselektion: Was muss berücksichtigt werden?

Study These Flashcards

Verteilung
Schwierigkeit
Varianz
Trennschäfe
gleichermaßen

Testevaluation: Verteilung - Schiefe - Arten der Schiefe

Study These Flashcards

rechtsschief: linkssteile Verteilung - Schiefe > 0
linksschief: rechtssteile Verteilung - Schiefe < 0
normalverteilung: symmetrische Verteilung - Schiefe = 0

Testevaluation: Verteilung - Schiefe - Effekte

Study These Flashcards

Bodeneffet: Mittelwerte sind sehr niedrig, kaum jemand “löst” das Items, differenziert schlecht im unteren Bereich
Deckeneffekt: Mittelwert sehr hoch, fast alle “lösen” das Item, differenziert schlecht im oberen Bereich

Ursachen für Abweichungen von einer Normalverteilung: 1. Antwortverteilung ist zweipipflig/ Mehrgipflig - mögliche Ursachen

1. Item war polarisierend 2. Item war wiedersprüchlich/mehrdeutig formuliert 3. Item hat mehrere Dinge gleichzeitg abgefragt

Ursachen für Abweichungen von einer Normalverteilung: 2. Antwort ist Schief - mögliche Ursachen

1. Items war zu leicht (linksschief) 2. Item war zu schwer (rechtsschief)

Ursachen für Abweichungen von einer Normalverteilung: 3. Weitere Möglichkeiten für Abweichungen von einer Normalverteilung

1. Heterogene Stichproben: zwei Unterstichproben, die zusammen eine Mischverteilung bilden 2. das Merkmal ist nicht normalverteilt --> Übung zur Verteilungen s. F. 16-20

Dekriptive Daten: Streuung- Definition und Interpretation

1. Definition: Streuung= Verteilung aller Werte um den Mittelwert. Häufig berechnet als Standardabweichung (SD) 2. Interpretation: a) Geringe SD: Die Werte liegen in der Regel nach am Mittelwert b) Hohe SD: Die Werte liegen in der Regel weit vom Mittelwert entfernt s.F. 21

Deskriptive Daten und Verteilungen: Merksätze: SD nahe 0 spricht für...

...wenig bis keine Streuung abseits des Mittelwerts (z.B.: Spitze Verteilung)

Testevaluation: Itemschwierigkeit: Schwierigkeitsindex (Populationsindex):Definition

Schwirigkeitsindex (auch Popularitätsindex) Pi stellt den prozentualen Anteil richtiger (bzw. zustimmender) Antworten für das Item i in einer Stichprobe der Größe n dar

Deskriptive Daten und Verteilungen: Merksätze: sehr hohe bzw. sehr niedrige Mittelwerte spricht für...

...Decken bzw. Bodeneffekt (z.B.: schiefe Verteilung)

Testevaluation: Itemschwierigkeit: Schwierigkeitsindex (Populationsindex): Interpretation

1. Index hoch: max 100, wenn die Aufgabe leicht ist (bzw. im Sinne eines Merkmales bekräftigt wird) 2. Intex niedirg: min. 0, wenn die Aufgabe schwierig ist (bzw. das Item abgelehnt wird) --> "Leichtigkeitsindex"

Itemschwierigkeit bei der Messung maximalen Verhaltens (dichotome Aufgaben): bei Speed-Tests

1. Definition: Leistungstests mit Zeitbeschränkung 2. Itemschwierigkeit: unbearbeitete Antworten (nicht geschafft aufgrund der Zeitbeschränkung) werden korrigiert berücksichtigt --> bei der Berechnung des Schwierigkeitsindex werden unbearbeitete Items ausgelassen: nb = richtige + flasche + ausgelassene Items s. F. 28

Testevaluation: Itemvarianz bei dichotomen Items

ist das Produkt der Wahrscheinlichkeiten, das Item zu lösen (bejahren) und nicht zu lösen (verneinen), und hängt direkt mit der Schwirigkeitsindex (pi) zusammen s. F. 36

Kriterien der Itemsselektion: Schwierigkeitsbereiche der Items

1. Idealerweise: differenziert ein Test über den gesamten Schwierigkeitsbereich ( 5 =< Pi <= 95): 2. Mittlere Schwierigkeit: Items mit mittlerer Schwierigkeit differenzieren gut zwischen Merkmalsträgern mit hoher und niedriger Merkmalsausprägung (große Itemvarianz) am besten 3. extreme Merkmalsausprägungen: Zur Erfassung extremer Merkmalsausprägungen sind Items mit hoher oder niedriger Schwierigkeit (geringe Itemvarianz) auszuwählen 4.Varianz: jedes Item sollte aber Varianz aufweisen (differenzierungfähig sein)

Kritieren der Itemselektion: Trennschärfe

1. Grundsätzlich sollte Items über eine gue Trennschärfe verfügen rit zwischen 0.4 und 0.7 2. Items ohne Trennschärfe sollte ausgeschlossen werden (rit --> 0)

Trennschärfe: Orientierungsregeln

1. rit > 0.4: angemessene bis ausgezeichnete Trennschärfe je nach Homogenität bzw. Heterogenität des Konstruktes 2. rit zwischen 0.2 und 0.4: Grenzbereich: Item sollt entweder ausgeschlossen oder revidert werden 3. rit < 0.2: Item sollte ausgeschlossen werden

Testevaluation Flashcards

(37 cards)