07 Erstellung eines Testentwurfes, Itemformate Flashcards

1
Q

In welche Schritte lässt sich die Erstellung eines Testentwurfes gliedern?

A
  1. Festlegen der Art der Indikatoren (subjektiv oder objektiv)
  2. Festlegen der Zielgruppe
  3. Testziel und Entscheidung für eine Konstruktionsstrategie
  4. Indikatorgenerierung und Konstrukteingrenzung
  5. Erstellen einer Definition des Messgegenstandes
  6. Wahl des Itemformats
  7. Richtlinien zur Itemformulierung
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Was geschieht beim Festlegen der Art der Indikatoren?

A

Es wird entschieden, ob sie objektiv oder subjektiv sein sollen.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Bestehen T-, Q- und und L-Daten meist aus objektiven oder subjektiven Indikatoren?

A
  • T-Daten: meist aus objektiven Indikatoren
  • Q-Daten: meist aus subjektiven Indikatoren
  • L-Daten: fast immer objektiv
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Was geschieht beim Festlegen der Zielgruppe?

A

Definition der Zielgruppe und Beschreibung der Merkmale, die für die Testbearbeitung relevant sein könnten, z.B:
* Alter & Bildung
* Erlebens- und Verhaltensspektrum
* Sprachbeherrschung
* Testfairness

-> es ist wichtig, dass die Testitems auf die Zielgruppe abgestimmt sind, sonst erfasst der Test womöglich keine unterschiede (z.B. werden Bewerber auf eine Stelle im Nachtclub vermutlich alle Extrovertiert sein und somit auf ein Item “ich bin gerne unter Menschen” zustimmen. Ein solches Item macht entsprechend keinen Sinn.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Was ist im Bezug auf Alter und Bildung der Zielgruppe für die Itemformulierung zu beachten?

A

Itemschwierigkeit

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Wie kann die Item- und Testfairness überprüft werden?

A

Mit dem Rasch-Modell

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Was ist das Rasch-Modell?

A

Es bietet Möglichkeiten, die Itemschwierigkeiten von unterschiedlichen Gruppen zu vergleichen. (Schwierigkeitsunterschiede = mangelnde Testfairness)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Für welche drei Testziele helfen, sich für eine Konstruktionsmethode zu entscheiden?

A
  • Bestimmung der Eigenschafts- oder Fähigkeitsausprägung
  • Gruppentrennung
  • Erfassung von Wissen
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Was ist bei Eigenschafts- und Fähigkeitstests zu beachten?

A
  • Items müssen Valide sein
  • Items dürfen nur ein Konstrukt erfassen (nicht mehrere)
  • Items müssen miteinander korrelieren
  • reflektive Indikatoren
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Was ist bei Tests zur Gruppentrennung zu beachten?

A
  • Items müssen auch tatsächlich Unterschiede aufzeigen
  • Items können, müssen aber nicht korrelieren
  • formative Indikatoren
  • Inhaltsvalidität ist wichtig
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Was ist bei Wissenstests zu beachten?

A
  • inhaltsvalidität steht im Vordergrund
  • reflektive oder formative Indikatoren möglich
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Welche Methoden der Testkonstruktion gibt es?

A
  • Rationale Testkonstruktion
  • Externale Testkonstruktion
  • Induktive Testkonstruktion
  • Prototypenansatz
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Was ist die rationale (od. deduktive) Methode der Testkonstruktion?

A
  • Ableitung von Items aus einer Theorie heraus
  • eignet sich, wenn Theorie gut ausgearbeitet / Konstrukt gut definiert ist
  • je besser die Definition, desto einfacher die Itemgenerierung

(z.B. IST 2000 zum Berliner Intelligenzstrukturmodell)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Was ist die Externale Methode der Testkonstruktion?

A
  • kriteriumsorientierte Testkonstruktion
  • geeignet zur Gruppentrennung
  • zuerst Sammlung vieler Items, danach aussortiert aufgrund empirischer Untersuchungen

(z.N. Integritätstests, MMPI)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Was ist die Induktive Methode der Testkonstruktion?

A
  • grosse Itemmenge
  • Auswertung mittels exploratorischer Faktorenanalyse um Gesamtdimension der Items zu finden
  • daraus Ableitung einer Theorie

-> wohl am häufigsten (zusammen mit der deduktiven)

(z.B. NEO-PI-R zum Fünf-Faktoren-Modell)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Was ist der Prototypenanasatz?

A
  • Basier auf Idee, dass Menschen für jede Eigenschaft eine prototypische Vorstellung haben.
  • Vorstellungen verschiedener Menschen werden gesammelt, um Items zu generieren.
  • Häufig bei Persönlichkeitsfragebogen, kaum bei Leistungstest

(neuste Theorie, z.B. Personality Research Form PRF)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
17
Q

Was ist der Act Frequency Approach?

A
  • im Zusammenhang mit dem Prototypenansatz
  • Probanden müssen an eine Person mit einer vorgegebenen Eigenschaft denken und dann ihre Verhaltensweisen beschreiben
  • Daraus werden Items generiert.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
18
Q

In welchen drei Phasen erfolgt der Act Frequency approach?

A
  1. Generierungsphase: Mehrere Personen denken an drei Personen, die aus ihrer Sicht prototypisch für das Merkmal sind und notieren mehrere Handlungsweisen, die vorhanden sind.
  2. Prototypizitäts-Rating: alle Handlungsweisen werden gesammelt und zur Beurteilung vorgelegt (wie prototypisch sind die einzelnen verhaltensweisen)
  3. Selbsteinschätzung: Personen schätzen sich selbst ein und die fremdeinschätzungen werden damit verglichen.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
19
Q

Welches ist die beste Methode der Testkonstruktion?

A
  • Keine, es gibt höchstens ökonomische Vorteile
  • Eine Kombination mehrerer Methoden kann sinnvoll sein.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
20
Q

Welche Methoden zur Eingrenzung des Konstrukts/Merkmals gibt es?

A
  • Top-Down-Techniken (Zuerst Konstrukt, dann Indikatoren)
  • Bottom-Up-Techniken (Zuerst indikatoren, dann Konstrukt)
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
21
Q

Welche Top-Down-Techniken gibt es?

A
  • Erfahrungsgeleitet-intuitiver ansatz
  • Sammlung und Analyse von Definitionen/Literaturrecherche
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
22
Q

Welche Bottom-Up-Techniken gibt es?

A
  • Analytisch-empirischer Ansatz
  • Personenbezogen-empirischer Ansatz
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
23
Q

Was ist der Erfahrungsgeleitete-intuitive Ansatz?

A
  • Experten nutzen ihr Wissen, um das Konstrukt zu erfassen
  • Sie definieren Indikatoren, um das Konstrukt zu messen
  • Gut, mehrere Experten dazu zu ziehen
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
24
Q

Was ist der Ansatz der Sammlung und Analyse von Definitionen/Literaturrecherche?

A
  • Suche nach Definitionen des Konstruktes in Literatur oder bereits vorhandenen Testdatenbanken
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
25
Q

Was ist der analytisch-empirische Ansatz?

A
  • Elemente des Messgegenstandes werden durch Verwendung standardisierter Beobachtungs- und Befragungsinstrumente indentifiziert
  • Vor allem im Bereich der Arbeits-, Betriebs und Organisationspsychologie genutzt
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
26
Q

Welche Methode wird auch zum analytisch empirischen Ansatz gezählt und warum?

A
  • Die Critical Incident Technique (CIT)
  • berücksichtigt Situationen durch Erinnerung von Experten
  • Kann auch als Bottom-Up-Technik bezeichnet werden

-> weil sie sich besser eignet ausserhalb der Arbeits- und Organisationspsychologie (mehr Gestaltungsspielraum, weniger aufwändig)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
27
Q

Was ist die Personenbezogen-empirische Methode?

A
  • empirische Zusammenhänge zwischen Personenmerkmalen & Kriterien werden aus der Literatur genommen
  • Daraus wird auf zugrunde liegende Indikatoren geschlossen
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
28
Q

Welche Methode sollte man wählen, wenn man eine hohe kriteriumsvalidität anstrebt, die Itemhomogenität jedoch nicht ganz so relevant ist’

A

die Personenbezogen-empirische Methode

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
29
Q

Was ist das nomologische Netzwerk?

A
30
Q

Warum ist es wichtig, den Messgegenstand genau zu definieren?

A

Weil es viele verschiedene Definitionen gibt und je nach Definition ein ganz unterschiedlicher Test resultieren würde.

31
Q

Was gehört zum erstellen einer Definition eines Messgegenstandes?

A
  • Messgegenstand definieren
  • Andere Konstrukte im Zusammenhang benennen, evtl garfisch festhalten.
32
Q

Wo im nomologischen Netz sollten sich die Items befinden und warum?

A

Nur in der Mitte, dort wo das Konstrukt keine Überlappung zu anderen Konstrukten hat.

-> sonst gibt es Mehrdimensionale Konstrukte, was wir nicht wollen.

33
Q

Welche Vorteile hat die Bottom-Up-Methode (verhaltensbasiert)

A
  • sehr verständlich
  • Trennscharf
34
Q

Welche Nachteile hat die Bottom-up Methode?

A

Die Definiton des Konstruktes kann sehr breit ausfallen (wenn viele Verhaltensindikatoren gesammelt wurden)

35
Q

Welche zwei Antwortformate werden unterschieden?

A
  • gebunden
  • offen
36
Q

Welche gebundenen Antwortformate gibt es?

A
  • Ratingskala
  • Richtig-Falsch-Aufgabe
  • Zuordnungsaufgabe
  • Umordnungsaufgabe
  • ungewöhnliche Itemformate
37
Q

Welche offenen Antwortformate gibt es?

A
  • Ergänzungsaufgabe
  • Kurzaufsatz
38
Q

Welche Punkte sind bei der Konstruktion von Ratingskalen zu beachten?

A
  • Differenzierungsgrad der Items (drei-, vier-, fünf, sechs-, siebenstufig)
  • Polarität der Items (unipolar vs. bipolar -> zustimmung und ablehnung oder nur Stufen der Zustimmung)
  • Bennenung der Antwortalternativen (z.B. stimme zu, oder 1,2,3, oder Symbole)
  • Adjustierung der Itemschwierigkeit (z.B. von “Wie häufig hatten sie das Gefühl von Wertlosigkeit” zu “Wie häufig hatten sie das Gefühl, extrem wertlos zu sein” -> verschiebung der Polarisierung der Durchschnittsantwort)
39
Q

Was sind die Vorteile von Ratingskalen?

A
  • sehr differenzierte Informationen möglich
  • ökonomische Durchführung und Auswertung
  • Differenziertheit der Fragen kann Probanden/Untersuchungszweck angepasst werden
40
Q

Was sind die Nachteile von Ratingskalen?

A
  • Abstufungen werden subjektiv unterschiedlich aufgefasst
  • Auftreten von Antworttendenzen (Extremantworten vs. mittlere Urteile)
  • Neutrale Antwortkategorie kann Problematisch sein (da auch angekreuzt weil Frage unpassend oder Antwort verweigert), weglassen kann auch Problematisch sein, weil dann zu Antwort gezwungen -> Möglichkeit zur “Weiss nicht” Kategorie, welche aber bei der Auswertung Probleme bereiten kann
41
Q

Was sind die Vorteile von Richtig-Falsch-Aufgaben?

A
  • Kurze Bearbeitungs-, Auswertungs- und Lösungszeiten
  • Testinstruktion leicht zu verstehen
  • Items können von Probanden schnell/leicht beantwortet werden
42
Q

Was sind die Nachteile von Richtig-Falsch-Aufgaben?

A
  • Müssen sehr genau formuliert werden
  • Hoher Prozentsatz an Zufallslösungen möglich -> Problem bei Leistungstests
  • Informationen daraus sind wenig differenziert
  • Manchmal eine erhöhte Ja-Tendenz zu beobachten
43
Q

Was sind die Vorteile von Mehrfach-Wahlaufgaben?

A
  • Ökonomische Durchführung und Auswertung
  • Mehr Items verhindern Zufallsantworten
44
Q

Was sind Nachteile von Mehrfach-Wahlaufgaben?

A
  • Finden von Antwortalternativen evtl. schwierig
  • Nur Wiedererkennen von Wissen verlangt, nicht Reproduktion
  • Es gibt qualitativ unterschiedliche Lösungsstrategien
  • Antworten können Hinweise auf Lösung enthalten
  • Ratewahrscheinlichkeit hängt stark von der Qualität der Antwortalternativen ab
45
Q

Was sind die Vorteile von Zuordnungsaufgaben?

A
  • Ökonomische Durchführung und Auswertung
  • Zufällige Beantwortung ist unproblematisch
  • Eignet sich auch zur Überprüfung von Wissen
46
Q

Was sind die Nachteile von Zuordnungsaufgaben?

A
  • Finden von Antwortalternativen evtl. schwierig
  • Wiedererkennung statt Reproduktion von Wissen
47
Q

Was sind die Vorteile von Umordnungsaufgaben?

A
  • Kann bei Personen eingesetzt werden, die nicht lesen können
48
Q

Was sind die Nachteile von Umordnungsaufgaben?

A
  • Material muss (besonders in Gruppentestungen) in grossen Stückzahlen verfügbar sein
  • Itemformat ist nur für wenige spezifische Fragestellungen anwendbar
49
Q

Was sind allgemeine Probleme gebundener Itemformate?

A
  • Verfälschbarkeit (inkl. Soziale Erwünschtheit)
  • Antworttendenzen
  • Motivation
  • Reihenfolgeeffekte und logisch abhängige Items
  • Negative gepolte Items
50
Q

Welche zwei Arten von Verfälschung unterscheidet man?

A
  • Simulation (Vortäuschen von Verhalten oder Symptomen) -> erreichen hoher Testwerte
  • Dissimulation (Verschleiern von Verhalten oder Symptomen) -> Dummstellen
51
Q

Was sind die Auswirkungen von Faking?

A
  • leicht erhöhte Interne Konsistenz
  • kaum Auswirkung auf Reliabilität
  • Einfluss auf Konstruktvalidität nicht klar
  • kaum Einfluss auf Kriteriumsvalidität
52
Q

Wann werden Persönlichkeitsfragebogen am häufigsten verfälscht?

A

In Auswahlsituationen

53
Q

Welche Strategien gegen Verfälschung helfen?

A
  • Forced Choice Items (z.B. Auswahl eines vorgegebenen Antwortsatzes)
  • Fragebögen zur Sozialen Erwünschtheit (um zu sehen, wie stark jemand darauf reagiert und daher evtl. verfälscht)
  • Validitätsskalen (Aufgaben, die z.B. nur die soziale erwünschtheit messen)

ABER: all diese Methoden sind ebenfalls verfälschbar

54
Q

Welche Strategien gegen Verfälschung helfen nicht?

A
  • Aufforderung zu korrekter Testbearbeitung
  • Warnung, dass nicht korrektes Testbearbeiten erkannt wird
  • Zusicherung von Anonymität
55
Q

Was sind Reihenfolgeneffekte und logisch abhängige Items?

A
  • Wenn eine schwierige Frage früh kommt und eine Person dabei viel Zeit verliert, kann dies den Test verfälschen
  • Keine Antworten auf spätere Fragen in vorherigen Fragen
56
Q

Was ist bei negativ gepolten Items zu beachten?

A

Eher darauf verzichten, da sie verwirrend sein können und den Test verfälschen (z.B. weil negative Polung überlesen, wird, Frage nicht verstanden wird etc.)

(z.B. Ich bin nicht oft unglücklich)

57
Q

Was sind Vorteile von Ergänzungsaufgaben?

A
  • Zufallslösungen kaum möglich
  • Lösungsweg evtl. erkennbar -> qualitative Auswertung möglich
  • Möglichkeit zur Konstruktion komplexer Aufgaben
58
Q

Was sind die Nachteile von Ergänzungsaufgaben?

A
  • Nur Reproduktion von Wissen gefragt
  • evtl. Suggestivwirkungen in der Fragestellungen
  • Ketteneffekte möglich (ein Wort wird nicht erkannt, das nächste dadurch auch nicht)
  • grösserer Zeitaufwand bei Bearbeitung
  • evtl. eingeschränkte Auswertungsobjektivität (z.B. wenn mehrere Begriffe passen)
59
Q

Was ist ein Kurzaufsatz?

A

Auf Fragen müssen kurze, freie Antworten niedergeschrieben werden.

60
Q

Was sind die Vorteile von Kurzaufsätzen?

A
  • freie Reproduktion von Wissen möglich -> bei bestimmten Fragestellungen unerlässlich
  • Keine Zufallslösungen möglich
61
Q

Was sind die Nachteile von Kurzaufsätzen?

A
  • evtl. eingeschränkte Auswertungsobjektivität (weil eindeutige Auswertungskriterien schwierig sind)
  • Aufwändige Methode (weil Klassifikationssystem für die Auswertung erstellt werden muss)
62
Q

Worauf sollte bei der Itemformulierung geachtet werden?

A
  • Merkmale der Zielgruppe beachten
  • Itempolung eher nicht negativ
  • keine doppelte Verneinungen
  • Registrierung von Verhaltensauffälligkeiten (Durch Definition Ereignis, Wahl des Referenzzeitraums und Wahl der Antwortkategorie)
63
Q

Warum kann negative Itempolung schlecht sein

A
  • können die Probanden verwirren
  • hat somit Einfluss auf die faktorielle Strukture des Testes (deshalb sollten sie, falls eingesetzt, ausgeglichen sein)
64
Q

Nach welchem Kategoriensystem würden John und Löhr (1986) fragebogenitems systematisieren?

A
  • Beschreibung eigener Reaktionen:
    1. prinzipiell beobachtbar (“Ich gehe oft auf Partys. “)
    2. internal und nicht prinzipiell beobachtbar (“Ich grüble viel.”)
    3. Symptome (“Ich schwitze viel.”)
  • Eigenschaftszuschreibungen (“Ich bin ein geselliger Mensch.”)
  • Wünsche und Interessen (“Ich wäre gern Blumenhändler.”)
  • biografische Fakten (“In meiner Jugend bin ich schon mal mit dem Gesetz in Schwierigkeiten gekommen.”)
  • Einstellungen und Überzeugungen (“Ich glaube an die Wiederkunft Christi.”)
  • Reaktionen anderer gegenüber der Person (“Meine Familie ist mit dem Beruf, den ich gewählt habe, nicht einverstanden.”)
  • bizarre Items (“Man wollte mich schon einmal vergiften.”)
  • ergänzt von Tränkle (1983 , S. 243): Frage nach Motiven (“Warum sind Sie dieser Meinung?”)
65
Q

Welches Skalenniveau sollten Ratingskalen aufweisen?

A
  • Intervallskalenniveau (=Abstände zwischen den Alternativantworten sollten gleich gross sein)
66
Q

Nach welchen Antwortkriterien können Ratingskalen beispielsweise aufgebaut sein? (Rohrmann 1987)

A
  • Häufigkeitsskalen
  • Intensität
  • Wahrscheinlichkeit
  • Bewertung
67
Q

Weswegen spielt die Erfassung des Alters und der Bildung der Zielgruppe eine Rolle?

A
  • Für die Gestaltung des Testmaterials
  • für die Formulierung der Instruktion und der Items
68
Q

Weswegen spielt die Erfassung des Erlebens- und Verhaltensspektrums der Zielgruppe eine Rolle?

A

Die Iteminhalte sollten auf die Realität der jeweiligen Zielgruppe passen.

69
Q

Was sind die Schritte des Act Frequency Approaches’

A
  • Generierungsphase (Mehrere Personen denken an drei Personen, die, die das Merkmal prototypisch haben und schreiben dazu Handlungsweisen auf)
  • Prototypizitäts-Rating (Handlungsweisen werden gesammelt und zur Beurteilung wieder denselben Personen gegeben -> wie prototypisch sind diese Handlungsweisen?
  • Selbsteinschätzung (der gleichen Personen)
70
Q

Welche Reihenfolgeneffekte gibt es?

A
  • Ankereffekte (Beantwortung wird von vorheriger Frage beeinflusst)
  • Konsistenz- oder Assimilationseffekte (ich will als Konsistenz wahrgenommen und beantworte nur deswegen ähnliche Fragen gleich)
  • Kontrasteffekte (umgekehrte Konsistenzeffekt)
  • Salienzeffekte (Vorherige Fragen verändern das Bewusstsein des Sachverhaltes und die Antworten werden entsprechend verändert)
  • Primingeffekte
  • Subtraktionseffekte (Wenn eine Frage schon beantwortet wurde, muss ich die nächste ja nicht nochmal bejahen)
71
Q

Sollte bei Ratingskalen jede Antwortkategorie, oder nur die Extrempositionen ausgezeichnet werden?

A

Jede Antwortkategorie, das verbessert die Reliabilität und Validität (Krosnik, 1999)

72
Q

Welche Reihenfolgeneffekte gibt es?

A
  • Ankereffekte (eine frage wurde mit Ja beantwortet, nächste Frage wird davon beinflusst)
  • Konsitenz- oder Assimilationseffekte (zweite frage wird ähnlich der ersten beantwortet)
  • Konstrasteffekte (umgekehrt als konsitenzeffekte)
  • Salienzeffekte (Durch die frage selbst wird das bewusstsein zum sachverhalt verändert und die einschätzung dadurch angepasst)
  • Primingeffekte (vorher gesehenes)
  • Subtraktionseffekte (Wenn Frage ähnlichen Aspekt erfasst, geht person davon aus, dass die Frage den bereits erfassten teil nicht mehr berücksichtigt obwohl sie das tut)