VL 10: Objektivität & "Neben"gütekriterien Flashcards
(32 cards)
Nenne alle gelernten Gütekriterien (3), versch. Arten der Objektivität (3), alle Nebengütekriterien (7)
- Objektivität
-> Durchführungsobjektivität
-> Auswertungsobjektivität
-> Interpretationsobjektivität - Reliabilität
- Validität
- Nebengütekriterien:
-> Normierung
-> Skalierung
-> Ökonomie
-> Nützlichkeit
-> Unverfälschbarkeit
-> Zumutbarkeit
-> Fairness
Beschreibe die verschiedenen Arten der Objektivität; beurteile die psychologisch-diagnostischen Verfahren dahingehend
Beschreibe Funktion und Vorgehensweise konventioneller und kontinuierlicher Normierung
Erkläre das Gütekriterium der Fairness
Was unterscheidet ein wissenschaftliches Messinstrument von einem Laienfragebogen oder -test?
Objektivität, Reliabilität, Validität
Skalierung, Normierung, Ökonomie, Nützlichkeit, Zumutbarkeit, Fairness, Unverfälschlichbarkeit
Definiere Objektivität
Ein Test ist dann objektiv, wenn das ganze Verfahren, bestehend aus Testmaterial, Darbietung, Auswertung und Interpretationsregeln, so genau festgelegt ist, dass der Test unabhängig von Ort, Zeit, Testleiterin und Testauswerterin durchgeführt werden und für eine bestimmte Testperson bezüglich des untersuchten Merkmals dennoch dasselbe Ergebnis und dieselbe Ergebnisinterpretation liefert.
Was ist Durchführungsobjektivität?
- liegt vor, wenn: Testergebnis unabhängig von Testleiter (Testleiterunabhängigkeit)
-
Keine quantitative Bestimmung
-> Durchführungsobjektivität darf als hoch oder “gegeben” angesehen werden, wenn alle Bedingungen festgelegt sind, die sich als erfahrungsgemäß auf das Testverhalten auswirken können
Wie wird Durchführungsobjektivität gesichert?
-
Sicherung über maximale Standardisierung der Durchführungsbedingungen & Testsituation
-> Material, Zeitvorgaben, Instruktionen, Reaktion bei Rückfragen der Testperson, Minimierung der sozialen Interaktion zwischen Testleitendem und Testperson etc.
-> Vollständige Standardisierung nicht immer möglich und sinnvoll
Was ist Auswertungsobjektivität?
- liegt vor, wenn gleiches Verhalten der Testperson nach stets exakt denselben Regeln abgebildet wird (auch Verrechnungssicherheit; setzt “Skalierung” voraus)
- bei klaren Anweisungen zum Vorgehen bei der Auswertung und wenn angemessene Hilfsmittek zur Verfügung gestellt werden -> gegeben
- gebundenes Antwortformat > ungebundenes Antwortformat > projektive Tests
Wie wird Auswertungsobjektivität gesichert?
Sicherung über Lösungsschlüssel
- Auswertungsschablonen
- detaillierte Auswertungsregeln bei ungebundenen, offenen Antworten
- Maschinelle Auswertung
Beispiele Auswertungsobjektivität
Gemeinsamkeiten finden (Wechsler-Test: WISC V)
Was ist das Gemeinsame an …
- … Ärger und Freude
-> 0 - Gegensätze; Sachen die man tut; Verziehen des Gesichts
-> 1 - wie man sich fühlt; Reaktionen; kann man im Gesicht erkennen
-> 2 - Gefühle; gefühlsmäßige Reaktionen
- … Salz und Wasser
-> 0 - Mineralien; Chemikalien
-> 1 - braucht man zum Kochen; Körper schwitzt sie aus; natürliche stoffe; chemische Stoffe; Verbindungen
-> 2 - braucht man zum Leben; chemische Verbindungen
Einfallsreichtumaufgaben E (BIS-HB)
- Insight-Test (verbale E-Aufgabe)
-> nenne möglichst viele+verschiedene Erklärungsmöglichkeiten dafür, warum Menschen Person X sympathisch finden. Stichworte genügen!
- Auswertung nach:
-> Ideenmenge (U-Modus)
-> Ideenflexibilität (X-Modus):
1. Äußere Merkmale/Kleidung
2. Ansehen, formaler/sozialer Status
3. Erfolg+Leistung
4. Reichtum, Macht, Einfluss
5. Intelligenz, spezifische Fähigkeiten
…
17. Annahmen über andere Menschen, die X sympathisch finden
18. Eher unvorteilhafte/negative aber vom Probanden positiv genannte Eigenschaften (auch ironisches)
N Einzellösungen
Auswertungsobjektivität empirisch prüfen wenn Auswertung durch mehrere Personen?
- Quantitative Bestimmung der Auswertungsobjektivität:
- Test der Übereinstimmung der Beurteilung (Inter-Rater-Reliabilität)
- verwendetes statistisches Maß abhängig von Skalenniveau
-> Nominalskalenniveau Cohens Kappe (2 Rater), Fleiss Kappa (>2 Rater)
-> Ordinalskalenniveau Kendalls Tau (2 Rater), Kendalls W (>2 Rater)
-> ab Intervallskalenniveau oft Intra-Klassen-Korrelation (ICC) (beliebig viele Rater)
Cohens Kappa
- Maß der Übereinstimmung zwischen 2 Ratern (bei Nominalskalenniveau)
- K = (Po - Pe) / (1 - Pe)
- Po: Wahrscheinlichkeit der tatsächlichen Übereinstimmung
- Pe: Wahrscheinlichkeit zufälliger Übereinstimmungen
- Interpretation:
- > 0.8 fast perfekt
- > 0.6 substanziell
- > 0.5 moderat
- > 0.2 mäßig
- 0-0.2 gering
- 0 mangelhaft
- Berechnung der Standardfehler SE als Maß der Präzision von Kappa:
-> SE(K) = Wurzel aus (Po(1-po))/(n(1-Pe)^2)
-> je kleiner desto präziser ist Cohens Kappe
-> Maß für die Streuung der Schätzung
-> ermöglicht Berechnung von Konfidenzintervallen, mit denen man die Zuverlässigkeit des Kappa-Wertes besser beurteilen kann
Intra-Klassen-Korrelation
- Inter-Rater-Reliabilität testen ab Intervallskalenniveau
- beliebig viele Rater
- Vergleich Varianz zwischen verschiedenen Ratings in Bezug auf dasselbe Messobjekt mit der über alle Ratings und Messobjekte entstandenen Varianz (Gesamtvarianz)
-> Vergleich Gesamtvarianz mit Varianz zwischen Ratings - dasselbe Messobjekt soll möglichst ähnlich bewertet worden sein
-> Einschätzung möglichst ähnlich (→ kleine Varianz innerhalb des Objekts), aber die Objekte untereinander sollen sich klar unterscheiden (→ große Varianz zwischen den Objekten) -
Mathematische Logik:
-> ICC = (Varianz zwischen Objekten−Varianz innerhalb von Objekten) / Gesamtvarianz
-> Ziel: Varianz innerhalb von Objekten (Var_inn) → möglichst klein; Varianz zwischen Objekten (Var_zw) → möglichst groß - 6 Varianten der ICC (Werte zwischen -1 und +1; je höher desto bessere Übereinstimmung), z.B.:
-> ICCunjust,einf = (Varzw - Varinn) / (Varzw + (k - 1) x Varinn)
-> Varzw = Varianz zwischen den eingeschätzten Personen bzw. Objekten
-> Varinn = Varianz innerhalb der eingeschätzten Personen bzw. Objekte
-> k = Anzahl der Rater
-> Wahl der ICC-Variante abhängig von Studiendesign
Auswerungspbjektivität
ICC - Beispiel: Rinfallsreichtumaufgebe IT BIS-HB
ICCs für Insight-Test UBeurteilung der Anzahl/Vielfalt der Ideen)
- Modus: U oder X
- N, k, min, max, MW, SD
- k = Raterpaare für jew. unterschiedliche Testpersonengruppen
- Werte > .70 gelten als Indikator guter Übereinstimmung
Was ist Interpretationsobjektivität und wann liegt sie vor?
- liegt vor, wenn versch. Testanwender gleiche Testwerte von vrschiedenen Testpersonen bezüglich des untersuchten Merkmals in gleicher Weise interpretieren
- bezieht sich auf das untersuchte Merkmal und nicht auf darauf aufbauende, weiterführende Schlussfolgerungen
- statistische Urteilsbildung > klinische Urteilsbildung
Wie kann Interpretationsobjektivität gesichert werden?
- Normwerte (normorientierte Interpretation), Kriterien bzw. Vergleichswerte oder Cut-offs
- Interpretationsbeispiele in Testmanualen
- Normwerte: individuelles Testergebnis mit Referenzgruppe verglichen
→ z. B. Prozentrang, T-Wert, IQ-Wert - Kriterien bzw. Cut-off Werte: Ergebnis mit festgelegtem Schwellenwert (Cut-off) verglichen; Cut-offs trennen z. B. „gesund“ vs. „auffällig“, „förderbedürftig“ vs. „durchschnittlich“ etc.
Interpretationsobjektivität Beschreibung
z-Skala
- 0 = durchschnittlic
- weniger als 1 SD: leicht über-/unterdurchschnittlich
- mehr als 1 SD: über-/unterdurchschnittlich
- mehr als 2 SD: deutlich über-/unterdurchschnittlich
- mehr als 3 SD: hoch/niedrig
Prozentrang (PR)
- 50-84 (50-16) weniger als 1 SD
Was ist Normierung (Eichung)?
- Erstellen eines Bezugssystems, mit dessen Hilfe die Ergebnisse einer Testperson im Vergleich zu anderen Merkmalsausprägungen anderer Personen (die Eichstichprobe) eindeutig eingeordnet werden und interpretiert werden können
4 Punkte
Anforderungen Normierung
1. Hinreichende Größe der Eichstichprobe
- jeder einzelnen Normtabelle sollen möglichst mehrere hundert Personen zugrunde liegen (mind. 200 Personen …cave! Größe noch kein Garant für Repräsentativität)
2. Aktualität der Normen
- Erhebung der Daten möglichst aktell bzw. aktueller Nachweis der Gültigkeit der Normen (ansonsten “nachnormieren”)
- DIN 22420: nicht älter als 8 Jahre
-> Flynn-Effekt
3. Differenzierung der Normen nach Personenmerkmalen, die mit Testleitung korrelieren (Normierung in Subgruppen nach z.B. Alter oder Bildungsgang)
4. Repräsentativität der Eichstichprobe für Zielpopulation der Testpersonen
Aktualität von Normen: Flynn-Effekt
- über Jahrzehnte hinweg beobachteter systematischer Anstieg durchschnittlicher Intelligenztestwerte in vielen Ländern
- benannt nach dem neuseeländischen Politikwissenschaftler James R. Flynn
-> Effekt ab den 1980er-Jahren umfassend dokumentiert - 5-25 IQPunkte Zuwachs pro Generation, insbes. fluide Intelligenz
- Anstieg bis Mitte 90er, danach Abfall (“reversed Flynn-Effekt”)
-> kein Hinweis auf reversed Flynn Effekt; 3 IQ-Punkte Zuwachs pro Dekade
-> Der Flynn-Effekt macht deutlich, dass Testnormen einem Alterungsprozess unterliegen.
Aktualität von Normen ist entscheidend, um faire, objektive und gültige Diagnosen stellen zu können
3 Punkte
Normierung - wodurch wird die Repräsentativität sichergestellt?
-> Erhebungsdesign anpassen
- Globale Repräsentativität
-> Stichprobe stimmt in vielen Merkmalen mit der Zielpopulation überein; setzt echte Zufallsstichprobe voraus
- Spezifische Repräsentativität
-> Stichptob ist nur hinsichtlich der Merkmale repräsentativ, die mit dem Testwert zusammenhängen (z.B. Bildung, Geschlecht)
-> Geschichtete, stratifizierte Stichprobe (Zufallsauswahl innerhalb eines Merkmals)
-> Quotenstichprobe (keine Zufallsauswahl)
-> nur stratifizierte Stichprobe erlaubt echte inferenzstatistische Aussagen (z. B. Konfidenzintervalle), weil sie eine Zufallsauswahl enthält.
-> Quotenstichprobe zwar kontrolliert, aber nicht zufällig (d. h. Verzerrungen durch systematische Auswahl (z. B. wer bereit ist mitzumachen)) nicht auszuschließen.
- Vergleichbare Erhebungsbedingungen für alle Teilnehmenden
Probleme konventioneller Normierung
Konventionelle Normierung: Population in diskrete Gruppen (Normierungszellen) eingeteilt
-> z. B. Altersgruppen: „Normwerte für 20–29-Jährige“, „30–39-Jährige“ usw.
- Präzisions-Ökonomie Dilemma:
-> verzerrte Normen vs. unrealisierbare große Stichproben:
- Transition Bias (Übergangseffekt)
→ Künstliche Sprünge in den Normwerten an den Grenzen zwischen Altersgruppen
-> Beispiel: Ein 29-Jähriger und ein 30-Jähriger haben identische Rohwerte, aber sehr unterschiedliche Normwerte, nur weil sie in unterschiedlichen Gruppen liegen
-> unverhältnismäßiger Verlust von IQ Punkten beim Übergang in andere Normen Subgruppe (grauer Pfeil in dieser Abbildung
- Within-Subgroup Bias (Binnen-Bias)
→ Innerhalb einer Gruppe (z. B. 20–29) werden alle gleich behandelt, obwohl sich Leistungsniveaus z. B. zwischen 20- und 28-Jährigen stark unterscheiden können.
-> Individuen am oberen Rand der Subgruppe systematisch überschätzt, am unteren Rand systematisch unterschätzt; Vergleich innerhalb der Gruppe schwierig (orangener Pfeil)
-> Lösung: kontinuierliche Normierung
Was ist kontinuierliche Normierung?
Normwerte nicht gruppenweise, sondern kontinuierlich über Regressionsmodell geschätzt – typischerweise in Abhängigkeit von Merkmalen wie Alter, Bildung, Geschlecht etc.
- Schätzung der Normwerte basierend auf der gesamten Normstichprobe
- Modellierung glatter Kurven mittels Regressionsmethoden (Mit Regressionsmethoden wird ein mathematisches Modell erstellt, das den Zusammenhang zwischen z. B. Alter und Testleistung kontinuierlich beschreibt. -> Dadurch entsteht eine glatte Normkurve ohne künstliche Sprünge.)
- Aktuell noch kaum genutzt, aber positiver Trend erkennbar
Beispiel:
Ein Modell könnte schätzen:
T-Wert = 70 – 0.5 × Alter + 0.2 × Bildungsjahre
→ Für jede beliebige Altersangabe (z. B. 23.4 Jahre) wird ein exakter Normwert berechnet, nicht nur für Gruppen wie „20–29“.