M1 F5 Flashcards

1
Q

Was setzt die Prüfung von Veränderungshypothesen voraus?

A

Dass die abhängigen Variablen mindestens einmal vor (sogenannter Prätest) und einmal nach (Posttest) den Interventionen mit geeigneten Datenerhebungsmethoden gemessen werden.
(In unserer Studie zum selbstregulierten Lernen (vgl. Abschnitt 7.1, Beispiel 2) wurde ein Prätest vor den Unterrichtseinheiten durchgeführt, in dem die Fähigkeit zum selbstregulierten Lernen mit einem Fragebogen zur Selbsteinschätzung und der Wissensstand zum Thema Ernährung mit einem Multiple-Choice-Test erfasst wurden. Im ersten Posttest nach der achtstündigen Unterrichtseinheit wurde selbstreguliertes Lernen mit demselben Fragebogen erhoben, der Wissenstand zum Thema Ernährung allerdings mit einem Lückentext, in den die Schülerinnen und Schüler die richtigen Begriffe eintragen mussten. Zum zweiten Posttest wurde wieder ein MC-Test zum Thema der fünfstündigen Lehreinheit vorgelegt. Zu diesem Thema (es ging um die Fähigkeit in umweltbezogenen Alltagssituation systematisch Entscheidungen zu treffen) wurde kein Prätest durchgeführt.)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Erzähle was über Störvariablen.

A

Die kausale „Rückführung“ der abhängigen Variable auf die unabhängige Variable kann durch eine Vielzahl von Störvariablen beeinträchtigt werden. Wenn z.B. der Effekt eines Programms (Treatment) zur Verbesserung des selbstregulierten Lernens (abhängige Variable) untersucht werden soll, dann kann es sein, dass sich in der Experimentalgruppe (EG) von vorneherein Schüler befinden, die diese Fähigkeit in höherem Ausmaß aufweisen als die Schüler der Kontrollgruppe (KG), die das Treatment nicht erhält. Unterschiede zwischen EG und KG nach dem Treatment wären dann nicht mehr eindeutig auf das Lernprogramm rückführbar. Die Unterschiede zwischen EG und KG bestanden ja schon vor dem Lernprogramm. Möglicherweise hatte das Lernprogramm gar keinen positiven Effekt auf den Lernerfolg der ohnehin leistungsstarken Schüler in der EG, zumindest aber ist der Effekt durch die bestehenden Unterschiede vor dem Treatment überlagert, man sagt auch konfundiert. In der quasiexperimentellen Untersuchung zum selbstregulierten Lernen konnten solche Pretestunterschiede ausgeschlossen werden, da sich die EG und die KG im Hinblick auf die Fähigkeit zum selbstreguliertes Lernen, die mit Hilfe eines Fragebogens vor den Treatments erfasst wurde, nicht unterschieden. Störvariablen können auch Störungen im Wortsinn sein, z.B. Lärm, der die Konzentration bei einem Wahrnehmungsexperiment beeinträchtigt.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Wie können Störvariablen kontrolliert werden?

A

Hierfür stehen verschiedene Verfahren zur Verfügung. So können Störvariablen eliminiert, konstant gehalten oder als weitere unabhängige Variablen untersucht werden. Manche Störvariablen, z.B. Lärm, können u.U. eliminiert werden. Bereits bestehende Unterschiede in der abhängigen Variable vor dem Treatment können konstant gehalten werden. Für die Konstanthaltung von Störvariablen gibt es wiederum den „Königsweg“ der Randomisierung: Bei genügend großer Stichprobe (mindestens > 60) werden die Probanden per Zufall der EG und der KG zugewiesen; man kann nun wahrscheinlichkeitstheoretisch zeigen, dass sich – immer eine möglichst große Stichprobe vorausgesetzt – Störvariablen durch Randomisierung in der EG und in der KG gleich verteilen. Anders ausgedrückt werden durch Randomisierung dieselben Bedingungen in der EG und in der KG hergestellt, so dass Unterschiede weitestgehend auf das Treatment zurückgeführt werden können. Die Bedeutung der Herstellung von möglichst identischen Bedingungen in der EG und KG (sogenanntes ceteris paribus-Kriterium) für kausale Schlussfolgerungen wird in Abschnitt 7.5.3 noch genauer erläutert.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Was kann man tun, wenn die Stichproben zu klein für Randomisierungen sind?

A

Häufig stehen ausreichend große Stichproben in der Psychologie nicht zur Verfügung, so dass die Randomisierung nicht zur Herstellung gleicher Bedingungen in der EG und KG führt. Wenn wir beispielsweise nur 30 Schüler untersuchen können und je 15 zufällig der EG (mit Lernprogramm) und der KG (ohne Lernprogramm) zuweisen, dann ist nicht unbedingt gewährleistet, dass sich dabei Leistungsunterschiede zwischen den einzelnen Schülern in der EG und KG gleich verteilen. Bei kleinen Stichproben empfiehlt sich deshalb die Parallelisierung, um Unterschiede zwischen den Probanden konstant zu halten. In unserem Beispiel würde man 15 Paare mit je zwei Schülern bilden, die in Mathematik denselben oder einen sehr ähnlichen Notendurchschnitt haben. Bei jedem Paar wird dann per Münzwurf entschieden, welcher der beiden Schüler der EG und welcher der KG zugewiesen wird. Durch Parallelisierung (auch Matching genannt) wird dafür gesorgt, dass sowohl in der EG als auch in der KG ein ähnlicher Mittelwert im Hinblick auf eine Störvariable vorliegt und dass sich die Störvariable in den beiden Gruppen ähnlich verteilt. In unserem Beispiel werden durch Parallelisierung der EG und der KG sowohl Schüler mit hohem, mittleren und niedrigem Notendurchschnitt in Mathematik zugewiesen.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Erkläre vor und Nachteile von Labor- vs. Feldexperimenten!

A

In einem Experiment werden die Effekte des oder der treatments oft in einer streng kontrollierten Laborsituation hervorgerufen und objektiv beobachtet. Experimente oder Quasi-Experimente (vgl. Abschnitt 7.3) können aber auch im Feld, d.h. unter natürlichen Bedingungen durchgeführt werden. In einem Feldexperiment können die unter Bedingung (2) genannten Störvariablen weniger gut kontrolliert werden als in einem Laborexperiment, was eine eindeutige Kausalinterpretation u.U. erschwert (geringere interne Validität). Umgekehrt stellt sich die Frage, inwieweit die in einer künstlichen und hoch kontrollierten Laborsituation gefundenen Effekte überhaupt auf ähnliche reale Situationen übertragbar sind (Problem der externen Validität, vgl. Abschnitt 7.2.3). Sowohl bei der Untersuchung zum Mere-Exposure-Effekt als auch bei der quasi-experimentellen Interventionsstudie zum selbstregulierten Lernen handelt es sich um Feldexperimente.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Wie kann man Designs darstellen?

A

In einer experimentellen oder quasi-experimentellen Untersuchung gibt es viele Möglichkeiten zur Kombination von Treatments und zur Messung von abhängigen Variablen. Zur Formalisierung und Veranschaulichung der Vielfalt (quasi)experimenteller Designs haben Cook und Campbell (1979) sowie Shadish, Cook und Campbell (2002) ein Notationssystem entwickelt, das wir im Folgenden vorstellen möchten. Das Notationssystem ist hilfreich, um sich die Bedingungen und Messzeitpunkte in Experimenten zu vergegenwärtigen, um Experimente zu bewerten und eigene Experimente zu entwickeln.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Was bedeutet im Notationssystem von Cook, Campbell und Co. EG, KG, R, O und X (mit Indices)?

A

In dem Notationssystem werden folgende Symbole zeilen- bzw. spaltenweise kombiniert:
• zeilenweise werden die Untersuchungsgruppen (EG, KG) und die jeweiligen Treatmentbedingungen in ihrer zeitlichen Reihenfolge dargestellt;
• die Bildung der Untersuchungsgruppen durch Zufallszuordnung wird durch ein vorangestelltes R (für Randomisierung) dargestellt. Ein R in Klammern (R) indiziert eine – für quasiexperimentelle Studien z.T. mögliche – Randomisierung von natürlichen Gruppen, z.B. Schulklassen, d.h. bestimmten Schulklassen wird per Zufall ein Treatment zugewiesen. Es handelt sich dabei um keine „echte“ Randomisierung, die der Fall wäre, wenn jede/r Schüler/in per Zufall einer Klasse mit oder ohne Treatment zugewiesen werden würde, was aber aus institutionellen Gründen nicht möglich ist. Wenn gar nicht randomisiert wird, wenn also weder eine echte Randomisierung noch eine Randomisierung von Gruppen durchgeführt wurde, wird das vorangestellte R komplett weggelassen. Letzteres war in der Untersuchung zum selbstreguliertem Lernen der Fall, da nur solche Klassen am Trainingsprogramm teilnahmen, deren Lehrer sich dazu bereit erklärten.
•die Durchführung einer Erhebung von abhängigen Variablen wird durch ein O („observation“) mit Index für den Erhebungszeitpunkt dargestellt (z.B. Vorund Nachtest);
•die Durchführung des „Treatments“ als experimentelle Maßnahme wird durch ein X dargestellt; mehrere verschiedene Treatments werden nummeriert (X1, X2, X3 usw.);
•untereinander stehende „Operationen“ werden zeitgleich in den entsprechenden Untersuchungsgruppen durchgeführt.
(siehe F S. 151)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Erkläre die Unterscheidung zwischen Within-subjects-designs vs. between-subjects-designs!

A

In sogenannten between-subjects-designs wird jede Person nur einer Stufe der unabhängigen Variable zugeordnet. Anders ausgedrückt nimmt jede Person nur an einer experimentellen Bedingung teil. In den bisherigen Beispielen war immer ein solches between-subjects-design realisiert. Insbesondere in allgemeinpsychologischen Experimenten ist es aber auch möglich, dass dieselben Personen nacheinander alle experimentellen Bedingungen absolvieren. In diesem Fall liegt ein within-subjects-design vor, das nicht mit einem between-subject-design mit Messwiederholung verwechselt werden darf. Ein gutes Beispiel für ein within-subjects-design wird in dem Lehrbuch von Sedlmeier und Renkewitz (2008) gegeben, die auch die Vor- und Nachteile dieser beiden Designtypen ausführlich diskutieren. Bei dem Beispiel handelt es sich um ein Gedächtnisexperiment mit dem zweistufigem Faktor: einsilbige Wörter vs. mehrsilbige Wörter. Aufgabe der Probanden ist es, die einbzw. mehrsilbigen Wörter zu lernen und wiederzugeben.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Was sind Mehrfaktorielle Experimente?

A

In einem Experiment können mehrere Treatments bzw. unabhängige Variablen realisiert sein. In Anlehnung an die Terminologie der Varianzanalyse wird die unabhängige Variable/das Treatment auch als experimenteller Faktor bezeichnet. Es gibt also drei Bezeichnungen, für das, was von einem Untersucher in einer experimentellen Studie variiert bzw. manipuliert wird: Unabhängige Variable, Treatment oder Faktor. Wenn mehrere Faktoren realisiert und variiert werden, spricht man von einem mehrfaktoriellen, z.B. von einem zweifaktoriellen Experiment. Die Interventionsstudie zum selbstregulierten Lernen ist ein solches zweifaktorielles Experiment: der erste Faktor beinhaltet die unterschiedlichen Unterrichtseinheiten mit bzw. ohne Anregungen zum selbstreguliertem Lernen; der zweite Faktor ist die Messwiederholung. Die wiederholte Messung der abhängigen Variablen wird u.a. deshalb als eigener Faktor aufgefasst, weil die mehrfache Durchführung eines Tests bzw. die Anwendung eines Erhebungsinstruments als eigenes Treatment aufgefasst werden kann bzw. muss. Diese Auffassung lässt sich besonders gut bei Präund Posttests verdeutlichen, die Leistungen erfassen. Durch die wiederholte Vorgabe solcher Tests können Lerneffekte auftreten, die das eigentliche Treatment (z.B. die unterschiedlichen Unterrichtseinheiten) überlagern.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Was sind Faktorstufen?

A

Eine weitere Differenzierung kann innerhalb eines einzelnen Faktors vorgenommen werden. Ein Faktor weist stets mindestens zwei oder auch mehr sogenannte Stufen auf. Die Faktorstufen indizieren die Variation des Treatments, z.B. umfasst in unserer quasi-experimentellen Interventionsstudie zum selbstregulierten Lernen der Faktor Unterrichtseinheit drei Stufen: Stufe 1: Unterrichtseinheit zum Thema Ernährung und selbstreguliertem Lernen; Stufe 2: Unterrichtseinheit zum Thema Ernährung ohne selbstreguliertes Lernen und Stufe 3: Unterrichtseinheit zu einem anderen Thema. Der Faktor Messwiederholung beinhaltet für die AV selbstreguliertes Lernen 2 Stufen, einen Prätest vor der Unterrichtseinheit mit bzw. ohne Anregung zum selbstregulierten Lernen und einen Posttest nach diesem Treatment. Im Experiment zum Mere-Exposure-Effekt liegt ebenfalls ein dreistufiger Faktor vor: Stufe 1: Sehenswürdigkeiten mit zitro-Werbung; Stufe 2: Sehenswürdigkeiten mit pfeffi-Werbung, Stufe 3: Sehenswürdigkeiten ohne Werbung. Im einfachsten Fall kann ein Faktor, z.B. Training, nur zwei Stufen aufweisen, nämlich Stufe 1: Training und Stufe 2: kein Training.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Was sind Interaktionseffekte?

A

In mehrfaktoriellen Experimenten können neben den Haupteffekten der einzelnen Faktoren sogenannte Interaktionseffekte geprüft werden, in denen die Wechselwirkung von zwei oder mehr Faktoren zum Ausdruck kommt. In der Interventionsstudie zum selbstregulierten Lernen resultierten für diese Fähigkeit sowohl ein Haupteffekt des Faktors Unterrichtseinheit und des Messwiederholungsfaktors sowie ein Interaktionseffekt. Diese Effekte wurden im Rahmen einer zweifaktoriellen Varianzanalyse mit Messwiederholung auf dem zweiten Faktor ermittelt. Inhaltlich besagen diese Effekte Folgendes: Der Haupteffekt des Faktors Unterrichtseinheit bedeutet, dass sich die Trainingsgruppe von der Kontrollgruppe unterscheidet; allerdings wird statistisch gesehen bei diesem Effekt die Messwiederholung nicht berücksichtigt; vielmehr werden die jeweiligen Werte des Prä- und Posttests für selbstreguliertes Lernen sowohl in der EG als auch in der KG über die beiden Messzeitpunkte gemittelt und anschließend verglichen. Analog wird beim Haupteffekt des Messwiederholungsfaktors verfahren: Hier werden die Werte des Präund Posttests jeweils über die beiden Gruppen gemittelt und es wird ein Effekt der Messwiederholung ermittelt, der von möglichen Gruppenunterschieden absieht. Erst der Interaktionseffekt der beiden Faktoren Unterrichtseinheit und Messwiederholung ermöglicht die Aussage, dass sich das selbstregulierte Lernen in der Experimentalim Vergleich zur Kontrollgruppe vom Prätest zum Posttest unterscheidet (vgl. das Beispiel zum Interaktionseffekt in Kap. 7.2.6).

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Warum ist die Dokumentation in Experimenten so wichtig?

A

Insgesamt ist es für jede Art von Untersuchungen im Labor und besonders im Feld wichtig, (a) Merkmale der untersuchten Personen für jede Gruppe der Untersuchung festzuhalten und (b) die situativen Bedingungen möglichst genau zu dokumentieren. Je weniger die Bedingungen in verschiedenen Untersuchungsgruppen konstant gehalten werden können, desto wichtiger ist die Dokumentation eventueller Unterschiede, durch die gelegentlich gerade unerwartete Unterschiede in der abhängigen Variable zwischen den Gruppen erklärt werden können.
Eine solche Dokumentation ist für jede Kumulation von Forschungsbefunden notwendig bzw. hilfreich bei der Erklärung von Unterschieden, die nicht selten zwischen ähnlich angelegten Untersuchungen bzgl. der festgestellten Effekte ähnlicher Treatments auftreten. Wenn die gesamte Untersuchungssituation als eine Konstellation von situativen Bedingungen, den beteiligten Personengruppen (inkl. der Versuchsbzw. Gruppenleitung) und dem in der Instruktion bzw. im Treatment festgelegten „Verhaltensprogramm“ (im Sinne der Komponenten eines „Behavior Settings“ von Barker, 1968) aufgefasst werden, dann wird deutlich, wie detailliert die Beschreibung des Untersuchungssettings erfolgen muss, um eventuelle Unterschiede in der abhängigen Variable zwischen ähnlichen Untersuchungen erklären zu können.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Ist Validität ein Mermal von Untersuchungsdesigns?

A

Nein. Validität ist kein Merkmal von bestimmten Untersuchungsdesigns, sondern ein Merkmal der Schlussfolgerungen, die wir vor dem Hintergrund einer empirischen Studie, in der ein bestimmtes Design umgesetzt wurde, ableiten. Eine Schlussfolgerung wird in der Regel in Form eines Satzes formuliert, der eine Aussage darüber macht, ob eine zuvor aufgestellte Hypothese in einer gegebenen empirischen Studie zutrifft oder nicht. Solche Schlussfolgerungen werden im letzten Teil eines empirischen Artikels, der sogenannten Diskussion (vgl. Abschnitte 2.2.2.1 sowie 6.2.3 in KE 1 von Kurs 3402), formuliert. So heißt es bei Blüher und Pahl (2007, S. 213): „Wir führten diese Studie im Rahmen des „Mere-Exposure“-Paradigmas durch und zeigten, dass die mehrfache subtile Darbietung eines vorher unbekannten Stimulus nachfolgend zu einer Auswahlpräferenz gegenüber einem Alternativ-Stimulus führte.“ Und Labuhn et al. (2007, S. 21) folgern: „Die Resultate des Prätest-Posttest-Vergleichs deuten insgesamt auf eine positive Wirkung der Unterrichtsintervention hin. Der signifikante Interaktionseffekt auf der Gesamtskala spricht für einen Anstieg der Selbstregulation bei den Schülern der Trainingsgruppe.“

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Ist Validität absolut oder relativ?

A

Validitätsaussagen sind niemals absolut, sondern immer nur relativ und vorläufig zu verstehen. Kein empirischer Forscher würde auf die Idee kommen, auf Basis einer einzigen empirischen Studie zu schlussfolgern, dass eine darin bestätigte Hypothese „immer und überall“ gilt und richtig ist. Vielmehr wird die relative Validität einer Aussage bzw. Schlussfolgerung über empirische Zusammenhänge aus mehreren empirischen Studien abgeleitet, in denen unterschiedliche Methoden eingesetzt und in denen u.U. verschiedene theoretische Perspektiven berücksichtigt wurden. Die Validität von Schlussfolgerungen bzw. Aussagen muss also vor dem Hintergrund bzw. innerhalb eines Prozesses beurteilt werden, in den bereits durchgeführte Studien und darauf bezogene Theorien und Methoden eingehen.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Nenne die vier Gütekriterien für Validität!

A

Die Validität einer experimentellen Untersuchung lässt sich mit Shadish et al. (2002) vor dem Hintergrund von vier Gütekriterien beurteilen: Neben der internen und externen Validität, die in den meisten Lehrbüchern angesprochen werden, spielen auch die Konstruktvalidität und die statistische Validität eine bedeutsame Rolle. Diese vier Validitätsarten bzw. Gütekriterien für experimentelle Untersuchungen werden im Folgenden kurz skizziert. Es sei an dieser Stelle darauf hingewiesen, dass die vier Gütekriterien auch zur Beurteilung von quasiexperimentellen und korrelativen Designs, Einzelfallstudien und Ex-post-FactoAnordnungen herangezogen werden können.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Wann ist ein Meßverfahren valide?

A

Der Begriff Validität wurde bereits im Kapitel 5 zur Messtheorie eingeführt: ein Messverfahren (Fragebogen, Test etc.) ist valide, wenn es genau das psychologische Konstrukt misst, das gemessen werden soll – und seine Ergebnisse nicht systematisch von anderen situativen oder personalen Merkmalen bei der Erhebung abhängen. Wenn dieses Kriterium erfüllt ist, können Unterschiede zwischen den Messwerten verschiedener Personen hauptsächlich auf Unterschiede in der Ausprägung des zu messenden psychologischen Konstruktes zurückgeführt werden – von Messfehlern abgesehen.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
17
Q

Was ist interne Validität?

A

Eine experimentelle Untersuchung ist intern valide, wenn die kausale Interpretation der Ergebnisse inhaltlich eindeutig ist wenn also ein aufgetretener Effekt (als Unterschied im Wert der abhängigen Variable) zwischen der Versuchs- und Kontrollgruppe eindeutig auf das Treatment zurückgeführt werden kann und der Einfluss von Störvariablen kontrolliert oder ausgeschaltet wurde.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
18
Q

Was ist “local molar causal validity”?

A

Campbell (1986) hat das Konzept der internen Validität mit Hilfe der etwas umständlichen Formulierung „local molar causal validity“ präzisiert. Mit dem Adjektiv „causal“ wird unterstrichen, dass es in der Tat um kausale Schlussfolgerungen geht. Das Wort „local“ indiziert, dass sich die kausalen Schlussfolgerungen lediglich auf den lokalen Kontext einer empirischen Untersuchung beziehen, also auf das gewählte Treatment, die an der Studie beteiligten Personen sowie die Ergebnisse und Rahmenbedingungen der vorliegenden Studie. Besonders bedeutsam ist das Wort „molar“ in diesem Zusammenhang. Molar ist das Gegenteil von molekular. Im Kontext experimenteller Untersuchungen insbesondere zur Evaluation von Interventionen wie der Unterrichtseinheit zum selbstregulierten Lernen bedeut molar, dass die lokalen, kausalen Effekte von Treatments untersucht werden, die komplexe „Pakete“ ganz unterschiedlicher molekularer Bedingungen repräsentieren. Ein Lernprogramm oder gar eine Therapie umfasst bestimmte verbale Instruktionen bzw. Äußerungen, die zu bestimmten Zeitpunkten, auch in Abhängigkeit von den Fragen bzw. Reaktionen der Probanden gegeben werden. Die verbalen Äußerungen werden von non- und paraverbalen Signalen begleitet. Im Fall einer Intervention in einer Schulklasse oder anderen Trainingsgruppe wird sich zudem eine bestimmte (bereits vorhandene) Gruppendynamik (weiter)entwickeln. Ein Treatment findet außerdem in einer bestimmten Umgebung statt, die durch physikalische und räumlich-materiale Bedingungen gekennzeichnet ist (Größe eines Raumes, Temperatur, Lichtverhältnisse etc.). All diese komplexen und potenziell interagierenden Bedingungen sind mit einem Treatment verbunden. Natürlich kann und soll man Experimente auch so gestalten, dass weniger molare Treatments zum Einsatz kommen. Im Laufe eines Forschungsprogramms macht es z.B. Sinn, die unterschiedlichen Komponenten eines Lernprogramms bzw. einer Therapie differenzierter zu untersuchen. Aber auch bei einer solchen Isolierung einzelner Bedingungsfaktoren bleibt das Treatment immer noch mehr oder weniger molar. Shadish et al. (2002, S. 54) bringen es auf den Punkt:
“Understood as local molar causal validity, internal validity is about whether a complex and inevitably multivariate treatment package caused a difference in some variable-as-it-was-measured within the particular setting, time frames, and kinds of units that were sampled in a study.”

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
19
Q

Wie hängen Nullbefunde und Validität zusammen?

A

Bei der Definition der internen Validität einer Untersuchung werden „Nullbefunde“ oft vernachlässigt, die dann vorliegen, wenn kein (signifikanter) Unterschied zwischen der Experimentalund Kontrollgruppe festgestellt werden kann. In diesem Fall muss die Hypothese, nach der das Treatment einen Effekt auf die abhängige Variable hat, verworfen werden. Aber auch diese Schlussfolgerung muss geprüft werden und ist nur dann valide, wenn es keine Störfaktoren gibt, die zu diesem Ergebnis geführt und den „wahren“ Effekt verdeckt haben könnten.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
20
Q

Was ist Statistische Validität?

A

Die statistische Validität ist eng mit der internen Validität verknüpft. Wenn wir nach der Durchführung eines Experiments schlussfolgern, dass ein Treatment die abhängige Variable kausal beeinflusst hat, dann tun wir das vor dem Hintergrund statistischer Analysen. Statistische Analyseverfahren werden Sie im Verlaufe Ihres Studiums, insbesondere in Modul 2, näher kennen lernen. Bereits an dieser Stelle sei darauf hingewiesen, dass man bei der Auswahl und Durchführung statistischer Analyseverfahren und der Interpretation der resultierenden Ergebnisse viel falsch machen kann. So sind statistische Verfahren an bestimmte Voraussetzungen gebunden (z.B. ein bestimmtes Skalenniveau, vgl. Kapitel 5), die mehr oder weniger verletzt sein können, die Messinstrumente zur Erfassung der AV können nur eine geringe Reliabilität aufweisen oder die Messungen der AV können sich um einige wenige Werte verteilen (sogenannte eingeschränkte Varianz). Diese und andere potentielle Beeinträchtigungen der statistischen Validität werden ausführlicher bei Shadish et al. (2002, S. 42ff) erläutert. Solche Beeinträchtigungen und Fehler im Rahmen statistischer Analysen gefährden dann die Gültigkeit kausaler Schlussfolgerungen in Experimenten.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
21
Q

Was ist externe Validität?

A

Als externe Validität wird die Verallgemeinerbarkeit der Untersuchungsergebnisse bezeichnet: Die Generalisierbarkeit der Untersuchungsergebnisse kann analog zu den Komponenten eines Experimentes in vier Aspekte unterteilt werden (vgl. die Systematik von Cronbach, 1982, die Shadish et al. 2002 übernommen haben):

• Bezüglich der untersuchten Personen: Sind die Ergebnisse auf eine Grundgesamtheit von Personen übertragbar, aus denen die Versuchspersonen stammen (z.B. auf alle Studierende einer Universität) oder gar auf die gesamte Menschheit?
•Bezüglich des bzw. der angewendeten Treatments: Sind die Ergebnisse auf ähnliche Treatments übertragbar?
•Bezüglich der angewendeten Messinstrumente: Sind die Ergebnisse auch für andere Operationalisierungen der erhobenen Variablen gültig?
• Bezüglich der Untersuchungsbedingungen: Gelten die Ergebnisse auch unter anderen situativen Bedingungen und kulturellen Kontexten?
Der erste Aspekt externer Validität kann für den Fall, dass die untersuchten Personen per Zufall aus einer Grundgesamtheit ausgewählt wurden, mit Ja beantwortet werden: Nach den Regeln der Wahrscheinlichkeitstheorie ist bei hinreichend großer Stichprobe eine Generalisierung von Befunden auf die Grundgesamtheit gerechtfertigt. Liegt dagegen keine Zufallsauswahl vor (sind die Versuchspersonen also z.B. Freiwillige, die sich für die Untersuchung gemeldet haben), so ist diese formale Begründung nicht möglich. Von diesem Spezialfall abgesehen hängt die Beantwortung der o.g. Fragen zum erheblichen Teil von der wissenschaftstheoretischen Position der Forschenden ab.
Praxisorientierte Forscher wie Cronbach (1982) und Shadish et al. (2002) vertreten die Position, dass solche Generalisierungen zwar hypothetischen Charakter haben, aber für die wissenschaftliche Diskussion wie für die praktische Anwendung notwendig sind. Dennoch empfehlen sie, im Rahmen der Untersuchungsplanung durch Variation von einzelnen Faktoren die Generalisierbarkeit empirisch zu untersuchen anstatt nur argumentativ zu begründen.

In Hinblick auf die Struktur einer Kausalhypothese ist der genannte vierte Aspekt der externen Validität interessant – geht es doch hierbei um die Frage, ob bestimmte Rahmenbedingungen, die in der Versuchs- und Kontrollgruppe konstant gehalten wurden, notwendig sind für das Eintreten der postulierten Wirkung bzw. Effekte oder nicht. Auch diese Frage wird am besten empirisch durch Variation theoretisch relevanter Bedingungen geklärt.

22
Q

Was ist Konstruktvalidität?

A

Die interne Validität einer Untersuchung setzt die Validität der Messungen aller erhobenen Variablen voraus, sowohl der abhängigen als auch der unabhängigen Variablen. Für diesen Aspekt ist der Begriff der Konstruktvalidität einer Untersuchung eingeführt worden: Sind die theoretischen Konzepte der Hypothese (z.B. selbstreguliertes Lernen) in der Untersuchung angemessen erfasst worden? In der Studie zum selbstregulierten Lernen erfolgte die Messung dieser Fähigkeit mit Hilfe eines Fragebogens zur Selbstbeschreibung. Mit einer solchen Selbsteinschätzung von Fähigkeiten sind etliche Probleme verbunden, z.B. die Möglichkeit sozial erwünschter Antworten. Die Autorinnen der Studie weisen in der Diskussion selbst darauf hin, dass eine alternative Erfassungsmethode, nämlich die Fremdbeobachtung selbstregulierten Lernens, in zukünftigen Untersuchungen eingesetzt werden sollte.
Diese Frage betrifft aber nicht nur die Messverfahren, sondern auch die evtl. durchgeführten Interventionsmaßnahmen bzw. Treatments: Wird z.B. prosoziales Verhalten in realen, Interaktionssituationen untersucht oder nur durch Beantwortung von Items am Computer? Wie ist eine bestimmte Methode der Diskussionsleitung (z.B. TZI) als Treatment operationalisiert (und auch dokumentiert) worden? Gleiche Fragen sind bei zeitlich umfangreichen Treatments (z.B. Schulungen, Therapien) zu stellen und nicht immer einfach zu lösen.

Frey und Frenz (1982) haben diesen Aspekt der Konstruktvalidität des Treatments in Relation zur üblichen detaillierten Diskussion über mögliche Störfaktoren gesetzt: „… und was sind das für „Treatments“, die befürchten lassen, dass beispielsweise ihr therapeutischer Effekt so minimal ist, dass er mit dem Effekt verwechselt werden kann, den allein schon die „Einladung zur Therapie“ bewirkt“? (1982, S. 256).

Shadish, Cook und Campbell (2002, S.65) betonen die Bedeutung der Konstruktvalidität (von Messverfahren und Treatments) einer Untersuchung in Hinblick auf die Weiterentwicklung der Konstrukte und Theorien einerseits, aber auch in Hinblick auf eine mögliche inadäquate praktische Anwendung von Untersuchungsergebnissen.

23
Q

Was sind Störfaktoren?

A

Als Störfaktoren werden in der Begrifflichkeit experimenteller Untersuchungen all jene Einflussfaktoren bezeichnet, die neben der experimentellen Ursache ebenfalls Unterschiede in der abhängigen Variable verursacht haben können – und somit Alternativerklärungen zur Hypothese des Experimentes darstellen. / Diese Bezeichnung ist nicht alltagssprachlich zu verstehen. / Potentielle Störfaktoren bei jeder Art experimenteller Gruppenvergleiche sind jene Unterschiede zwischen den Gruppen, die schon vor Beginn des Treatments bestanden haben – sei es in Bezug auf die durch das Treatment zu beeinflussenden Variablen, sei es in Hinblick auf andere mit X oder Y korrelierenden Variablen.

24
Q

Was ist die Konfundierung?

A

Als Konfundierung wird die „Vermischung von Drittvariablen mit der systematisch variierten unabhängigen Variable“ bezeichnet (vgl. Rogge, 1995, S. 126; Rott, 1995, S. 142; Sedlmeier & Renkewitz, 2008, S. 130).

25
Q

Nenne die 8 möglichen Störfaktoren!

A
1 Auswahlverfahren der Untersuchung
2 experimenteller Dropout
3 Testeffekte
4 Veränderung der verwendeten Hilfsmittel
5 reaktive Effekte in der Untersuchung
6 Zwischenzeitliches Geschehen
7 „natürliche“ Änderungsprozesse
8 Statistische Regression
26
Q

Nenne Erläuterung und Beispiel zum Störfaktor 1 Auswahlverfahren der Untersuchung

A

(a) Auswahl der Probanden, die an der Untersuchung teilnehmen,
(b) Aufteilung auf Versuchs- und Kontrollgruppe(n)
(a) ►externe Validität (b) ►interne Validität
Freiwilligkeit garantiert nicht Repräsentativität der Probanden; falls Konfundierung mit Treatment: Randomisierung oder Parallelisierung, ggf.
Vortest durchführen
+++
Störfaktoren des Typs (1): Auswahlverfahren sind unterteilt in:
(a) jene, die bei der Rekrutierung der Probanden der Untersuchung angewendet werden, und die damit für die externe Validität von Bedeutung sind (d.h. für die Generalisierung der Untersuchungsergebnisse auf eine Gesamtheit von Personen, aus denen eine Stichprobe gezogen wurde), und
(b) jene, die bei der Zuordnung der Probanden zu den Untersuchungsgruppen angewendet werden und damit für die interne Validität der Untersuchung, die durch jegliche Konfundierung von Merkmalsunterschieden der Personen mit der Bildung der Untersuchungsgruppen beeinträchtigt wird, von zentraler Bedeutung ist.

Während der letztere Aspekt (b) bereits mehrfach erläutert wurde, da er die Frage der kausalen Interpretierbarkeit der Befunde betrifft, ist der Aspekt der Generalisierbarkeit ein über die Untersuchung selbst hinausgehender, der vor allem von Rezipienten der Untersuchungsergebnisse gestellt wird: Die Beantwortung der Frage wird für anwendungsbezogene Fragestellungen (z.B. nach der Effektivität eines Lehr-Lernprogramms zur Inferenzstatistik bei einer bestimmten Zielgruppe) anders ausfallen als bei Untersuchungen, die Fragestellungen der Allgemeinen Psychologie (insbesondere der Psychophysik) betreffen, bei denen es weder eine bestimmte Zielgruppe gibt und bei denen keine gruppenspezifischen Verhaltensweisen (bzw. Reaktionen) angenommen werden müssen.
Inwieweit sind die Befunde des Experimentes der Forschergruppe ABC, die eine sozialpsychologische Untersuchung zur Hilfsbereitschaft an Studierenden der Psychologie durchgeführt haben, übertragbar auf „Durchschnittsbürger“?

Im Beispiel eines Statistiklernprogramms könnte auch nicht von Studierenden der Sozialwissenschaften auf jene der Mathematik generalisiert werden (oder umgekehrt), da erhebliche Unterschiede in der Kompetenz des Verständnisses mathematischer Formeln zwischen beiden Gruppen bestehen dürften.

Westermann (2000) vertritt zu diesem Thema folgende Position:
„Grundlagenwissenschaftliche Experimente … werden nicht durchgeführt, um Informationen über „natürliche“ Populationen und Situationen zu gewinnen. Sie dienen vielmehr dazu, kausale Hypothesen und Theorien zu überprüfen. … Sie beziehen sich also auf Situationen, die insofern künstlich sind, als außer den explizit auf ihre Wirkung hin untersuchten Variablen alle anderen Bedingungen gleich oder gleichverteilt sein müssen. (S. 436) und an späterer Stelle:
So kann man etwa die Grenze der erfolgreichen Anwendbarkeit einer Theorie insofern sukzessiv austesten, als man die Untersuchungssituationen so wählt, dass immer offenere, natürlichere Systeme entstehen. Außerdem kann man statt der üblichen studentischen Probanden in späteren Forschungsstadien gezielt andersartige Probandengruppen einbeziehen. Auf diese Weise kann sich allmählich ein differenziertes Bild darüber ergeben, unter welchen Umständen und für welche Probandengruppen sich welches Element eines Theorie-Netzes gut oder weniger gut bewähren kann.“ (S. 437)

27
Q

Nenne Erläuterung und Beispiel zum Störfaktor 2 experimenteller Dropout

A

Ausfall von Probanden während der Untersuchung (►allg. die externe und gruppenspezifisch die interne Validität)
insbesondere bei mehr-tägigen bzw. Langzeituntersuchungen (vgl. „Panel-Dropout“)
+++
Störfaktoren des Typs (2): Experimenteller Dropout tritt vor allem auf, wenn Probanden in Experimenten besonderen Anforderungen bzw. Belastungen aussetzt sind (wie z.B. bei den Experimenten von Milgram, 1974, vgl. Abschnitt 7.2.6). Bei solchen Untersuchungsbedingungen muss damit gerechnet werden, dass einige Probanden während des Versuchs abzubrechen versuchen – oder bei einem Experiment mit mehreren Treatments abbrechen und nicht wieder erscheinen. Außerdem: Wenn anderen Versuchspersonen davon berichtet wird, bevor sie teilnehmen, könnten sie von der freiwilligen Teilnahme Abstand nehmen. Mit zunehmender Zeitspanne einer Untersuchung wird auch der Dropout in der Regel umfangreicher und ist oft nur mit besonderem Aufwand zu reduzieren: Bei mehrjährigen Längsschnittstudien steigt – gerade bei Studierenden – die Wahrscheinlichkeit eines Wohnortwechsels; deshalb ist bei solchen (seltenen) mehrjährigen Studien, die in der Regel kein Experiment sondern eine Feldstudie sind, eine kontinuierliche Pflege der Adressen aller Probanden Voraussetzung. Bei gerontologischen Längsschnittstudien mit Hochaltrigen wird – neben Umzügen – aber auch die Mortalität der Probanden zum Dropout beitragen. Experimenteller Dropout beeinträchtigt generell die externe Validität und – falls er nur in der Versuchsund nicht in der Kontrollgruppe in gleicher Weise auftritt – auch die Vergleichbarkeit der Untersuchungsgruppen, also die interne Validität.

28
Q

Nenne Erläuterung und Beispiel zum Störfaktor 3 Testeffekte

A

Einflüsse des Vortests auf das Verhalten während des Experiments oder bei dem Nachtest
Vortest als „advance organizer“ bei Lehr-LernUntersuchungen; Trainingseffekte wiederholter Tests
+++
Störfaktoren des Typs (3): Testeffekte sind bereits mehrfach erläutert worden,
sodass die Hinweise in der obigen Tabelle genügen sollen. Sie beeinträchtigen die interne Validität, können aber innerhalb des Vier-Gruppen-Designs von Solomon kontrolliert werden, weil dort eine Kontrollgruppe mit Vorund Nachtest und eine nur mit Nachtest vorgesehen sind. Die Differenz in der abhängigen Variable zwischen diesen beiden Kontrollgruppen erlaubt eine Bestimmung des Testeffektes (evtl. konfundiert mit zwischenzeitlichem Geschehen).
Auch eine eventuelle Wechselwirkung zwischen Vortest und Treatment (z.B. bei
einer Sensibilisierung für das anschließende Treatment durch den Vortest) kann im Vier-Gruppen-Design von Solomon kontrolliert werden (Campbell & Stanley, 1963, S. 473).

29
Q

Nenne Erläuterung und Beispiel zum Störfaktor 4 Veränderung der verwendeten Hilfsmittel

A

geringe zeitliche Stabilität der Geräte, Beobachter, Auswerter und/oder Testverfahren, die
eingesetzt werden, oder durch Wechsel der Messverfahren (zwischen Voru. Nachtest)
Verschleiß von Messgeräten; Veränderung der Handhabung von Kategorien bei Beobachtungen bzw. Testauswertungen; Unterschiede zwischen verschiedenen Methoden
+++
Störfaktoren des Typs (4): Veränderungen der verwendeten Hilfsmittel können bei allen Untersuchungen auftreten, in denen dieselben Variablen wiederholt erhoben werden. Das Spektrum der Störfaktoren reicht dabei vom Verschleiß der verwendeten Messgeräte (z.B. Recorder zur Aufzeichnung von Kommunikation) bis hin zur schleichenden Veränderung der Kategorien, die zur Verhaltensbeobachtung von den eingangs geschulten Beobachter verwendet werden. Besonders deutlich wird die Frage der Äquivalenz von Messungen dann, wenn beim Vortest ein anderes Messverfahren eingesetzt wird als beim Nachtest (z.B. im Vortest ein Fragebogen und im Nachtest ein Interview).

30
Q

Nenne Erläuterung und Beispiel zum Störfaktor 5 reaktive Effekte in der Untersuchung

A

Bewusstsein der Teilnahme an einer Untersuchung
► interne Validität
Placebo- sowie HawthorneEffekt (vgl. Abschnitt 7.2.7)
+++
Störfaktoren des Typs (5): Reaktive Effekte in der Untersuchung bezeichnen Effekte, die durch die Messung an sich verursacht werden bzw. das Bewusstseinm an einer Untersuchung teilzunehmen (vgl. Abschnitt 7.2.5). Diese Effekte beeinträchtigen auf jeden Fall die interne Validität, wenn sie gruppenspezifisch sind; sie beeinträchtigen aber auch die Generalisierbarkeit der Befunde auf Situationen, in denen das Treatment „Normalität“ bzw. Alltag wäre.

31
Q

Nenne Erläuterung und Beispiel zum Störfaktor 6 Zwischenzeitliches Geschehen & 7 „natürliche“ Änderungsprozesse

A
  1. Einflüsse von außen während des gesamten Untersuchungszeitraumes ∆t auf die abhängige Variable
    (z.B. Einstellung Y)
  2. Ereignisse auf politischer oder institutioneller Ebene (z.B. Streik, Entlassungen, Gewaltverbrechen)
  3. biologisch oder physiologisch bedingte Veränderungen, die im gesamten Untersuchungszeitraum ∆t aller Untersuchungsgruppen auftreten
  4. Konzentrationsverlust bei monotoner Tätigkeit, Hunger oder Anstrengung; individuelle Entwicklung insbes. bei Kindern und älteren Menschen
    +++
    Campbell und Stanley (1970) erläutern die beiden Störfaktoren des Typs (6) und (7) durch Angabe der Wirkungen, die diese Faktoren repräsentieren:
    „1. Zwischenzeitliches Geschehen: die besonderen Ereignisse, die zwischen der ersten und zweiten Messung zusätzlich zu der experimentellen Variablen (d.h. dem Treatment) auftreten;
  5. Reifung: Änderungen der Probanden, die eine Funktion des bloßen Zeitablaufes (nicht an besondere Ereignisse gebunden) sind, wie z.B. älter werden, hungriger werden, müder werden usw.” (S.460)
    “Wir wollen mit zwischenzeitlichem Geschehen eine Anzahl möglicher Effekte der Zeit oder des Ablaufes der normalen Ereignisse bezeichnen, obwohl diese ebenfalls unter Reifung aufgeführt werden könnten. So könnte sich Optimismus im Laufe der Zeit ändern, und Angst könnte vom Plan für die Semesterprüfung abhängig sein (…). Solche Effekte verursachen möglicherweise Unterschiede zwischen O1 und O2, die mit der Wirkung von X verwechselt werden können.
    Eine zweite Störvariable oder Gruppe von Variablen wird mit Reifung bezeichnet. Dieser Ausdruck soll hier alle diejenigen biologischen und psychischen Vorgänge umfassen, die sich systematisch und unabhängig von besonderen äußeren Ereignissen im Laufe der Zeit ändern. Zwischen O1 und O2 können die Schüler z.B. älter, hungriger, müder, gelangweilter usw. geworden sein. Der festgestellte Unterschied kann vielleicht eher auf dieses Geschehen zurückgeführt werden als auf X.” (S.466).
    Als zwischenzeitliches Geschehen gelten auch typische politische oder institutionelle Ereignisse bzw. Veränderungen im gesamten Untersuchungszeitraum, die auf die abhängige Variable bei einzelnen oder bei allen Untersuchungsgruppen Einfluss haben können. Je größer die Zeitspanne einer Untersuchung ist, desto größer ist auch die Chance bzw. Gefahr, dass externe Ereignisse einen Einfluss auf die abhängige Variable haben können (z.B. ein drastischer Rückgang der Spritpreise während einer Interventionsstudie zur ÖPNV-Nutzung).
    Reifung wird hier als natürliche Änderungsprozesse bezeichnet; damit sind jene Prozesse gemeint, die während des gesamten Untersuchungszeitraumes innerhalb der Versuchspersonen stattfinden und nicht durch das Treatment X oder durch Ereignisse ausserhalb des Untersuchungsfeldes verursacht sind, sondern insbes.
    durch biologische, physiologische o.a. Prozesse, die bei den Versuchspersonen auftreten können (vgl. oben genannte Beispiele).
    Störfaktoren des Typs (6) und (7) können in einer Hinsicht differenziert werden:
    •innerhalb des Untersuchungsfeldes auftretende Ereignisse, durch die Veränderungen der abhängigen Variable im Untersuchungszeitraum auftreten; Solche Einflüsse sind primär bei entwicklungspsychologischen oder klinischen Interventionsstudien relevant (z.B. auftretende Konflikte bei einer Untersuchung zur sozialen Integration in einer Schule);
    • von außerhalb des Untersuchungsrahmens verursachte Veränderungsprozesse bei den Versuchspersonen (z.B. Einstellungsänderungen gegenüber einer gesellschaftlichen Gruppe infolge von politischen Ereignissen).
    Störfaktoren des Typs (6) und (7) beeinträchtigen gravierend die interne Validität einer jeden Untersuchung dann, wenn sie nicht in gleicher Weise die Versuchsund die Kontrollgruppe(n) betreffen; Unterschiede in der abhängigen Variablen würden dann fälschlich dem Treatment zugeschrieben, wären aber – mindestens zum Teil – auf zwischenzeitliches Geschehen zurückzuführen.
32
Q

Nenne Erläuterung und Beispiel zum Störfaktor 8 Statistische Regression

A

statistisch zu erwartende Änderung des individuellen Messwertes durch die sog. „Regression zum Mittelwert“
Insbesondere bei der Verwendung von Extremgruppen (s.a. Bortz & Döring 2006, S. 555f.)
+++
Störfaktoren des Typs (8) Statistische Regression zum Mittelwert tritt vor allem bei der Untersuchung von Extremgruppen auf und stellt ein Phänomen dar, dass mit der Größe des Messfehlers und der Korrelation zwischen Vorund Nachtest zusammenhängt: So können Probanden mit extrem guten Werten im Vortest „Glück gehabt“ haben, besonders motiviert gewesen sein und andere „Pech gehabt“ haben, und zu erwarten ist, „dass diejenigen mit guten Ergebnissen im Vortest beim Nachtest etwas zum Mittelwert hin abfallen, diejenigen mit niedrigen Testergebnissen (im Vortest) aber ihren relativen Leistungsstand verbessern“ (Campbell & Stanley, 1963, S. 474).

33
Q

Beschreibe die Experimente von Milgram zur „Obedience to Authority“ (Langer Text!)

A

Eines der bekanntesten Experimente der Psychologie ist jene Versuchsreihe, die Stanley Milgram in den 60er Jahren durchgeführt hat. Der Originaltitel des englischen Buches, der bei der deutschsprachigen Ausgabe 1982 zum Untertitel „Zur Gehorsamsbereitschaft gegenüber Autorität“ wurde, charakterisiert Milgrams zentrales Thema: Er wollte in Anknüpfung an Untersuchungen zur sozialen Beeinflussung in Gruppen, die sein akademischer Lehrer S. Asch am Beispiel der Längenschätzung von Linien durchgeführt hatte, Konformitätseffekte bei existentiell wichtigeren Themen untersuchen (s. Anhang 1, in dem H.E. Lück auf den biografischen und historischen Kontext sowie auf Milgrams eigene theoretische Erklärungsansätze für seine Befunde sowie auf spätere Replikationsstudien eingeht).

Hier sei das methodische Vorgehen von Milgram dargestellt, da er selbst ein
überzeugter Vertreter experimenteller Forschungsmethoden in der Psychologie
war:
„The creative claim of social psychology lies in its capacity to reconstruct varied types of
social experience in an experimental format to clarify and make visible the operation of
obscure social forces so that they may be explored in terms of the language of cause and
effect.” (Milgram, 1992, S. XIX)

Im Gegensatz zum deutschsprachigen Titel „Das Milgram-Experiment“ handelt es sich nicht um nur ein Experiment, sondern um eine systematisch weiterentwickelte Reihe von Untersuchungen, die als einzelne betrachtet keine Kontroll- oder Vergleichsgruppe haben. In der ersten Phase seiner Experimente, die Milgram 1960 an der Yale Universität begann, hat er eine soziale Situation im Labor geschaffen, in der eine Versuchsperson (VP) unter der Anleitung bzw. Anweisung eines Versuchsleiters (VL) einer anderen Person Stromschläge verabreichen sollte, wenn diese Person in der als „Lernexperiment“ etikettierten Untersuchung falsche Antworten gab. Diese hier als der „Schüler“ bezeichnete Person war stets ein
ca. 50-jähriger Mann, der vom VL hinsichtlich der zu zeigenden Reaktionen genau instruiert worden war (also ein sog. stooge = Vertrauter des Versuchsleiters). Der „Schüler“ erhielt aber nicht reale Stromschläge – obwohl er in einer Art „elektrischem Stuhl“ festgeschnallt wurde. Um dies vorzutäuschen bzw. glaubhaft zu machen, wurde zu Beginn des Experimentes jeder VP ein schwacher, echter Stromschlag am Arm als Beispiel gegeben.

Die 30 Schaltstufen, die von der VP schrittweise zu benutzen waren, hatten jeweils eine Volt-Angabe und jede Vierergruppe der Schaltstufen eine Etikettierung auf der Schaltbox. Diese Bezeichnungen reichten von „leichter Schock“ bis „schwerer Schock“ (bei 300 Volt). Die nächsten acht Stufen trugen die Bezeichnungen „sehr schwerer Schock“ bzw. „Gefahr: bedrohlicher Schock“ und die höchsten Stufen das Zeichen „ XXX“ (Milgram, 1982, S. 36f.).
Bei den sog. Standardexperimenten von Milgram bestanden folgende, systematisch variierte räumliche Konstellationen zwischen den drei beteiligten Personen – womit im Grunde vier verschiedene Versuchsbedingungen generiert wurden, deren Resultate miteinander verglichen werden können (vgl. Tab. 7-2):

Exp. 1: VL und VP gemeinsam in einem Raum, „Schüler“ unsichtbar, kein verbales Feedback (vergleichbar einer Kontrollgruppe)
Exp. 2: wie bei Exp. 1, „Schüler“ bleibt unsichtbar, gibt aber Stöhnen, Hilferufe etc. von sich (vergleichbar einer Experimentalgruppe)
Exp. 3: VL und VP in einem Raum gemeinsam mit dem „Schüler“, der um Abbruch bittet etc. (vergleichbar einer Kontrollgruppe)
Exp. 4: wie bei Exp. 3, aber die VP muss dem „Schüler“ die Hand auf „Elektroplatte“ legen (vergleichbar einer Experimentalgruppe).

Jeder Versuchsdurchgang mit einer VP beinhaltete in sich eine wichtige Vorgehensweise: mit jeder falschen Antwort „des Schülers“ musste die Versuchsperson die Stromstärke um eine Stufe (15 Volt) erhöhen – und „der Schüler“ gab in den Experimenten 2, 3 und 4 entsprechend gestufte Schreie, Hilferufe oder letztlich gar keine Laute mehr von sich. Diese schrittweise Erhöhung der Strafe für falsche Antworten führte die VP zunehmend in einen Konflikt: entweder den Anweisungen des VL („Machen Sie weiter“) Folge zu leisten oder bei zunehmend heftigeren Reaktionen des „Schülers“ den Versuch abzubrechen.

Siehe S. 173 in F: Tab. 7-2: Experimentell variierte Bedingungen in Experimenten von Milgram (1982)

Als bei ersten Vorversuchen, die Milgram mit Studierenden durchgeführt hatte, die meisten Studierenden den Anweisungen des Versuchsleiters Folge leisteten und die maximale Stromstärke gaben, war Milgram selbst überrascht. Für die im Taschenbuch von Milgram (1982) dargestellten 18 verschiedenen Experimente hat er deshalb jeweils Stichproben von jeweils 40 (z.T. 20) Personen verwendet, die in New Haven aus der Bevölkerung per Zeitungsinserat rekrutiert wurden und bezüglich Altersstruktur und beruflicher Tätigkeit heterogen, aber vergleichbar waren.

Um die Relevanz situativer Bedingungen für Gehorsam empirisch zu prüfen, hat Milgram im weiteren Verlauf bestimmte Merkmale der sozial-räumlichen Konstellation immer wieder systematisch verändert und untersucht, ob sich die Verweigerungsrate dabei änderte (definiert als 100% minus Anteil völlig gehorsamer VP, die alle Schaltstufen verwendeten).
Milgram (1982) hat im weiteren Verlauf seiner Forschung weitere Variationen der sozial-räumlichen Bedingungen vorgenommen, um z.B. auch die sozialen Effekte der Anwesenheit und Konformität einer weiteren Versuchsperson oder gar eines zweiten Versuchsleiters auf das Verhalten der VP zu untersuchen – zum Vergleich mit den Abbruchraten der vorherigen Experimente. Dabei sank die Gehorsamsrate bei „Rollenwechselexperimenten“ bis auf null Prozent; bei der Hinzunahme eines weiteren Helfers, der für die VP die Schalter für Stromschläge umlegte, stieg die Gehorsamsrate dagegen auf 92,5 % (vgl. Bierhoff, 2002, S. 126 ff., Milgram, 1982, Kap. 9, Tab. 5).

Erst in diesen weiteren Untersuchungen hat Milgram somit den zentralen Bedingungsfaktor Autorität (z.B. durch Verantwortungsdiffusion oder durch ein „Hinterhoflabor“) variiert.
Ergänzend hat Milgram versucht zu klären, warum bestimmte Versuchspersonen bei jedem der Experimente vor der maximalen Stromstärke den Versuch abgebrochen haben, obwohl der Versuchsleiter sie eindringlich auf die Notwendigkeit der Fortführung hingewiesen hat. Dazu hat Milgram mit seinem Assistenten Elan Elms eine Reihe von Persönlichkeitstest mit den Versuchspersonen durchgeführt und biografische Informationen erhoben, um die interindividuellen Unterschiede zu erklären, die innerhalb jeder Untersuchungsbedingung auftraten (vgl. Elms & Milgram, 1966). Diese Analysen haben aber nur wenige signifikante Ergebnisse gezeigt.

Milgram (1982) hat mit der Analyse interindividueller Unterschiede bereits den Standard vieler experimenteller Auswertungen überschritten, die häufig nur die Unterschiede der abhängigen Variable(n) zwischen den Untersuchungsgruppen (d.h. die Mittelwertdifferenzen) betrachten und die Variation innerhalb der einzelnen Untersuchungsgruppen zur Fehlervarianz subsumieren (s.o. Exkurs zu formalisierten Analyse solcher Daten).

Stanley Milgram (1982, S. 196 f.) hat nach der Darstellung seiner Experimente verschiedene selbst methodenkritische Fragen dazu formuliert und beginnt die Beantwortung seiner Frage „Sind die im Experiment untersuchten Personen repräsentativ für die gesamte Bevölkerung, oder sind sie eine Sondergruppe?“ mit einer Anekdote:

Als die ersten Experimente durchgeführt wurden, verwendeten wir ausschließlich Yale-Studenten als Versuchspersonen, und etwa 60 Prozent von ihnen waren völlig gehorsam. Einer meiner Kollegen lehnte diese Ergebnisse sofort ab, da sie für „gewöhnliche“ Leute irrelevant seien, und behauptete, die Studenten der YaleUniversität seien ein höchst aggressiver Haufen von Konkurrenten und drückten einander auf den kleinsten Anlass hin die Gurgel zu. Er versicherte mir, bei Tests mit „gewöhnlichen“ Leuten würden die Resultate völlig anders ausfallen. Als wir von den Voruntersuchungen zur regulären Versuchsreihe übergingen, wurden Menschen aus allen sozialen Schichten der Gesellschaft in New Haven experimentell getestet: Akademiker und Freiberufliche, Büroangestellte, Arbeitslose und Industriearbeiter. Das Ergebnis der Experimente war das gleiche wie das bei Studenten. (S. 197)

In einem späteren Rückblick auf die eigenen Experimente betont Milgram (1992), dass es ihm nicht darum ging, die Motive oder Mechanismen der VP zu erforschen, die ihren Gehorsam im Experiment zu erklären erlauben, sondern dass ihn die situativen Einflussfaktoren interessierten:

… whatever the motives involved – and it is far from certain that they can ever be known – action may be studied as a direct function of the situation in which it occurs. This has been the approach of the present study, where we sought to plot behavioural regularities against manipulated properties of the social field. (S. 156)

Abschließend seien nur einige zentrale Charakteristika der Untersuchungsreihe von insgesamt 18 Experimenten genannt, die eine intensive inhaltliche und ethische Debatte ausgelöst haben:

Abhängige Variablen: max. Stromstärke, die eine Versuchsperson gewählt hat (als qualitatives Kriterium: Abbruch des Experimentes durch die VP, d.h. es wurde nicht die max. Stromstärke von 450 Volt gegeben)

Unabhängige Variablen: die Autorität des Versuchsleiters (mit/ohne Assistent, mit/ohne Nutzung der Universität als institutioneller Autorität) sowie Nähe zum Schüler

Variationen situativen Bedingungen und der zentralen unabhängigen Variablen innerhalb der gesamten Untersuchungsreihe:

• räumliche Distanz zum Schüler (unsichtbar, sichtbar, nebeneinander) •Durchführung der Bestrafung (Elektroschocks nur per Schaltertafel
oder durch Auflegen der Hand des „Schülers“ auf eine Metallplatte)
• Feedback des bestraften Schülers (keines, Hämmern, Schreie etc.)
• VersuchsleiterverlässtdenV ersuchsraumnachkurzerZeit
• RollentauschzwischenV ersuchsleiterund„Schüler“
• zweiV ersuchsleitermitwidersprüchlichenBefehlen
• zwei weitere – instruierte – Versuchspersonen im Raum, die gegen die Befehle des Versuchsleiters protestieren
Täuschungen der Versuchsperson: •der Zweck des Experimentes •die Rolle „des Schülers“ als Zufallswahl •die „Realität“ von Elektroschocks •die Schmerzen „des Schülers“
• die Rolle weiterer Versuchspersonen

Insgesamt kann hier keine umfassende inhaltliche Diskussion und Würdigung der legendären Reihe von Experimente des Stanley Milgram erfolgen (vgl. dazu im Anhang den Beitrag von H.E. Lück sowie Modul M4 Sozialpsychologie).
Unabhängig von der inhaltlichen Tragweite des Untersuchungsgegenstandes „Gehorsam gegenüber Autoritäten“ ist die erläuterte Untersuchungsreihe von Milgram ein Musterbeispiel für das Potential experimenteller Methodik,

  1. bestimmtes, nicht gerade alltägliches Interaktionsverhalten im Labor zu produzieren bzw. „herzustellen“ (vergleichbar mit den Naturwissenschaften), und
  2. durch systematische Variationen verschiedener Bedingungsfaktoren (sowohl der Autorität als auch bestimmter situativer Bedingungen) deren kausale Relevanz für das Auftreten des untersuchten Phänomens (Gehorsam bzw. Gehorsamsverweigerung) analysieren zu können.

Die Diskussion zu den Experimenten von Milgram dauert an; aktuelle Diskussionen wurden 2009 im Heft 1 der Zeitschrift „American Psychologist“ veröffentlicht.

Literaturempfehlungen
Huber, O. (2005). Das psychologische Experiment: Eine Einführung (4. Auflage). Bern: Huber.
Milgram, St. (2004). Obedience to Authority. An Experimental View. (Foreword by Jerome S. Bruner). New York: Harper Collins (Perennial Classics)
Sarris, V. & Reiß, S. (2005). Kurzer Leitfaden der Experimentalpsychologie. München: Pearson.

34
Q

Welches sind die 7 idealtypischen Phasen einer empirischen Untersuchung?

A
  1. Wahl einer Forschungsfragestellung
  2. Theoretische Einbettung und Ableitung von Hypothesen
  3. Operationalisierung und Untersuchungsplanung
  4. Durchführung der Untersuchung und Datenerhebung
  5. Datenaufbereitung und Datenanalyse
  6. Interpretation und Diskussion
  7. Präsentation und Publikation
35
Q

In welchen beiden Bereichen wird nach einer Forschungsfragestellung gesucht?

A

(a) Im wissenschaftlichen Kontext geht es um die Auswahl eines bestimmten Forschungsthemas oder –problems.
(b) In angewandten Gebieten geht es um die Übernahme eines Auftrags, z.B. um die Erstellung eines Gutachtens oder um die Durchführung und Evaluation einer Interventionsmaßnahme.
(In beiden Fällen bzw. Kontexten ist die Anwendung der wissenschaftlichen Methode weitgehend identisch und auch der konkrete Ablauf der empirischen Untersuchung ist ähnlich.)

36
Q

Welche Faktoren beeinflussen die Wahl eines Forschungsthemas?

A

Persönliches Interesse, konkrete Aufträge, Verfügbarkeit von Forschungsressourcen, von Stellen innerhalb eines Projekts oder von der Wahrscheinlichkeit, mit der ein Thema in möglichst einflussreichen Zeitschriften publiziert werden kann.

37
Q

Wie nennt man alltagspsychologie Begriffe (meine Formulierung!)?

A

Die meisten Begriffe, die in der wissenschaftlichen Psychologie und oft auch in der Alltagspsychologie verwendet werden, sind nicht direkt beobachtbare, hypothetische Konstrukte.

38
Q

Welcher Vorgang wird Operationalisierung genannt?

A

Die Festlegung von Beobachtungs- und Messvorschriften, mit denen Indikatoren für hypothetische Konstrukte erfasst werden können.

39
Q

Warum gibt immer verschiedene Möglichkeiten, Indikatoren für hypothetische Konstrukte zu beobachten und zu messen?

A

Einerseits können verschiedene Datenquellen berücksichtigt werden (Selbstbericht, Fremdbericht, Verhaltensbeobachtung, physiologische Messungen, vgl. Kap. 6), andererseits können innerhalb einer Datenquelle verschiedene Messinstrumente zur Verfügung stehen, um ein hypothetisches Konstrukt zu erfassen. Es gibt auch mehrere Möglichkeiten, Hypothesen innerhalb verschiedener Versuchsanordnungen empirisch zu untersuchen.

40
Q

Warum sollte, sofern zur Erfassung der Konstrukte, die in der geplanten Studie untersucht werden sollen, etablierte diagnostische Instrumente vorliegen, darauf zurückgegriffen werden?

A

Aus zwei Gründen: Erstens können dann die Ergebnisse der eigenen Studie mit bisherigen Untersuchungen besser verglichen werden, in denen ähnliche Fragestellungen im Mittelpunkt standen. Zudem sind die sogenannten Test-Gütekriterien (Objektivität, Reliabilität, Validität, vgl. Kapitel 5) bei etablierten Instrumenten zumeist in mehreren Studien untersucht und nachgewiesen worden.
Dagegen ist die Konstruktion eines neuen diagnostischen Instruments ein aufwändiger Prozess, der eigentlich im Rahmen eigenständiger Studien erfolgen muss.

41
Q

Was sind Gelegenheitsstichproben?

A

Damit ist eine Zusammenstellung von Probanden gemeint, die eben gerade verfügbar sind; in psychologischen Untersuchungen sind das in den allermeisten Fällen Psychologie-Studierende. Diese gängige Praxis ist immer wieder kritisiert worden, weil zu Recht bezweifelt werden kann, ob die Ergebnisse, die mit Psychologie-Studierenden gewonnen wurden, wirklich auch für NichtPsychologie-Studierende gelten.

42
Q

Welche Aspekte muß man bei der Planung des Designs bzw. Versuchtsplan festlegen?

A
  1. Probanden: Welche Personen sind als Adressaten bzw. Probanden der Untersuchung vorgesehen?
  2. Treatment: Psychologische Studien zielen häufig darauf ab, die Wirkung von sogenannten Treatments zu untersuchen bzw. zu prüfen. Anders als die wörtliche Übersetzung nahelegt, sind mit Treatments allerdings nicht nur „Behandlungen“, wie z.B. psychotherapeutische oder Trainingsmaßnahmen gemeint, sondern auch bestimmte Reizkonstellationen oder situative Bedingungen.
  3. Setting: Damit ist kurz gesagt der „Ort“ bzw. Kontext der Untersuchung gemeint – und zwar der Ort mit allen seinen physikalischen, räumlichen, ökologischen und sonstigen Bedingungen, die potentiellen Einfluss auf die Durchführung und Datenerhebung haben können. Grundlegend ist die Unterscheidung zwischen Labor und Feld. Das Setting einer Studie kann in einem Labor weitestgehend kontrolliert bzw. hergestellt werden, was im Feld, z.B. einem Fußballstadion, nicht möglich ist. Die höhere Kontrolle des Settings im Labor kann allerdings zu einer Künstlichkeit führen, die eine Übertragbarkeit auf reale Lebensbedingungen mehr als fraglich erscheinen lässt (vgl. zu diesem Problem Abschnitt 7.2.3).
  4. Zeitlicher Ablauf: In einem Versuchsplan bzw. Design wird auch festgelegt, zu welchen Zeitpunkten die Erhebung von Daten und die Durchführung von Treatments erfolgen soll. Dabei geht es dann in Abhängigkeit von der Forschungsfragestellung auch darum, ob bestimmte Merkmale nur zu einem oder zu mehreren Zeitpunkten erhoben werden sollen.
43
Q

Warum können Treatments nicht immer systematisch und willkürlich manipuliert werden?

A

Das Experiment gilt in der Psychologie als der Königsweg zur Prüfung von kausalen Zusammenhängen, setzt aber voraus, dass die Treatments (auch unabhängige Variablen genannt) systematisch und willkürlich manipuliert und variiert werden können. Letzteres ist bei vielen psychologischen und insbesondere sozialwissenschaftlichen Fragestellungen aus prinzipiellen, ökonomischen und ethischen Gründen nicht möglich.
Wenn z.B. die Bedeutung von Persönlichkeitsmerkmalen für Gesundheit und psychisches Wohlbefinden untersucht werden soll, dann können Persönlichkeitsmerkmale wie z.B. Extraversion, Gewissenhaftigkeit und emotionale Labilität nicht willkürlich variiert, d.h. hergestellt werden, da diese Eigenschaften als sogenannte Organismusvariablen bereits in einer bestimmten Ausprägung vorliegen.

44
Q

Warum kann für die Datenerhebung das Setting einen Unterschied machen?

A

Es liegen eigene Studien zur sogenannten Messäquivalenz vor, in denen untersucht wird, ob die Erfassung von Merkmalen vom Erfassungskontext (z.B. klassischer PaperPencil-Fragebogen, der in einer Vorlesung vorgelegt wird vs. OnlineErhebung vs. telefonische Erhebung etc.) unabhängig ist (vgl. z.B. Kubinger, 2009).

45
Q

F: Check Anhänge 2-4!!!

A

OK?

46
Q

Warum ist es in der Psychologie schwierig, einen Placebo-Effekt zu erzeugen?

A

Bei psychologischen Experimenten ist es oft schwierig, eine Placebo-Bedingung für die Kontrollgruppe zu entwickeln. Bei der Evaluation von Interventionsmaßnahmen (inkl. der Evaluation von neuen Lehrmaterialien und Lehrmethoden) wird der Kontrollgruppe in der Regel eine konventionelle Maßnahme bzw. Methode zugeteilt, während in der Experimentalgruppe die zu neuere Maßnahme angewendet wird, deren Effekte geprüft werden sollen. Da so beide Untersuchungsgruppen ein Treatment erhalten, sind auftretende Effektunterschiede nicht mit einem Placebo-Effekt konfundiert.

47
Q

Was ist der Hawthorne-Effekt?

A

Gewisse Ähnlichkeit mit dem Placebo-Effekt hat der Hawthorne-Effekt (vgl. Rott 1995, S. 142): er bezeichnet den Effekt, den das Bewusstsein der Versuchspersonen, an einer Untersuchung teilzunehmen, auf ihr Verhalten im Experiment hat (z.B. bzgl. Anstrengungsbereitschaft, Neigung zur Selbstdarstellung etc.).
Davon zu unterscheiden ist die Tendenz vieler Versuchspersonen, sich möglichst in einer Weise zu verhalten, wie sie es als sozial erwünscht bzw. von der Versuchsleitung als erwartet unterstellen. Dies verweist darauf, dass die Versuchspersonen – nicht nur wenn sie selbst Psychologie studieren – während des Experimentes Hypothesen zu den vermuteten Zielen der Untersuchung entwickeln, die ihr Verhalten mit beeinflussen (vgl. Sedlmeier & Renkewitz, 2008, S. 143).

48
Q

Was sind Versuchsleiter-Erwartungseffekte?

A

Die Ziele der Untersuchung und die konkreten Erwartungen der Versuchsleitung an die Versuchspersonen können mehr oder weniger gut verborgen oder aber explizit gemacht sein. Je umfangreicher die soziale Interaktion zwischen Versuchsleitung und Versuchspersonen ist (wie z.B. in den Experimenten von Milgram 1974, vgl. Abschnitt 7.2.6), desto stärker kann – unbeabsichtigt – durch Blickkontakt, Gestik, Mimik, Körperhaltung und Betonung bei den Instruktionen eine Erwartungshaltung vermittelt werden. Die dadurch möglichen „VersuchsleiterErwartungseffekte“ wurden besonders von Rosenthal (1966) untersucht und nach ihm benannt. In Anwendung auf das Verhalten von Lehrenden in Schulklassen haben Rosenthal und Jacobson (1968) diesen Effekt nach einem Bildhauer der griechischen Mythologie namens Pygmalion benannt (s. Sedlmeier & Renkewitz 2008, S. 115f., S. 144). Eine kritische Reanalyse der Daten und Auswertungsmethoden dieser Studie haben Elashoff und Snow (1972) publiziert, wobei sie insbesondere die Vergleichbarkeit der Untersuchungsgruppen sowie die angewendeten statistischen Methoden (der schrittweisen Regressionsanalyse und der Kovarianzanalyse) „durchleuchten“. Zur Reduzierung von Erwartungseffekten wird empfohlen, die Durchführung der Untersuchung und insbesondere das Verhalten der beteiligten Versuchsleiter/innen so weit wie möglich zu standardisieren (s. Bortz & Döring, 2006, S. 83). Eine vollständige Vermeidung von Erwartungseffekten ist nur dann wichtig, wenn diese in der Versuchsgruppe wesentlich stärker sind als in der Kontrollgruppe (oder umgekehrt). Ansonsten beeinflussen die Erwartungseffekte zwar das Ergebnis in beiden Untersuchungsgruppen, nicht aber die Differenz der Effekte: Wenn z.B. der Hawthorne-Effekt in der Versuchsund Kontrollgruppe gleich wäre, würde sich dessen Beitrag zum Mittelwert der abhängige Variable Y bei der Berechnung des experimentellen Effektes aufheben, wenn der als Differenz der Mittelwerte der Versuchsund Kontrollgruppe bestimmt wird. Sobald aber gruppenspezifische Erwartungseffekte auftreten, kann ihr Beitrag zum experimentellen Effekt weder ignoriert noch abgeschätzt werden.

49
Q

Was ist die konsequenteste Art der Ausschaltung von Erwartungseffekten bei den Probanden und den Versuchsleitern?

A

Der Doppelblind-Versuch, bei dem die Durchführung der Untersuchung von Personen übernommen wird, die weder die Fragestellung der Untersuchung noch die Unterscheidung zwischen Versuchs- und Kontrollgruppe kennen. Zudem wissen auch die Probanden nicht, ob sie zur Versuchs- oder zur Kontrollgruppe gehören, d.h. ob sie z.B. ein wirksames Präparat oder ein Placebo erhalten (s. Bortz & Döring, 2006, S. 84; Sedlmeier & Renkewitz, 2008, S. 145; Zimbardo & Gerrig, 2008, S. 32).

50
Q

Wie wird die positivierende Wirkung der bloßen Darbietung (mere exposure) kognitionspsychologisch erklärt?

A

Mit einer Verbesserung der impliziten Wahrnehmungsgeläufigkeit. Demnach stellt sich eine positive Bewertung gegenüber einem Objekt dann ein, wenn es flüssiger verarbeitet werden kann.