Nicht-experimentelle Ergebnisevaluation&quasi-experimentelle Evaluationsdesigns Flashcards

1
Q

Designs mit einer Gruppe - ein Beobachtungszeitpunkt

A

 Nur Posttest nach einer Maßnahme
 Fragestellung: zeigen Teilnehmer nach dem Programm eine Leistung, die zu impliziten oder expliziten Erwartungen an das Programm passt? z.B. werden Straftäter rückfällig oder nicht?
 Evaluator weiß aber nicht, ob Teilnehmer sich verbessert haben
Fragestellungen:
1) Wie ist die Leistungsfähigkeit in Bezug auf die Zielkriterien am Ende des Programms?
2) Wird der Minimalstandard an erwartete Ergebnisse erreicht?

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Designs mit einer Gruppe - zwei Beobachtungszeitpunkte

A

 Prätest & Posttest
 Verbesserung lässt sich nicht kausal dem Programm zuordnen (während des Trainins heißt nicht aufgrund des Trainings -> keine Kausalitätsannahme)
 eingeschränkte interne Validität
 Möglich z.B. selektiver Dropout (nur die Motivierten bleiben im Programm) und dadurch Verbesserung
Fragestellungen:
1) Wie ist die Leistungsfähigkeit in Bezug auf die Zielkriterien am Ende des Programms?
2) Wird der Minimalstandard an erwartete Ergebnisse erreicht?
UND
3) Wie sehr haben sich die Teilnehmer während der Teilnahme am Programm verändert?

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Welchen Sinn haben Designs mit nur einer Gruppe?

A

Beantwortung folgender Fragen:
1) Wie ist die Leistungsfähigkeit in Bezug auf die Zielkriterien am Ende des Programms?
2) Wird der Minimalstandard an erwartete Ergebnisse erreicht?
UND
3) Wie sehr haben sich die Teilnehmer während der Teilnahme am Programm verändert?
Posttest-Designs beantworten 1+2
Prä-Posttest-Designs beantworten 1+2+3

Evaluation muss nicht dieselben Fragen beantworten wie Forschung
Wenn Programme günstig & nicht schädlich für die Teilnehmer sind, muss keine super komplizierte Evaluation gemacht werden

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Verwendung des Prätest-Posttest-Designs -Haben sich die Programmteilnehmer verändert?

A

 Gab es überhaupt Veränderungen in die erhoffte Richtung
 Z.B. weniger alkoholisiertes Autofahren nach Aufklärungsprogrammen
 Naive Idee: Statistische Signifikanz zwischen Prä- & Posttest bedeutet, dass das Programm eine Wirkung zeigt
 NEIN, es sagt nichts über Kausalität der Veränderungen
 Naive Idee 2: Wenn es nicht signifikant ist heißt, dass es keine Veränderung gab
 NEIN, kann auch an kleiner Stichprobe und unreliablen Instrumenten liegen

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Verwendung des Prätest-Posttest-Designs - Haben sich die Programmteilnehmer GENUG verändert?

A

 Selbst wenn Signifikanz besteht, so besteht trotzdem noch die Frage, ob der Effekt groß genug ist, dass es für die Teilnehmer einen wirklichen Unterschied im Alltag macht
 Evaluatoren sollten sensibel gegenüber bedeutungsvollen Veränderungen sein und nicht nur gegenüber statistischer Signifikanz -> Praktische Relevanz
 Schwer zu beantworten, ab wann praktische Relevanz besteht
 Man könnte z.B. Kosten-Nutzen-Kalkulationen machen

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Verwendung des Prätest-Posttest-Designs - Veränderungen im Zusammenhang mit Programmaufwand & Teilnehmer-Eigenschaften

A

Programmaufwand
 Neben der Beobachtung der allgemeinen Veränderung bei den Teilnehmer (s.o.), kann man die Veränderung auch in Relation zu der erhaltenen Leistung beziehen
 Z.B. Zustand eines Patienten in Relation zu Behandlungsaufwand
Teilnehmer Eigenschaften
 Man kann die Veränderung in Relation zu Eigenschaften der Teilnehmer setzen
 Z.B. Frauen vs. Männer; Altersgruppen etc.
 Stellen sich bestimmte Eigenschaften als relevant heraus, sollten sie in zukünftige Studien einbezogen werden
Statistische Herangehensweise
 Idee: (Posttestwert – Prätestwert) = Veränderungsscore  mit Alter usw. korrelieren
 sollte man nicht machen. Um zu verstehen warum bräuchte man fundiertere statistische Kenntnisse, als dem Leser zugetraut wird (das steht da wirklich :D) Im Prinzip ist es bei Leuten, die im Prätest schlecht sind wahrscheinlicher sich zu verbessern als für Leute, die von Anfang an gut sind
 Besser: Residualisierte Veränderungsscores
1. Schritt: Regression Prätestwert=Prädiktor ; Posttestwert=Kriterium
Für jeden Teilnehmer wird der erwartete Posttestwert vorhergesagt  dann wird geguckt wie weit dieser Wert vom tatsächlichen Posttestwert abweicht (Residuale Veränderung)
2. Schritt: Regression Prätestwert=Prädiktor , Anzahl Behandlungseinheiten=Kriterium
Für jeden Teilnehmer wird die erwartete Anzahl an Behandlungseinheiten vorhergesagt  dann wird geguckt wie weit dieser Wert von der tatsächlichen Anzahl abweicht (Residuale Anzahl Behandlungseinheiten)
3. Schritt: Korrelation(Residuale Veränderung / Residuale Anzahl Behandlungseinheiten)
Beispiel 0.72  die Teilnehmer, die mehr Behandlungseinheiten hatten haben sich auch mehr verbessert, unabhängig von ihrem Prätestwert

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Anmerkungen: Interne Validität

A

3.4 Interaktion der Gefahren für die interne Validität
Selektion durch Reifungs-Interaktion: z.B. Eltern die nach Fördermöglichkeiten für ihre Kinder suchen (Selektion), könnten Kinder haben, die sich eh schon schneller entwickeln als andere Kinder (Reifung)
3.5 Gefahren für die interne Validität sind zweischneidige Schwerter
Evaluator sollte prüfen, ob der signifikante Effekt des Programms an den Gefahren für die interne Validität liegen könnte ( Programm ist eigentlich gar nicht effektiv) Es könnte aber auch ein nicht signifikanter Effekt trotz reliabler Messung und großer Stichprobe heißen, dass das Programm eigentlich effektiv ist und dieser Effekt durch die Gefahren für die interne Validität verschleiert wird.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Wie kann man Bedrohungen der Konstruktvalidität minimieren?

A

(1) Zwischen Information zur Programmevaluation und Information zu Behandlungsentscheidungen unterscheiden
(2) Teilnehmern klar machen, dass das was sie sagen irgendwie validiert wird
(3) Interviewer sollten Erfahrung mit dem Programm und den Problemen der Teilnehmer haben
(4) Wenn sich Teilnehmer selbst einschätzen sollen, explizit eine Referenzgruppe mit angeben
(5) Verhaltens-Ankerpunkte z.B. „Ich bin so depressiv, dass ich nichts mehr schaffe“ statt „Ich bin sehr depressiv“
(6) (Manche sagen, man sollte Prätestinfos lieber retrospektiv erfragen)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Überinterpretation der Ergebnisse von Designs mit einer Gruppe

A

 Signifikanzfischen -> nach Signifikanzen zwischen Programm und allen möglichen Teilnehmereigenschaften suchen
 Mit Kreativität kann man jedes Ergebnis irgendwie theoretisch begründen
 Evaluation wird selten repliziert  Aussagekraft eines einzelnen Ergebnisses möglicherweise nicht so groß
-> Ergebnisse immer vorsichtig interpretieren

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Nützlichkeit von Designs mit einer Gruppe

A

Sie sind günstiger und einfacher durchzuführen
Verwendung
(1) Beurteilung des Nutzens einer komplexeren Evaluation
(2) Variablen finden, denen der Erfolg des Programms zugeschrieben werden kann
(3) Um den Weg für aufwendigere Evaluationsdesigns zu ebnen (die Durchführer des Programms auf komplexere Evaluation vorbereiten)
6.1 Überprüfung ob sich weitere Evaluation lohnt
 Wenn sich gar keine Verbesserung/ der erwünschte Effekt im Ein-Gruppen-Design zeigt ist das Programm wahrscheinlich eh Müll und man muss keine aufwendige Evaluation machen
 Wenn doch kann man mit dem Ein-Gruppen-Design beim Auftraggeber vielleicht schon den Weg für weitere Evaluation ebnen
6.2 Verbesserung in Korrelation mit anderen Variablen
 Z.B. Anzahl der Behandlungseinheiten oder Eigenschaften der Teilnehmer
 Wenn nur Personen profitieren, die vorher schon ganz gut waren ist das Programm eh Müll
 Wenn unterschiedliche Personen profitieren könnte man weitere Evaluation machen
6.3 Weg für weitere Evaluation ebnen
 Beginn mit Ein-Gruppen-Design könnte Akzeptanz von Evaluation bei Teilnehmern erhöhen, so dass man danach noch mehr machen kann
 Ein-Gruppen-Designs sind für die meisten Menschen am wenigsten „einschüchternd“
 Auftraggeber lassen ihre Institution nicht unbedingt gerne mit anderen Institutionen vergleichen, ebenso wenig Teilnehmer

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Wie kann man die Validität von Evaluationsstudien erhöhen? (Um kausale Beziehungen zu demonstrieren und Alternativerklärungen auszuschließen)

A

1) Anzahl der Messzeitpunkte
Beobachtung von Teilnehmer zu zusätzlichen Zeitpunkten vor und nach dem Programm
2) Vergleichsgruppe
Beobachten von zusätzlichen Personen, die das Programm nicht erhalten haben
3) Untersuchung anderer Variablen
Verwenden von verschiedene Variablen, von denen von einigen angenommen werden kann, dass sie durch das Programm beeinflusst werden und von einigen, dass sie durch das Programm nicht beeinflusst werden

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Time-series-Design (Zeitreihendesign)

A

Verwendung vieler Informationen über eine Reihe von Zeitintervallen
Anliegen von Programm Evaluatoren: Stabile base-line Messungen vor einer Intervention und die Dokumentation von sowohl Veränderungen als auch ihrer Stabilität
Sowohl in Verhaltensanalyse als auch in Ökonomie: Untersucher erhält eine Beobachtung/einen Wert für jede Variable für jedes Zeitintervall
 Informationen über lange Zeit sammeln verbessert interne Validität

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

(Mindest)Bestandteile einer Time-Series Untersuchung:

A
  1. Festlegen einer Einzel-Einheit
  2. eine Vielzahl von Beobachtungen wird gemacht
  3. über eine Anzahl von Zeitintervallen
  4. die einer kontrollierten oder natürlichen Intervention vorausgehen oder folgen
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Interrupted Time Series (Unterbrochene Zeitserie):

A

Eine bestimmte Intervention tritt zu einem bestimmten Zeitpunkt auf. Der Evaluator untersucht, ob diese Unterbrechung eine Einfluss hat
Fragestellung:
Haben Reifung und Geschichte einen Einfluss auf die AV?

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Nichtäquivalente Kontrollgruppendesigns

A

 Verbesserte Interpretierbarkeit von Evaluation durch Vergrößerung der Anzahl an Gruppen, die beobachtet werden
 Pretest-Posttest Design mit weiterer Gruppe (Vergleichsgruppe), die keine Intervention erhält (aber ansonsten den gleichen Bedingungen ausgesetzt ist) = Nichtäquivalente Kontrollgruppen Design
 Größter Schwachpunkt eines Nichtequivalente Kontrollgruppen-Designs: Auswahl einer Vergleichsgruppe, die nicht ausreichend ähnlich zu der Programm-Gruppe (=Experimentalgruppe) ist, um valide Interpretationen treffen zu können (z.B. Die die sich aussuchen, am Programm teilzunehmen, Reifen schneller als die in der Kontrollgruppe –> Super-Eltern die ihre Super-Kinder super fördern wollen, und weil es Super-Kinder sind bekommen die sowieso schon viel mehr Aufmerksamkeit zuhause als Normalo-Kinder)
 Lösung: Matchen von Kontrollgruppe und Experimentalgruppe (gleiche/ähnliche Werte in bestimmten Variablen) –> Gut für Auswahl von Vergleichsgruppen, aber nicht für deren Bildung (sollte zufällig erfolgen)
 Fazit: Nichtäquivalente Kontrollgruppen-Designs sind besonders anfällig für Regressions-Effekte, wenn die Gruppen sich systematisch in einigen Dimensionen unterscheiden
 Aber auch viele preexisting Unterschiede haben Einfluss auf die Vergleichbarkeit von Kontrollgruppe und Experimentallgruppe in ihren Pretest-Scores (z.B. Vergleich zweier Klassen: Ist eine Unterrichtsmethode erfolgreicher? In Kontrollgruppe könnte die Lehrerin früher bereits Elemente dieser Methode benutzt haben)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Regression-Diskontinuitäts Design

A

 Es gibt eine Situation, in der der Vergleich von nicht-äquivalenten Gruppen noch besser funktioniert, als bisher präsentiert :))!! WUhu
 Und zwar: Wenn die Eignung für ein Programms auf einer kontinuierlichen Variable basiert (z.B. Einkommen, Level an Behinderung) kann das Regressions-Diskontinuitätsdesign verwendet werden
Wenn nun der Regressionskoeffizient für 2) statistisch signifikant ist –> Programm war effektiv (es besteht also eine Diskontinuität in der Beziehung von Prä- und Posttest)
2= Variable die Zugehörigkeit kodiert -> (experimental/Kontroll)

17
Q

Beobachtung anderer abhängiger Variablen -> Control Construct Design

A

Es ist möglich, die Validität von Interpretationen zu vergrößern, indem man weitere abhängige Variablen betrachtet, von denen man ausgeht, dass sie nicht/kaum durch das Programm verändert werden –> Das nennt man: Control Construct Design
 Zusätzliche Variablen müssen:
1. In die gleiche Gefährdung der internen Validität wie die Outcome-Messung haben
2. Dürfen nicht durch das Programm beeinflusst sein
 Beispiel: Untersuchung zu medienbasierter Gesundheitskampagne. Es wurde eine Befragung am Uni-Campus durchgeführt, aber zu Kontrollkonstrukten, die nicht Teil der Kampagne waren, aber auch gesundheitsbezogen

18
Q

Kombination von Methoden, um die interne Validität zu erhöhen

A

5.1 Time-Series und Nichtäquivalente Vergleichsgruppen
 Die am besten interpretierbaren quasiexperimentellen Designs sind die, die die zuvor vorgestellten Ansätze kombinieren
 Riecken und Boruch: Tests auf Signifikanz sind weniger wichtig als das qualitative Verstehen der verschiedenen Gefährdungen, die auf die Validität der kausalen Schlüsse über den Einfluss einer Intervention Einfluss nehmen.
 Ein Schlüssel zu validen Interpretationen auf Grundlage von Beobachtungen ist die Möglichkeit zur Wiederholung von Beobachtungen –> Studie replizieren
 Ein Time-Series Design mit einer Vergleichsgruppe, die die selbe Intervention wie die Experimentalgruppe erhält aber zu einem späteren Zeitpunkt, ermöglicht weitere Sicherheiten gegen Validitäts-Gefährdungen (Figure 9.7). Nach Cook und Campbell nennt man ein solches Design “interrupted time series with switching replications”
 Bei einem solchen Verlauf muss man kaum was statistisch analysieren [rechnen, iiiih!]
5.2 Das Patch-Up Design [quasi “Flicken-Design”]
 Analyse der Kontexts eines Programms ermöglicht Identifikation möglicher Gefährdungen der internen Validität
 Möglichkeit weitere Vergleichsgruppen zu bilden –> Bis die am plausibelsten konkurrierenden Interpretationen eliminiert sind
 Beispiel: Ist Auslandsprogramm für Entwicklung von Studenten erfolgreich?
o Problem: Vergleich von Studenten, die im Ausland waren und denen, die es nicht waren –> Selektionseffekte (nur bestimmte Studenten [Ritchbitch, Blingbling] gehen ins Ausland)
o 2. Problem: Vergleich von Studenten die im Ausland waren und solchen, die es vorhaben –> Reifeeffekte (die, die noch nicht im Ausland waren, sind jünger)
o Lösung: Einfach beide Gruppen als Vergleich wählen!
o Falls Selbst-Selektion zu höheren Werte führt, sollte die obere Reihe höhere Werte haben
o Falls Reifung zu höheren Werten führt, sollte die rechte Spalte höhere Werte haben
o Falls das Programm einen Einfluss hat, sollte die rechte obere Gruppe (Senioren im Ausland…Rentnerreise. Nein wir sprechen natürlich von Studenten) einen besonders hohen Wert haben
 Weite Verbreitung von quasi-experimentellen Evaluationsdesigns. Ermöglichen Evaluator notwendige Information zu generieren, um die möglichen Ursachen von Veränderungen bei Programmteilnehmern zu isolieren
 Aaaaber: Die Verwendung solcher quasi-experimentellen Evaluationsdesigns ist nicht einfach! Der Evaluator muss für jede Untersuchung überlegen, welche Gefahren für die interne Validität berücksichtigt werden müssen :O
 So ganz allgemein zum Abschluss: Wenn es möglich ist, sollte man eine experimentelle Untersuchung machen (da kann man super Gefahren für die interne Validität kontrollieren)