Methoden der empirischen Sozialforschung Flashcards
Was ist das Bestimmtheitsmaß?
Das Bestimmtheitsmaß zeigt, wie gut das Modell die tatsächliche Datenlage abdeckt.
Dafür teilt man die erklärte Variation (ESS) durch die tatsächliche Variation (TSS) und erhält somit einen Prozentsatz. Je höher, desto besser.
Bedeutung TSS
total sum of squares - tatsächliche Variation der Daten
berechnet sich aus der tatsächlichen Varianz der Y-Werte, also der Summe der Differenzen zwischen den einzelnen tatsächlichen Y-Werten und dem Y Mittelwert im Quadrat
Bedeutung ESS
Explained sum of squares
berechnet sich aus der erklärten/geschätzten Varianz der Y-Werte, also der Summe der Differenzen zwischen den geschätzten Y-Werten und dem geschätzten Y-Mittelwert im Quadrat
Erklärung Omitted Variable Bias
Verzerrung, die dadurch entsteht, dass eine Variable weggelassen wurde, die
1. sowohl mit X
2. als auch mit Y
korreliert.
Unter welchen 3 Annahmen sind die KQ-Schätzungen
- unverzerrt und
- konsistent?
- Die bedingte Verteilung der Fehler der erklärenden Variablen hat den Erwartungswert 0, im Durschnitt beschreibt das Modell also den richtigen Zusammenhang E (u/X) = 0
- X und Y sind iid
(nicht Dünger testen auf besonders sonnigem Landstück). - Wenig Ausreißer, kleine Kurtosis (Wölbung der Kurve)
Welche Annahmen werden normalerweise sonst noch für die KQ Schätzungen getroffen, um sicherzustellen, dass sie sinnvolles Schätzen ermöglichen?
- die Fehler sind homoskedastisch
(die Streuung/Varianz der einzelnen Punkte um die Gerade ist konstant, die Varianz ist also unabhängig von X, KQ macht also Sinn),
heteroskedastisch ist allerdings der Normalfall - die Fehler sind normalverteilt (dann sind die Schätzer normalverteilt)
Was gilt für beta 1 Dach, wenn die Annahmen der KQ erfüllt sind in Bezug auf die Verteilung?
unverzerrt, also Erwartungswert (Beta 1 Dach) = Beta 1
konsistent, also beta 1 ^ geht gegen beta 1 bei hoher Stichprobenzahl
-> beta 1 Dach ist approximativ normalverteilt
Was beschreibt der p-Wert?
Wie wahrscheinlich ist es, durch Zufall ein Ergebnis zu erzielen, das so gut (oder besser) ist als das erzielte Ergebnis?
Er hilft uns also zu entscheiden, ob unser Ergebnis einfach nur durch Zufall entstanden ist.
Ist der p-Wert besonders klein, wird H0 verworfen, da die Wahrscheinlichkeit, dass es nur zufall war, gering ist.
Was beschreibt das Signifikanzniveau?
Den Schwellenwert des p-Werts, bei dem man die Nullhypothese verwirft. Meistens < 5 %.
D.h. die Wahrscheinlichkeit, dass das Ergebnis durch reinen Zufall erzielt wurde, liegt bei weniger als 5 % - aufgeteilt in 97,5 und 2,5 Schwelle.
Die Nullhypothese wird, auch wenn sie zutrifft, demnach auch mit einer Wahrscheinlichkeit von 5% verworfen.
Was ist der t-Test?
Test für Mittelwerte
-> Ist getroffenen Mittelwertannahme ok oder nicht?
Was ist eine Wahrscheinlichkeitsfunktion?
Zeigt die Wahrscheinlichkeit jedes X-Wertes an mit Massepunkten (nur bei diskreten Variablen)
bei stetigen Variablen wird daraus eine Dichtefunktion (wie Standardnormalverteilung)
Was ist eine Dichtefunktion?
Zeigt Wahrscheinlichkeit von stetigen X Werten an
um Wahrsch. herauszufinden muss man x Wert markieren und alles links davon, die ganze Fläche, entspricht der Wahrsch.
Was ist eine Verteilungsfunktion?
ordnet jedem X eine Wahrsch. zu
wenn diskret: dann Treppenfunktion
wenn stetig: dann konstante Steigung bis 1
dann heißt es: F(x) = P(X < x)
Bernoulli Verteilung
Wahrscheinlichkeit gegeben durch p und 1 - p
E(X) = p Var(X) = p * (1 - p)
Bernoulli-Verteilung E(X)
p
Bernoulli Verteilung Var(X)
p * (1 - p)
Mehrdimensionale Zufallsvariablen
haben eine gemeinsame Wahrscheinlichkeits- und Dichtefunktion
Kovarianz Definition
wie bewegen sich zwei Zufallsvariablen zusammen
misst nur linearen Zusammenhang!
Rechenregel: Cov(x,y) = E(xy) - E(x)*E(y)
Korrelation Definition
Normierung der Kovarianz auf [-1;1]
misst nur linearen Zusammenhang!
Wann sind zwei Zufallsvariablen stochastisch unabhängig?
Was gilt dann (Kovarianz, Korrelation)?
Wenn das Wissen über die Ausprägung einer Variable keine Info über die andere enthält
Dann gilt: Cov = Corr = 0 und Var (X + Y) = Var (X) + Var (Y)
Umkehrung gilt nicht!
Rechenregel Varianz von X + Y
Var (X + Y) = Var (X) + Var (Y) + 2*Cov(X,Y)
Rechenregel Erwartungwert von X + Y
E(X + Y) = E(X) + E(Y)
egal ob Y und X unabhängig oder nicht
Wie ist der Mittelwert Y quer einer Zufallsstichprobe verteilt?
normalverteilt
MW ist abhängig von Zufallsstichprobe, er fällt also mal so, mal so aus, je nach dem, was für eine Stichprobe es ist, weil er ja einfach 1/n * die Summe aller Y ist
-> dadurch ist auch er normalverteilt mit dem E(X) von mü, die Varianz sinkt mit steigendem n
Gesetz der großen Zahlen
Mittelwert einer Zufallsstichprobe ist normalverteilt und konvergiert gegen u falls Y iid ist und Ausreißer unwahrscheinlich sind (also geringe Varianz)
der zentrale Grenzwertsatz
wenn Y iid und E(Y) = mü, und kleine Varianz, dann nähert sich Verteilung der Standardnormalverteilung an
also: bei hohem n nähert verwenden wir Standardnormalverteilung
Was ist eine Schätzfunktion/Schätzer?
eine Funktion der Y1 bis Yn einer Stichprobe im Umfang von n
Schätzer nimmt für konkrete Stichprobe einen geschätzten Wert an
Schätzer ist auch Zufallsvariable und besitzt damit Varianz und Erwartungswert
Ein Schätzer/Schätzfunktion ist eine Zufallsvariable, was folgt daraus?
Auch sie besitzt E und Var
Eigenschaften von Schätzfunktionen
- Verzerrung/Bias: Differenz E(mü Dach) - mü
2. Konsistenz: mü Dach konvergiert gegen mü
Woher weiß ich, welche Schätzfunktion effizienter ist?
Die mit geringerer Varianz
Voraussetzung: beide unverzerrt, also Differenz E(mü Dach) - mü = 0
Wie groß muss t sein, damit ich H0 ablehne?
|t| > 1,96
Was sind Punktschätzer?
mü Dach ist ein Punktschätzer von u, weil er uns nur einen möglichen Wert gibt (der sagt, aber wenig aus, da wir nicht wissen, wie viel er streut)
Was ist ein Konfidenzintervall?
Gibt alle H0 an, die im Rahmen des t-Tests zum Sign. alpha nicht verworfen werden können, benutzt also nicht den ungenauen Punktschätzer mü Dach, sondern ein Intervall
also: [mü dach - 1,96 sigma dach; mü dach + 1,96 sigma dach]
Struktur Teststatisik
(Schätzer - H0) / geschätzter Standardfehler des Schätzers
also: z.B. Y quer - mü / Standardabweichung
oder: beta 1 Dach - beta 1 (Nullhypothese) / Standardabweichung dach
-> normalverteilt, wenn KQ Annahmen gelten
Wann ist die Teststatistik normalverteilt?
Wenn KQ Annahmen gelten!
Was ist der Fehler 1. Art?
Ablehnen, obwohl H0 wahr
Wahrscheinlichkeit, H0 abzunehmen, obwohl sie stimmt liegt beim Signifikanzniveau
Was passiert, wenn ich im Fall von Heteroskedastizität eine KQ Schätzung durchführe und Homoskedastizität unterstelle?
Standardfehler (Standardabweichung) ist zu klein eingeschätzt, wird nach unten verzerrt, das heißt Nullhypothesen zu oft verworfen (da sigma im Nenner der t-Statistik ist -> bei zu großem Nenner also Ablehnung) und Konfidenzintervalle sind zu kurz (wegen Einfluss auf Standardabweichung)
Was bedeutet das multiple lineare Regressionsmodell?
Wir erweitern das lineare Regressionsmodell von einer auf mehrere erklärende Variablen (Regressoren), um einen kausalen Effekt zu messen.
Bisher haben wir alle nicht modellierten Einflüsse mit Fehlerterm u abgedeckt, Problem: omitted variable bias
Wann erhalten wir eine Verzerrung (OVB)
wenn Variable W
1. mit X korreliert ist
und 2. einen Einfluss auf Y hat
Definition: Interne Validität
wenn die statistischen Schlussfolgerungen über die entsprechenden kausalen Zusammenhänge für die betrachtete Population zutreffen
Definition: Externe Validität
wenn die statistischen Schlussfolgerungen über die entsprechenden kausalen Zusammenhänge sich auf andere Populationen übertragen lassen
Kriterien für interne Validität
Die Schätzfunktionen müssen (asymptotisch) unverzerrt und konsistent sein
Die Konfidenzintervalle müssen das Konfidenzniveau einhalten (bzw. die Tests das Signifikanzniveau)
Wir müssen also sicher stellen, dass die kleinste Quadrate Annahmen zutreffen und dass die Standardfehler korrekt berechnet werden
Kriterien für externe Validität
Population sollte nicht zu stark von betrachteter abweichen (Tierversuche)
Überprüfung von externer Validität erfordert detailliertes Wissen über andere Pop. und Rahmenbedingungen (Replikationsstudien oft sinnvoll)
Gefährdung der internen Validität, wenn..
Omitted variable bias Funktionale Fehlspezifikation Messfehler in Variablen Selektionsproblem simultane Kausalität
Wie kann man OMB bei unbeobachteter Heterogenität vermeiden?
mit Paneldaten für manche Formen individueller Heterogenität kontrollieren
- feste individuelle Effekte, wenn Merkmale eines Individuums über Zeit konstant
- Zeiteffekte, wenn Merkmale schwankend über Zeit, aber für alle Individuen identisch
Kriterien für gute Daten
- Objektivität
- Validität
- Zuverlässigkeit
(Problem: Unschärferelation)
Datenarten/Informationsgehalt
Nominalskalierung (Bahn vs. Auto)
Ordinalskalierungen (Noten)
Kardinalskalierung (Temperatur)
- > Intervallskala: Interpretieren. von Differenzen
- > Verhältnisskala: Differenzen und Quotienten (Einkommen)