Methoden der empirischen Sozialforschung Flashcards

1
Q

Was ist das Bestimmtheitsmaß?

A

Das Bestimmtheitsmaß zeigt, wie gut das Modell die tatsächliche Datenlage abdeckt.

Dafür teilt man die erklärte Variation (ESS) durch die tatsächliche Variation (TSS) und erhält somit einen Prozentsatz. Je höher, desto besser.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Bedeutung TSS

A

total sum of squares - tatsächliche Variation der Daten

berechnet sich aus der tatsächlichen Varianz der Y-Werte, also der Summe der Differenzen zwischen den einzelnen tatsächlichen Y-Werten und dem Y Mittelwert im Quadrat

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Bedeutung ESS

A

Explained sum of squares

berechnet sich aus der erklärten/geschätzten Varianz der Y-Werte, also der Summe der Differenzen zwischen den geschätzten Y-Werten und dem geschätzten Y-Mittelwert im Quadrat

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Erklärung Omitted Variable Bias

A

Verzerrung, die dadurch entsteht, dass eine Variable weggelassen wurde, die
1. sowohl mit X
2. als auch mit Y
korreliert.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Unter welchen 3 Annahmen sind die KQ-Schätzungen

  1. unverzerrt und
  2. konsistent?
A
  1. Die bedingte Verteilung der Fehler der erklärenden Variablen hat den Erwartungswert 0, im Durschnitt beschreibt das Modell also den richtigen Zusammenhang E (u/X) = 0
  2. X und Y sind iid
    (nicht Dünger testen auf besonders sonnigem Landstück).
  3. Wenig Ausreißer, kleine Kurtosis (Wölbung der Kurve)
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Welche Annahmen werden normalerweise sonst noch für die KQ Schätzungen getroffen, um sicherzustellen, dass sie sinnvolles Schätzen ermöglichen?

A
  • die Fehler sind homoskedastisch
    (die Streuung/Varianz der einzelnen Punkte um die Gerade ist konstant, die Varianz ist also unabhängig von X, KQ macht also Sinn),
    heteroskedastisch ist allerdings der Normalfall
  • die Fehler sind normalverteilt (dann sind die Schätzer normalverteilt)
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Was gilt für beta 1 Dach, wenn die Annahmen der KQ erfüllt sind in Bezug auf die Verteilung?

A

unverzerrt, also Erwartungswert (Beta 1 Dach) = Beta 1

konsistent, also beta 1 ^ geht gegen beta 1 bei hoher Stichprobenzahl

-> beta 1 Dach ist approximativ normalverteilt

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Was beschreibt der p-Wert?

A

Wie wahrscheinlich ist es, durch Zufall ein Ergebnis zu erzielen, das so gut (oder besser) ist als das erzielte Ergebnis?
Er hilft uns also zu entscheiden, ob unser Ergebnis einfach nur durch Zufall entstanden ist.
Ist der p-Wert besonders klein, wird H0 verworfen, da die Wahrscheinlichkeit, dass es nur zufall war, gering ist.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Was beschreibt das Signifikanzniveau?

A

Den Schwellenwert des p-Werts, bei dem man die Nullhypothese verwirft. Meistens < 5 %.
D.h. die Wahrscheinlichkeit, dass das Ergebnis durch reinen Zufall erzielt wurde, liegt bei weniger als 5 % - aufgeteilt in 97,5 und 2,5 Schwelle.

Die Nullhypothese wird, auch wenn sie zutrifft, demnach auch mit einer Wahrscheinlichkeit von 5% verworfen.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Was ist der t-Test?

A

Test für Mittelwerte

-> Ist getroffenen Mittelwertannahme ok oder nicht?

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Was ist eine Wahrscheinlichkeitsfunktion?

A

Zeigt die Wahrscheinlichkeit jedes X-Wertes an mit Massepunkten (nur bei diskreten Variablen)

bei stetigen Variablen wird daraus eine Dichtefunktion (wie Standardnormalverteilung)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Was ist eine Dichtefunktion?

A

Zeigt Wahrscheinlichkeit von stetigen X Werten an

um Wahrsch. herauszufinden muss man x Wert markieren und alles links davon, die ganze Fläche, entspricht der Wahrsch.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Was ist eine Verteilungsfunktion?

A

ordnet jedem X eine Wahrsch. zu

wenn diskret: dann Treppenfunktion

wenn stetig: dann konstante Steigung bis 1
dann heißt es: F(x) = P(X < x)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Bernoulli Verteilung

A

Wahrscheinlichkeit gegeben durch p und 1 - p

E(X) = p 
Var(X) = p * (1 - p)
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Bernoulli-Verteilung E(X)

A

p

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Bernoulli Verteilung Var(X)

A

p * (1 - p)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
17
Q

Mehrdimensionale Zufallsvariablen

A

haben eine gemeinsame Wahrscheinlichkeits- und Dichtefunktion

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
18
Q

Kovarianz Definition

A

wie bewegen sich zwei Zufallsvariablen zusammen

misst nur linearen Zusammenhang!

Rechenregel: Cov(x,y) = E(xy) - E(x)*E(y)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
19
Q

Korrelation Definition

A

Normierung der Kovarianz auf [-1;1]

misst nur linearen Zusammenhang!

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
20
Q

Wann sind zwei Zufallsvariablen stochastisch unabhängig?

Was gilt dann (Kovarianz, Korrelation)?

A

Wenn das Wissen über die Ausprägung einer Variable keine Info über die andere enthält

Dann gilt: Cov = Corr = 0 und Var (X + Y) = Var (X) + Var (Y)
Umkehrung gilt nicht!

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
21
Q

Rechenregel Varianz von X + Y

A

Var (X + Y) = Var (X) + Var (Y) + 2*Cov(X,Y)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
22
Q

Rechenregel Erwartungwert von X + Y

A

E(X + Y) = E(X) + E(Y)

egal ob Y und X unabhängig oder nicht

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
23
Q

Wie ist der Mittelwert Y quer einer Zufallsstichprobe verteilt?

A

normalverteilt
MW ist abhängig von Zufallsstichprobe, er fällt also mal so, mal so aus, je nach dem, was für eine Stichprobe es ist, weil er ja einfach 1/n * die Summe aller Y ist
-> dadurch ist auch er normalverteilt mit dem E(X) von mü, die Varianz sinkt mit steigendem n

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
24
Q

Gesetz der großen Zahlen

A

Mittelwert einer Zufallsstichprobe ist normalverteilt und konvergiert gegen u falls Y iid ist und Ausreißer unwahrscheinlich sind (also geringe Varianz)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
25
Q

der zentrale Grenzwertsatz

A

wenn Y iid und E(Y) = mü, und kleine Varianz, dann nähert sich Verteilung der Standardnormalverteilung an

also: bei hohem n nähert verwenden wir Standardnormalverteilung

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
26
Q

Was ist eine Schätzfunktion/Schätzer?

A

eine Funktion der Y1 bis Yn einer Stichprobe im Umfang von n

Schätzer nimmt für konkrete Stichprobe einen geschätzten Wert an

Schätzer ist auch Zufallsvariable und besitzt damit Varianz und Erwartungswert

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
27
Q

Ein Schätzer/Schätzfunktion ist eine Zufallsvariable, was folgt daraus?

A

Auch sie besitzt E und Var

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
28
Q

Eigenschaften von Schätzfunktionen

A
  1. Verzerrung/Bias: Differenz E(mü Dach) - mü

2. Konsistenz: mü Dach konvergiert gegen mü

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
29
Q

Woher weiß ich, welche Schätzfunktion effizienter ist?

A

Die mit geringerer Varianz

Voraussetzung: beide unverzerrt, also Differenz E(mü Dach) - mü = 0

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
30
Q

Wie groß muss t sein, damit ich H0 ablehne?

A

|t| > 1,96

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
31
Q

Was sind Punktschätzer?

A

mü Dach ist ein Punktschätzer von u, weil er uns nur einen möglichen Wert gibt (der sagt, aber wenig aus, da wir nicht wissen, wie viel er streut)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
32
Q

Was ist ein Konfidenzintervall?

A

Gibt alle H0 an, die im Rahmen des t-Tests zum Sign. alpha nicht verworfen werden können, benutzt also nicht den ungenauen Punktschätzer mü Dach, sondern ein Intervall

also: [mü dach - 1,96 sigma dach; mü dach + 1,96 sigma dach]

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
33
Q

Struktur Teststatisik

A

(Schätzer - H0) / geschätzter Standardfehler des Schätzers

also: z.B. Y quer - mü / Standardabweichung
oder: beta 1 Dach - beta 1 (Nullhypothese) / Standardabweichung dach

-> normalverteilt, wenn KQ Annahmen gelten

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
34
Q

Wann ist die Teststatistik normalverteilt?

A

Wenn KQ Annahmen gelten!

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
35
Q

Was ist der Fehler 1. Art?

A

Ablehnen, obwohl H0 wahr

Wahrscheinlichkeit, H0 abzunehmen, obwohl sie stimmt liegt beim Signifikanzniveau

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
36
Q

Was passiert, wenn ich im Fall von Heteroskedastizität eine KQ Schätzung durchführe und Homoskedastizität unterstelle?

A

Standardfehler (Standardabweichung) ist zu klein eingeschätzt, wird nach unten verzerrt, das heißt Nullhypothesen zu oft verworfen (da sigma im Nenner der t-Statistik ist -> bei zu großem Nenner also Ablehnung) und Konfidenzintervalle sind zu kurz (wegen Einfluss auf Standardabweichung)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
37
Q

Was bedeutet das multiple lineare Regressionsmodell?

A

Wir erweitern das lineare Regressionsmodell von einer auf mehrere erklärende Variablen (Regressoren), um einen kausalen Effekt zu messen.

Bisher haben wir alle nicht modellierten Einflüsse mit Fehlerterm u abgedeckt, Problem: omitted variable bias

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
38
Q

Wann erhalten wir eine Verzerrung (OVB)

A

wenn Variable W
1. mit X korreliert ist
und 2. einen Einfluss auf Y hat

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
39
Q

Definition: Interne Validität

A

wenn die statistischen Schlussfolgerungen über die entsprechenden kausalen Zusammenhänge für die betrachtete Population zutreffen

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
40
Q

Definition: Externe Validität

A

wenn die statistischen Schlussfolgerungen über die entsprechenden kausalen Zusammenhänge sich auf andere Populationen übertragen lassen

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
41
Q

Kriterien für interne Validität

A

Die Schätzfunktionen müssen (asymptotisch) unverzerrt und konsistent sein

Die Konfidenzintervalle müssen das Konfidenzniveau einhalten (bzw. die Tests das Signifikanzniveau)

Wir müssen also sicher stellen, dass die kleinste Quadrate Annahmen zutreffen und dass die Standardfehler korrekt berechnet werden

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
42
Q

Kriterien für externe Validität

A

Population sollte nicht zu stark von betrachteter abweichen (Tierversuche)
Überprüfung von externer Validität erfordert detailliertes Wissen über andere Pop. und Rahmenbedingungen (Replikationsstudien oft sinnvoll)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
43
Q

Gefährdung der internen Validität, wenn..

A
Omitted variable bias
Funktionale Fehlspezifikation
Messfehler in Variablen
Selektionsproblem
simultane Kausalität
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
44
Q

Wie kann man OMB bei unbeobachteter Heterogenität vermeiden?

A

mit Paneldaten für manche Formen individueller Heterogenität kontrollieren

  • feste individuelle Effekte, wenn Merkmale eines Individuums über Zeit konstant
  • Zeiteffekte, wenn Merkmale schwankend über Zeit, aber für alle Individuen identisch
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
45
Q

Kriterien für gute Daten

A
  • Objektivität
  • Validität
  • Zuverlässigkeit
    (Problem: Unschärferelation)
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
46
Q

Datenarten/Informationsgehalt

A

Nominalskalierung (Bahn vs. Auto)

Ordinalskalierungen (Noten)

Kardinalskalierung (Temperatur)

  • > Intervallskala: Interpretieren. von Differenzen
  • > Verhältnisskala: Differenzen und Quotienten (Einkommen)
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
47
Q

Datenarten/Aggregationsniveau

A

Zeitreihendaten (1 Merkmal über Zeit)

Querschnittsdaten (mehrere Merkmale, selbe Zeit)

Paneldaten (beides)

48
Q

Wie kann ich Qualität von Daten angeben?

A

hart-weich Heuristik (wie verlässlich?)

hart: Wechselkurse, registrierte Arbeitslose, Importe
weich: Wertschöpfung Schattenwirtschaft

49
Q

Rechenregeln Erwartungswert

A

E (a + bX) = a + bE(X)

E (X + Y) = E (X) + E (Y)

50
Q

Varianz Definition

A

Erwartungswert von (X - Erwartungswert) im Quadrat

51
Q

Varianz Rechenregeln

A

Var X = E (X^2) - E (X)^2

Var (a + bX) = Var (bX) = b^2 Var (X)

52
Q

Bernoulli Verteilung Erwartungswert und Varianz

A

E(X) = E(X^2)

Var(X) = p * (1 - p)

53
Q

Mehrdimensionale Zufallsvariablen:

Randverteilung

Bedingte Verteilung

A

Rand:
festes X, aufsummieren aller Y z.B. Summe aller pij, wobei i fest und j alle

bedingte Verteilung:
Wahrscheinlichkeit, dass x = xi, wenn y=yi

54
Q

Bedingter Erwartungswert mehrdimensionale ZV

A

Erwartungswert für bedingte Verteilung von Y

  1. Wahrscheinlichkeit aller Y ausrechnen -> Y = y, wenn X = x
  2. bedingte Wahrscheinlichkeiten mit Y Werten gewichten
55
Q

Kovarianz

A

Erwartungswert von ((X - Erwartungswert von X) * (Y - Erwartungswert von Y))

Rechenregel:
Cov(X,Y) = E(XY) - E(X)*E(Y)

56
Q

Korrelation

A

Covarianz/Standardabweichungen

normiert auf (-1;1)

misst nur LINEAREN Zusammenhang

57
Q

Unabhängigkeit ZV

A

Die Zufallsvariablen X und Y sind stochastisch unabhängig,
falls das Wissen über die Ausprägung einer Variablen keine
Informationen über die andere Variable enthält

P(Y = yj | X = xi ) = P(Y = yj )

dann gilt: P (X geschnitten Y) = P (X) * P (Y) und Corr = 0

-> Umkehrung gilt nicht (außer wenn X und Y normalverteilt)

58
Q

Bedeutung iid

A

unabhängig und identisch verteilt

  • unabhängig: alle Indv. mit gleicher Wahrscheinlichkeit gezogen
  • identisch: alle Yi haben identische Verteilung (nämlich die von Y)
59
Q

Verteilung des arithmetischen Mittels

A

ist Y normalverteilt, ist es auch Y quer

Y quer ist auch eine Zufallsvariable

60
Q

Was sagt das Gesetz der großen Zahlen?

A

dass Y quer gegen den Erwartungswert konvergiert, falls

die Yi iid sind und wenn Ausreißer unwahrscheinlich sind

61
Q

Was bedeutet der zentrale Grenzwertsatz?

A

wenn Y quer gegen Erwartungswert konvergiert und Yi iid, dann nähert sich die Verteilung der Standardnormalverteilung mit E = 0 und Var = 1 an

62
Q

Realisation einer Schätzfunktion

A

Der geschätzte Wert ist derjenige Wert, den die Schätzfunktion
für eine konkrete Stichprobe annimmt

63
Q

Bias

A

Erwartungswert Schätzfunktion - richtiger EW

64
Q

Schätzer heißt unverzerrt, wenn

A

E(Schätzer) = E

effizienter, wenn Var geringer

65
Q

Schätzer heißt konsistent, wenn

A

Schätzer in Wahrscheinlich. gegen Erwartungswert konvergiert

66
Q

Unterschied Erwartungswert und arithmetisches Mittel

A

Erwartungswert: Summe der mit Wahrscheinlichkeit gewichteten Ereignisse

Mittelwert: durchschnittliches Ergebnis der Ereignisse - also gleiche Gewichtung

dadurch entstehen bei Mittelwert Verzerrungen, z.B. beim Alter, wenn eine Person überdurchschnittlich alt ist, dann zieht es den Mittelwert nach oben, aber nicht den Erwartungswert, da das Alter dieser Person nur mit geringer Wahrscheinlichkeit gewichtet wird

67
Q

Wie hängen die t-Statistik und der zentrale Grenzwertsatz zusammen?

A

die t-Statistik beschreibt die Datenlage und testet Nullhypothesen mit Hilfe des Mittelwerts, also: soll H0 verworfen werden? Mit welcher P tritt Ereignis ein?

der zentrale Grenzwertsatz besagt, dass bei hohem n und wenn Y iid -> dann ist der Mittelwert normalverteilt

durch die Normierung der t-Statistik mit Hilfe von mü und sigma passen wir die Normalverteilung an die STANDARDnormalverteilung an, mit der wir dann arbeiten können

68
Q

Zusammenhang t-Wert und p-Wert

A

t-Wert: ist das Ergebnis der t-Statistik und sagt uns erstmal wenig

p-Wert: wie wahrscheinlich ist es, dass bei erneutem Durchführen des Experiments ein t-Wert herauskommt, der noch stärker gegen H0 spricht als der jetzige? Wenn p-Wert besonders klein ist, bedeutet das, dass es sehr unwahrscheinlich ist, dass ein erneutes Ergebnis NOCH mehr gegen H0 spricht als es das momentan eh schon tut, also wird H0 verworfen

-> p-Wert ist Fläche an den Rändern der Glocke der SNV

69
Q

Erklärung Konfidenzintervall

A

enthält alle H0, die angenommen werden

statt nur reinen Mittelwert als Schätzer zu nehmen geht Konfidenzintervall von Streuung aus:
wir nehmen also Y quer MINUS/PLUS t Wert von 1,96, bei dem wir H0 ablehnen, MAL den Standardfehler

70
Q

Was bedeutet der Test auf Mittelwertgleichheit? z.B. bei Klassengröße

A

H0: Mittelwerte der Testergebnisse sind bei großen und kleinen Klassen gleich groß

  • > Durchführen von t-Statistik mit Zähler: Erwartungswerte voneinander abziehen; Nenner: eine Wurzel über Summe beider Varianzen
  • > t-Wert = 4,04 -> als H0 verwerfen -> Testergebnisse sind also nicht gleich gut
71
Q

Was ist ein Schätzer?

A

Funktion, mit der man die Ausprägung eines gesuchten Merkmals einer Grundgesamtheit schätzen kann
basierend auf Stichprobe

72
Q

Schätzer: Mittelwert vs. erste Beobachtung

-> Warum ist der Erwartungswert von beiden Schätzern der tatsächliche Erwartungswert (warum unverzerrt?)

A
  1. Mittelwert: 1/n * n * mü = mü
  2. erste Beobachtung X1:
    X1 ist ein Schätzer und eine Zufallsvariable aus der Grundgesamtheit X, die iid verteilt ist
    -> also ist auch X1 iid und damit normalverteilt -> dadurch hat X1 den selben Erwartungswert wie die Grundgesamtheit X (da gleiche Verteilung)

-> gleiches gilt bei X1 für die Varianz (selbe wie von X, da iid und X1 = ZV)

73
Q

Wie lese ich p-Wert in SNV Tabelle ab?

A

Ich schlage t-Wert nach, dann zeigt es mir Prozent der Fläche unter Glocke an, die links von Schwelle liegt

  • > 1 - Prozent = rechts von Schwelle
  • > 2x diese Fläche ergibt p-Wert
74
Q

Alternative Formel für das Bestimmtheitsmaß?

A

1-SSR/TSS

sum of squared residuals

75
Q

Was bedeutet Homoskedastizität?

A

Der Fehlerterm u ist homoskedastisch, wenn die

bedingte Varianz von u unabhängig von X ist.

76
Q

beta 0 und beta 1 sind Schätzer und deswegen…

A

haben auch sie einen E und eine Var

sie sind approx. normalverteilt

-> beta 1 konsistent und unverzerrt, wenn KQ Annahmen gelten

77
Q

Wodurch wird die Schätzung genauer?

A

Durch mehr Variation in der erklärenden Variable

78
Q

Unterschied u und u^

Störterm vs. Residuum

A

wahrer vs. geschätzter Fehler

Störterm: alle umbeobachtbaren Einflüsse miteinberechnet

Residuum: Fehler der entsteht, wenn wir schätzen; -> wie weit ist geschätzter Datenpunkt von tatsächlichem Datenpunkt entfernt?

79
Q

Bsp.: eine H0 wird auch bei hohem p-Wert nicht verworfen - heißt das automatisch, dass sie richtig ist?

A

Nein! Es heißt nur, dass sie aufgrund der Stichprobenwerte nicht verworfen werden kann.

80
Q

Wie nennt man binäre Variablen noch?

A

Indikatorvariablen oder Dummyvariablen

81
Q

Wann sollte man bei binären Variablen ein anderes Verfahren als die Regressionsanalyse verwenden?

A

Wenn es sich um die zu erklärende Variable handelt

82
Q

Was ist der Unterschied des adjustierten R^2 und des normalen R^2? (korrigiertes Bestimmtheitsmaß)

A

adj. : steigt nur, wenn zusätzliche Variable Aussagekraft hat
normales: steigt mit jeder zus. Variablen (muss so sein, da sonst SSR nicht minimiert werden würde - was es aber wird, weil mehr Variablen ja auch mehr abdecken)

83
Q

Was bedeutet Kollinearität bei einer Variablen?

A

wenn sich mindestens eine der Variablen als Linearkombination der anderen Variablen darstellen lässt.

84
Q

Was folgt aus Multi-Kollenarität?

A

Der KQ Schätzer kann nicht mehr berechnet werden

85
Q

Was ist das Problem mit Multi-Kollinearität?

A

Eine Veränderung der einen Variable, zieht eine Veränderung der anderen Variable nach - das wollen wir aber nicht, wir wollen c.p. Analyse

86
Q

Warum ist perfekt Multi-Kollinearität kein Problem?

A

Weil Software Problem löst

  • bei Imperfekter geht das nicht
87
Q

KQ Annahmen im multiplen Regressionsmodell

A
  • 3 Annahmen wie gehabt

- keine Multi-Kollinearität

88
Q

Wie testen wir die H0 im multiplen Regressionsmodell?

A

Mit der F-Statistik (Wald Test)

89
Q

bei einfachen Hypothesen gilt: F-Test = …

A

(T-Test)^2

90
Q

Warum brauchen wir den F-Test? Warum können wir nicht zwei T-Tests hintereinander durchführen?

A

Weil dann die Signifikanzniveaus nicht übereinstimmen

  • > t-Test zum Signifikanzniveau 5%: P(It1I) < 1,96; P(It2I) < 1,96
  • > wenn wir davon ausgehen, dass beide H0s unabhängig sind -> P(t1) * P(t2) = 0,9025

-> also Signifikanzniveau von 9,75 % und nicht 5%

91
Q

Wie nennt man ein Konfidenzintervall mit zwei Koeffizienten?

A

Konfidenzellipse (kompliziert und wird selten gemacht)

92
Q

Zwischen welchen Variablentypen unterscheiden wir?

A
  • den uns interessierenden (bei denen wir Koeffizienten kausal interpretieren)
  • Kontrollvariablen (die wir nur aufnehmen, um OVB zu vermeiden)
93
Q

Was bedeutet conditional mean independence?

A

2 Variablen - 2 Koeffizienten - irrelevant für die uns interessierende, ob die eine verzerrt geschätzt wird
conditional mean independence ist der Fall, wenn
der bedingte Erwartungswert des Fehlers nicht von X1 abhängt

liegt beispielsweise dann vor, wenn der Wert von X1 für einen gegebenen Wert von X2 zufällig (also randomisiert) ist

94
Q

conditional mean indepencence

A

Normalerweise sagen wir, erste KQ Annahme muss gelten, um OVB zu vermeiden, ABER:

Eine kausale Interpretation ist auch dann möglich, wenn die bedingte Erwartung des Fehlers nach Berücksichtigung der Kontrollvariablen nicht von der uns interessierenden Variable abhängt

95
Q

Was macht der KQ Schätzer?

A

Schätzt beta 1

Wir minimieren die Summe der Fehlerquadrate
-> Minimiere: Mittelwert (Y - beta0 - beta1*X)^2

96
Q

Was gilt für die Varianz des geschätzten beta1?

A
  1. Mit steigendem Stichprobenumfang geht die Varianz gegen 0 -> bedeutet, dass die Schätzfunktion konsistent ist – sofern sie asymptotisch unverzerrt ist (wenn die KQ-Annahmen zutreffen)
  2. Schätzung ist umso genauer je größer die Variation in der erklärenden Variablen ist.
97
Q

Wie berechnet man den Einfluss der Regressoren auf Y im multiplen linearen Regressionsmodell?

A

Ableitung von Y nach X = beta 1

c.p. Analyse

98
Q

Was bedeutet “kontrollieren” im statistischen Kontext?

A

c.p. Analyse - man hält alle Werte konstant und variiert nur den, der uns interessiert und schaut sich dann die Veränderung von Y an - alle anderen Effekte rechnet man also raus

99
Q

Was ist ein Interaktionsterm und wozu brauche ich ihn?

A

Interaktion zweier Dummyvariablen

wir prüfen, ob Variablen voneinander abhängen; wenn Koeffizient vor Interaktion heißt das, dass Variablen unabhängig voneinander sind

100
Q

Wann sind die Ergebnisse einer Regressionsanalyse zuverlässig bzw. „belastbar“?

A

wenn interne und externe Validität vorliegt

101
Q

Wie kann man den omitted variable bias vermeiden?

A

 Beobachtete Heterogenität: Liegen Daten für die vernachlässigte Variable vor, dann kann die Verzerrung durch Berücksichtigung der entsprechenden Variablen vermieden werden

 Unbeobachtete Heterogenität: Liegen für die vernachlässigte Variable keine Daten vor, so kann man mit Hilfe von Paneldaten für manche Formen individueller Heterogenität kontrollieren, selbst wenn diese nicht beobachtbar ist

102
Q

Was bedeutet ein Messfehler in den Variablen?

A

Liegt ein Messfehler in einer unabhängigen Variablen vor, so ist die Schätzung des Koeffizienten dieser Variablen verzerrt

Beachte: es kann nur eine Verzerrung vorliegen,
wenn X mit einem Fehler gemessen wird. Wird Y mit einem Fehler gemessen, so ist der Fehler in u enthalten

Gründe: Ungenaues Messgerät (Körpergewicht), Falsche Angaben in Umfragen (Einkommen), Versehentliches Vertauschen von Variablen

103
Q

Wie kann man Messfehler vermeiden?

A

Vermeide den Messfehler (falls möglich)

Finde eine Variable, die mit dem wahren Wert von X
korreliert ist, jedoch ohne Fehler gemessen wird
(Instrumentvariablen-Schätzung)

Entwickle ein mathematisches Modell für das Ausmaß der
Verzerrung und nutze dieses, um den Fehler in der Schätzung zu korrigieren

104
Q

Was ist ein Selektionsproblem?

A

 Hängt die Wahrscheinlichkeit der Zugehörigkeit zu der
Stichprobe von der Ausprägung der abhängigen Variablen ab, so ergibt sich eventuell eine Selektionsverzerrung

 Beispiel: Effekt der Ausbildung auf den Lohnsatz

  • > Keine Beobachtungen für Arbeitslose
  • > Ausbildung beeinflusst nicht nur den Lohnsatz, sondern auch die Wahrscheinlichkeit Arbeit zu haben und die Wahrscheinlichkeit zur Stichprobe zu gehören

 Eine unverzerrte Schätzung erfordert die Modellierung der Selektion (Tobit-Modelle leisten dies)

105
Q

Simultane Kausalität ?

A

Kausalität in beide Richtungen

Fehler korreliert dann mit X -> 1. KQ Annahme verletzt, da bedingter Erwartungswert des Fehlers nicht = 0

106
Q

Wie kann ich simultane Kausalität vermeiden?

A

 Finde eine Variable, die mit X korreliert ist, jedoch das
Problem der simultanen Kausalität nicht aufweist (Instrumentvariablenschätzung)
 Führe ein kontrolliertes Experiment durch, bei dem die
„Rückkopplung“ von Y nach X ausgeschlossen wird

107
Q

Ursachen und Folgen inkorrekter Standardfehler

A

Ursachen:

  • Heteroskedastizität
  • serielle Korrelation (räumlich, zeitlich)

Folgen:
 Führen zu Konfidenzintervallen, die das Konfidenzniveau nicht einhalten
 Führen zu Tests, die das Signifikanzniveau nicht einhalten

108
Q

Auf welcher Basis laufen die Schätzungen mit festen individuellen Effekten ab?

A

Auf Basis der Veränderung der Variablen, nicht deren festen Wert

109
Q

Erklärung feste individuelle/zeitliche Effekte?

A

 Feste individuelle Effekte ermöglichen es, zeitkonstante individuelle Charakteristika für jedes Individuum zu eliminieren

  • Kulturelle Gegebenheiten (in einem Staat)
  • Gesetzgebung (in einem Staat)
  • Straßenzustand (in einem Staat)

 Feste Zeit-Effekte ermöglichen es, über Individuen hinweg konstante zeitliche Einflüsse zu eliminieren

  • Steigende Qualität von Autos
  • Zinssatz der Zentralbank
  • Ölpreis
110
Q

KQ Annahmen für das Modell mit festen Effekten

A
  1. -4. wie immer,

5. Die Fehler sind nicht über die Zeit korreliert (keine serielle Korrelation, andernfalls inkorrekte Standardfehler)

111
Q

Wie kann man feste individuelle Effekte modellieren?

A
  • Mit Dummy Variablen, also:
    Y = beta 1 * X + alpha * D1 + alpha * D2 … + u
    (entweder const oder eine D weglassen, sonst perfekte Multi Kollinearität)
    -> alpha = const + beta 2 * feste Zeitkonstante
  • mit Within Schätzer, also:
    Y = beta 1 * X + alpha i + u
112
Q

Was bedeutet Multi-Kollinearität im Modell mit festen Effekten?

A

Wenn man alle Dummyvariablen aufsummiert ergibt das 1 - das heißt: Linearkombination von Y

113
Q

Erklärung serielle Korrelation

A

If Xit is correlated with Xis for different values of s and t—that is, if Xit is correlated over time for a given entity—then Xit is said to be autocorrelated (correlated
with itself, at different dates) or serially correlated.

Autocorrelation is a pervasive feature of time series data: What happens one year tends to be correlated with what
happens the next year.

114
Q

Gültigkeit der Instrumente bei IV Schätzung

A

 Erklärt das Instrument großen Anteil der Streuung, dann enthält es viele Informationen der instrumentierten Variablen -> kleine Standardfehler

 Liefert auf der ersten Stufe der F-Test auf die Instrumente einen Wert der F-Statistik kleiner als 10, so liegen schwache Instrumente vor und die IV Ergebnisse sind unzuverlässig

  • Hausman Test:
  • H0: X ist exogen
  • H0 bei großem p-Wert nicht verworfen
  • bei F > 10 nicht verworfen
115
Q

Warum wählen wir Verteilungsfunktion für Probit Modell?

A

Verteilungsfunktion liegt zwischen 0 und 1 - genau das wollen wir