statistische Inferenz Flashcards

Question 1

Q

Survey errors

Answer

A

Ansatz: Wie halten wir den Fehler so klein wie möglich mit den Ressourcen, die zur Verfügung stehen

Fehlerarten: durch Zufall und systematisch
zwei Quellen: Messung und Bevölkerungsabbildung

Messung:
-invalid concept
-measurment error
-proccessing error

representation:
-coverage error
-sampling errror
-nonresponse error

Question 2

Q

Beginn der Meinungsforschung

Answer

A

Literary Digest:
-5 von 20 Mio schickten antwort

bei Präsidentschaftswahl besser: Gallup
-sampling frame (wer bekam Umfrage?)
-response bias (wer schickte sie zurück?)

Question 3

Q

Stichprobenverfahren

Answer

A

Probabilistische Verfahren
-Einfache Zufallsstichprobe
-Geschichtete Stichprobe
-Klumpenstichprobe

nicht-probabilistische Verfahren:
-> keine durch Statistik gesicherten Rückschlüsse auf die Grundgesamtheit möglich
-willkürliche Auswahl
-bewusste Auswahl
-> Quotenstichprobe
-> theoretische Auswahl

Question 4

Q

Fehler in der Stichprobe

Answer

A

statistischer Zufallsfehler (sampling error)

(Nicht)-Erfassungsfehler ([non-]coverage error)

Question 5

Q

Erhebungsmethoden

Answer

A

schriftlich (Post, Email, online)

mündlich (telefonisch, face-toface)

zu beachten
-Kosten
-Stichprobenziehung
-Erreichbarkeit

Question 6

Q

Kognitionspsychologie

Answer

A

Verstehen
Information abrufen
Entscheidung für eine Antwort
Zuordnung der Antwort zu den Antwortoptionen

Satisficing -> Jon Krosnick
-Erste vernünftige Antwort auswählen
-Zustimmen (Acquiescence)
-Tendenz zum Status quo
-Ratings gleich einstufen
-Weiß-Nicht-Antworten
-Zufälliges Antworten

-Non-attitudes -> Public Affairs Act
-Biases (Verzerrung)
-Gedächtnisprobleme
-Fehlerhafte Selbsteinschätzung („self-reports“) von Ereignissen und Beweggründen

Question 7

Q

probleme der heutigen Umfrageforschung

Answer

A

Sinkende Antwortbereitschaft
-Zu viele Umfragen
-Umstieg auf Mobiltelefone
Online keine perfekte Alternative
Kosten guter Umfragen sind hoch
Einfluss von Gewichtung hoch

Question 8

Q

Grundgleichung für Estimate

Answer

A

Estimate = Estimand + Bias + Noise

There’s an important distinction between the estimate (the result we get) and the estimand (the thing we were hoping to estimate). The two ways those things can diverge are bias and noise.

Bias refers to systematic reasons why the estimate will consistently be off the mark. E.g., if Democrats are more likely to answer political polls, this will create a consistent bias in our estimate of the vote share in an upcoming election.

Noise refers to idiosyncratic reasons why the estimate will be off the mark. The noise is zero, on average, but noise leads us to sometimes over or underestimate the estimand because of things like sampling variability

Question 9

Q

bias and precision

Answer

A

We’d like our bias and noise to be close to zero. That is, we’d like to generate estimates that are unbiased and precise.

Unbiased means that if we repeated our estimator (the procedure we use to generate our estimate) over and over again on independent data, the average estimate would be the estimand.

Precise means that if we repeated our estimator over and over again on independent data, the estimates would all be close to each other.

Question 10

Q

standardfehler

Answer

A

Standard error (Standardfehler): Die Standardabweichung der möglichen Schätzungen, die wir hätten bekommen können

Standardfehler eines Anteils = sqrt (q+(1-q)/N)
N= Stichprobengröße

q und N beeinflussen beide den Standardfehler

q kennen wir ja eigentlich nicht – man benutzt stattdessen den Schätzer aus der Stichprobe.

standard errors estimates are themselves estimates and they can, in certain circumstances, be unreliable

Mehr N bringt immer weniger Genauigkeit (diminishing marginal returns): größere sample size bedeutet zwar smaller standard errors, aber bei 10facher vergrößerung sample nur mehr 3fache verkleinerung error

Question 11

Q

Central limit theorem

Answer

A

= zentraler Grenzwertsatz
= Gesetz der großen Zahl

Die Verteilung der Schätzer wäre ungefähr “normal”.

Normalverteilung: Symmetrisch um den Durchschnitt – “Glockenkurve”. Wichtig: 95% der Beobachtungen sind weniger als zwei Standardabweichungen vom Mittelwert.

Das ist die bekannte Schwankungsbreite (ca. 2x Standardfehler)

In den Sozialwissenschaften nennen wir ähnliche Maße das “95% Konfidenzintervall”

Bedeutung: Vorausgesetzt unser Schätzer ist unverzerrt (“unbiased”) und wir wiederholen die Studie mit immer neuen Daten, dann wird der wahre Wert (𝛽) in 95% der Fällen innerhalb des Konfidenzintervalles liegen

ODER VEREINFACHT: Das Konfidenzintervall enthält mit einer Wahrscheinlichkeit von 95% den wahren Wert (𝛽)

Question 12

Q

Normalverteilung

Answer

A

glockenförmiger Verlauf
Symmetrisch:
-Median = Mittelwert
-50% der Fläche links, 50% rechts vom Mittelwert

Um eine Normalverteilung zu beschreiben, reichen zwei Parameter:
-Mittelwert μ und Varianz σ²

Kurve erreicht bis ±∞ nie 0 auf der x-Achse

Besondere Eigenschaft der
Normalverteilung:
68% der Fälle innerhalb +/- 1 Standardabweichung
95% der Fälle innerhalb +/- 2 Standardabweichungen
99.7% der Fälle innerhalb +/- 3 Standardabweichungen

Question 13

Q

Verteilung des arithmetischen Mittels

Answer

A

Die Verteilung von Mittelwerten aus Stichproben (mit n<30) ist ‚normal‘.
Das stimmt unabhängig von der der Verteilung der Werte in der Grundgesamtheit!
„Die Verteilung von arithmetischen Mittelwerten aus Stichproben vom Umfang n, die sämtlich derselben Grundgesamtheit entnommen wurden, geht mit wachsendem n in eine Normalverteilung über“ (Zentraler Grenzwertsatz)

Der Standardfehler ist die Standardabweichung der Verteilung der Mittelwerte

Wie weit werden Schätzer von dem Bevölkerungswert sein?

Question 14

Q

Interpretation Konfidenzintervall

Answer

A

Achtung bei der Interpretation eines Konfidenzintervalls!
Das KI sagt: wenn wir von vielen Stichproben jeweils das KI berechnen, würden von 100 Stichproben 95 (bzw. 99) KI den Bevölkerungswert enthalten
Am besten als Bandbreite plausibler Werte ansehen

Question 15

Q

Berechnung Konfidenzintervall für Anteilswerte

Answer

A

Benötigte Informationen:
-arithmetisches Mittel in der Stichprobe
-Standardabweichung
-Stichprobengröße

Mit der Standardabweichung und der Stichprobengröße ermitteln wir den Standardfehler (Standardabweichung der Mittelwertverteilung

Formel:

Question 16

Q

breite des Konfidenzintervalls

Answer

A

Wird größer, wenn wir eine kleinere Stichprobe haben
Wird größer, wenn wir größere Sicherheit haben wollen (also wollen, dass das KI öfter den Wert beinhaltet)
Wird größer, wenn die Streuung (=Standardabweichung) der Stichprobe zunimmt
Für Anteilswerte: wenn q näher an 0,5 ist

Question 17

Q

statistische Signifikanz in Regressionsmodellen

Answer

A

𝐼𝑛𝑐𝑜𝑚𝑒_𝑖=α+β∗𝑌𝑒𝑎𝑟𝑠 𝑜𝑓 𝑒𝑑𝑢𝑐𝑎𝑡𝑖𝑜𝑛_𝑖+ε_𝑖

α and β schätzen wir aufgrund des Regressionsmodells. Hier ist β unseren wichtigsten zu schätzenden Wert: wie sehr hängen Bildungsjahre im Durchschnitt mit Einkommen zusammen?

Zufallsstichprobe, Regressionsmodell mit Bildung und Einkommen gibt uns den Schätzer β̂ (nicht β an sich!).

Regressionsmodelle geben uns auch den Standardfehler von β̂ (müssen wir natürlich nicht selber berechnen!). Damit können wir auch hier Konfidenzintervalle berechnen und Hypothesentests durchführen.

Question 18

Q

P-wert

Answer

A

Die Wahrscheinlichkeit – sofern die Nullhypothese stimmt – den beobachteten Wert oder einen noch „extremeren“ Wert zu erhalten

Question 19

Q

statistische Inferenz für gesamtbevölkerung

Answer

A

Statistische Inferenz: Ist der Zusammenhang „echt”, oder einfach nur Zufall?

Oft haben wir aber Daten für die gesamte Bevölkerung (Alle Studierende, alle UN-Länder, alle Österreicher*innen)? Kann man dann noch Unsicherheit berechnen?

Es gibt immer noch Zufallszusammenhänge.

-> Man stellt sich eine größere, nicht existierende Bevölkerung vor, aus der die beobachtete Welt “gesampled” wurde (‘hypothetical population’)

Question 20

Q

substantive vs statistical significance

Answer

A

Substantive significance: Wie groß ist der Zusammenhang?

Statistical significance: Ist der Zusammenhang zufällig?

Nicht das gleiche, aber werden oft verwechselt!

remember that failure to reject the null hypothesis is not proof of the null hypothesis.

Question 21

Q

hypothesentest errors

Answer

A

type 1 error: false positive
type 2 error: false negative

Question 22

Q

publication bias

Answer

A

p-Hacking:
Wir wissen, dass wir unser Resultat eher veröffentlichen können und damit Aufsehen erregen, wenn es statistisch significant ist (z.B. p < .05). Wir spielen mit dem Sample, mit dem Modell, mit den Variablen, bis wir auf p<0.05 kommen, und berichten nur dieses Ergebnis.

p-screening:
Der Prozess an sich ist korrekt, nur veröffentlichen wir nur die signikanten Ergebnisse, weil diese spannender sind.

Ergebnis: Overestimates und false positives
viele Tests + selektive Inklusion = nicht zuverlässige Resultate

Question 23

Q

lösungen für publication bias

Answer

A

Skeptisch sein

Multiple testing vermeiden und miteinbeziehen

Replizieren

Preregistration

Härtere Signifikanzgrenzen (p < .005)?

Statistische Signifikanz ganz ignorieren?

Brainscape's Knowledge GenomeTM

statistische Inferenz Flashcards

Brainscape's Knowledge Genome^TM