Statistik 2 Flashcards
(122 cards)
Wie hängt der p-Wert bei statistischen Tests mit einem Stichprobenkennwert und der H0 zusammen?
Der p-Wert sagt vorraus, wie wahrscheinlich das Zustandekommen des vorliegenden Stichprobenkenntwerts unter Annahme der H0 ist. Ist diese WK gering, kann die H0 abgelehnt werden (fällt in den Ablehnungsbereich von 5 oder 1% der unwahrscheinlichsten Ereignisse).
Grenzen Sie absolute und relative Effektgröße voneinenader ab. Geben Sie je ein konkretes Beispiel, in dem eher absolute bzw. relative Effektgrößen verwendet werden.
Absolut: z.B. eine Differenz in Rohwerten (z.B. Größe, gewicht)
Relativ: z.B. in Standardabweichungen (Absolutwerte nicht aussagekräftig) - r, d, t, F, chi2 (IQ)
Beschreibung “Unbiasedness” von Populationsschätzern und zwei Beispiele
Unbiasedness = Erwartungstreue. Erwartungstreue ist eine Eigenschaft eines Schätzers. Er ist erwartungstreu, wenn sein Erwartungswert gleich dem wahren Wert des zu schätzenden Parameters ist.
Beispiel:
gut erfüllt: Mittelwert eines Merkmals bei sehr großer Stichprobe erwartungstreu
nicht gut erfüllt: Mittelwert eines Merkmals bei kleiner Stichprobe
Beschreibung “Resistence” von Populationsschätzern und zwei Beispiele
Resistence = Resistenz. Anfälligkeit gegenüber Ausreißern.
Beispiel:
mittlere Abweichung besser bzgl. Resistenz als Standardabweichung, da bei S die Abweichungen quadriert werden, Modalwert besser als Mittelwert
Beschreibung “Efficiency” von Populationsschätzern und zwei Beispiele
Efficiency = Präzision einer Schätzung, d.h. wie eng sich Kennwerte über viele Ziehungen hinweg um den Populationsparameter clustern (z.B. Mittelwert clustert enger als Median)
Beschreibung “Sufficiency” von Populationsschätzern und zwei Beispiele
Sufficiency = Erschöpfendheit. Wie gut der Parameter alle ihm zur Verfügung stehenden Informationen nutzt.
Beispiel:
gut erfüllt: Mittelwert
nicht gut erfüllt: Modelwert (hier “stecken nicht alle Werte drin”)
Warum benötigt man die t-Veteilung und nimmt nicht stattdessen die z-Verteilung für die entsprechnden Tests zu Mittelwertsvergleichen?
σ = sigma
Sigma (Streuung in der Population) ist meist unbekannt, s ist zwar ein erwartungstreuer Schätzer für sigma, s nährt sich sigma aber nur über unendlich viele Ziehungen an. Die Stichprobenkenntwertverteilung für s ist asymmetrisch, d.h. es liegen mehr Werte links der Mitte. Bei einer einzigen Ziehung würde der Mittelwert also unterschätzt werden. Die t-Verteilung gleicht diesen systematischen Fehler aus!
Was charakterisiert die Theorie von Neyman & Pearson gegenüber der von Fisher zum Signifikanztest?
Fischer: Ausgangspunkt ist die H0 - Berücksichtigung der Wahrscheinlichkeit, ob das vorliegende Ergebnis unter Annahme der H0 zustande gekommen sein könnte. Nicht signifikante Ergebnisse sollen nicht interpretiert werden. Es werden keine Aussagen darüber gemacht, wie groß die Chancen sind, einen vorhandenen Effekt zu entdecken. Wenn H0 nicht abgelehnt werden kann, weiß man nicht mehr als vorher (v.A. weiß man nicht, ob die H0 wahr ist!)
Neyman & Pearson: Fehler 1. und 2. Art werden unterschieden und der H0 wird die H1 entgegengesetzt.
Was besagt der zentrale Grenzwertsatz?
Die Summe (und der Mittelwert) zweier oder mehrerer unabhängiger Zufallsvariablen ist über viele (unendlich viele) Ziehungen normalverteilt.
Erläutern Sie das Prinzip des Boostrappings bzw. Resamplings anhand eines Mittelwertvergleichs zwischen zwei Stichproben. Verwenden Sie dabei den Begriff “Stichprobenkennwerteverteilung”.
Bootstrapping = Schaffung einer künstlichen Stichprobenkennwerteverteilung. Die Werte der vorliegenden Stichprobe werden immer wieder in einen Topf geworfen und neue, zufällige Sitchproben daraus gezogen.
SInd Standardfehler und Standardabweichung das gleiche? Wenn ja, warum? Wenn nein, warum nicht?
Nein, denn:
Standardfehler = Streuung der Kennwerte in der Stichprobenkennwertverteilung Standardabweichung = Merkmalsmessung in der Stichprobe
Besagt der p-Wert beim statistischen Test, wie wahrscheinlich die H0 ist? Wenn ja, warum? Wenn nein, was besagt der p-Wert dann?
Nein, der p-Wert sagt nur aus, wie wahrscheinlich das Auftreten der vorliegenden Statistik unter Annahme der H0 ist. Fällt diese WK unter 5%, kann die H0 abgelehnt werden.
Nennen Sie jeweils ein Beispiel für eine Wahrscheinlichkeitsverteilung und eine Wahrscheinlichkeitsdichteverteilung. Worin besteht der Unterschied?
Wahrscheinlichkeitsverteilung gibt an, wie sich die Wahrscheinlichkeiten aus die möglichen Werte einer Zufallsvariablen verteilen, z.B.: Binomialverteilung. Es handelt sich um abzählbare Ereignismengen.
Wahrscheinlichkeitsdichteverteilung: gibt die Wahrscheinlichkeit an, mit der eine Zufallsvariable einen Wert zwischen a und b annimmt, antspricht dem Inhalt der Fläche s unter dem Graph der Wahrscheinlichkeitsdichtefunktion f. Die Wahrscheinlichkeit für ein Ereignis ist “überabzählbar” (z.B. IQ_Wert 103,54) - also praktisch null, deswegen gibt man hier Warscheinlichkeitsdichten an (quasi die WK, dass ein IQ zwischen 103 und 104 auftritt - Normalveteilung)
Nennen Sie die Definition des Begriffs “Stichprobenkennwerteverteilung”
Stichprobenkennwerteverteilung = (auch: Testverteilung) WK-Verteilung für einen Stichprobenkennwert unter Annahme der H0
Nennen Sie die Definition des Begriffs “Ablehnungsbereich”
Bereich der unwahrscheinlichsten (extremsten) Stichprobenkennwerte unter Zufallsannahme: liegt ein Stichprobenkennwert in diesem Bereich, kann die Zufallsannahme abgelehnt werden - Annahme eines systematischen Effekts - H0 abgelehnt.
Nennen Sie die Definition des Begriffs “Zufallsannahme”
Zufallsannahme = Nullhypothese/H0 - Annahme, dass ein vorliegender Stichprobenkennwert durch einen unsystematischen Zufall zustande gekommen ist, es besteht kein signifikanter Unterschied (z.B. mehr als 5%).
Nennen Sie die Definition des Begriffs “Stichprobenkennwert”
Stichprobenkennwert = quantitative Größe, die charakteristische Merkmaler einer Stichprobenverteilung beschreibt. Kennwerte der zentralen Tendenz und der Dispersion werden unterschieden.
Nennen Sie die Definition des Begriffs “Zufallsstichprobe”
randomisierte Ziehung v. Individuen aus einer Gesamtpopulation
Inwiefern unterscheidet sich das gerichtete von dem ungerrichteten Testen?
Gerichteter Test = Abweichungen in nur eine Richtung sind von Interesse
Ungerichteter Test = Abweichungen des Mittelwerts sind in beide Richtungen bedeutsam
Je nach Fragestellung ergibt sich ein anderer Ablehnungsbereich bei gleichem Signifikanzniveau!
Welche Art von Verteilung wird benötigt, um Häufigkeiten eines Ereignisses mit zwei Ergebnisalternativen abzutragen? Welches Skalenniveau ist die Veraussetzung zur Verwendung dieser Verteilung?
Die Binomialverteilung, mindestens die Nominalskala
Erklären Sie die Logik statistischen Testens!
- Aufstellen einer Forschungshypothese
- Erhebnung einer Zufallsstichprobe
- (statistisch Testbare) Nullhypothese aufstellen
- Stichprobenkennwerteverteilung unter Annahme der H0 erstellen (Bootstrapping/Resampling)
- Vergleich, ob der Zufallsstichprobenwert in den Bereich der unwahrscheinlichsten/extremsten Bereiche fällt
- Entscheidung: wenn ja, wird H0 abgelehnt und die Forschungshypothese (H1) bestätigt
Beschreiben Sie kurz (1-2 Sätze), womit sich die Inferenzstatistik im Allgemeinen befasst.
Die Inferenzstatistik (schließende Statistik) zieht Rückschlüsse von der Stichprobe auf die Population und ermöglicht das Testen von Hypothesen.
Was besagt der p-Wert?
Wie wahrscheinlich das Zustandekommend der vorliegenden Statistik unter annahme der H0 ist.
Was sind alpha und beta-Fehler? Welche ist der “schlimmere” und warum?
Alpha-Fehler = H1 wird für wahr befunden, obwohl in Wirklichkeit die H0 gilt
Beta-Fehler = H0 wird fälschlicherweise für falsch befunden
Der Alpha-ehler ist der “schlimmere”; da er für die Wirklichkeit gravierendere Konsequenzen haben kann als eine Beibehaltung der H0 pbwohl die H1 gelten würde - siehe Medikamententests. Ist aber im Endeffekt auch individuell vom Forschungsgegenstand abhängig.