Statistik I Flashcards

Question

Kovarianz

Answer 1

-beschreibt ein nicht normiertes Maß für Richtung und Stärke des Zusammenhangs zweier Variablen (x und y) bei 0 = kein linearer Zusammenhang

Answer 2

- Streuung der Messwerte einer metrischen Variablen - (Summe quadrierter Abweichungen - (Anzahl x Mittelwert²)) x 1/Anzahl-1 - verliert Einheit

Answer 3

- Streuung der Messwerte einer metrischen Variablen - SS (Summe quadrierter Abstände) - Behält Einheit bei

Answer 4

- Zusammenhangsmaß für Ordinalskalierte Variablen - Rangbindungen in den einzelnen Variablen werden berücksichtigt - bei ungleicher Anzahl an Ausprägungen der Variablen kann Tau-b nicht -1/1 annehmen

Answer 5

- Zusammenhangsmaß für Ordinalskalierte Variablen - Differenz der Konkordanten und Diskonkordanten C/D in Beziehung gesetzt - bei mehr als 10 Paaren n>10 -> etwa normalverteilt

Answer 6

-positive Wurzel aus der Schätzfehlervarianz

Answer 7

- positive Wurzel aus der Varianz | - Entgegen der Varianz entspricht sie der Einheit, anhand derer die Variable gemessen wurde

Answer 8

- Anzahl der positiven Testausgänge, die auch korrekt sind | - (Kranke, die auch wirklich krank sind)

Answer 9

- Anzahl der negativen Testausgänge, die auch korrekt sind | - (Gesunde, die auch wirklich gesund sind)

Answer 10

- Beschreibt Zusammenhang zwischen Kriterium (AV) und Prädiktor (UV) - einfache lineare Regression: nur eine AV durch UV -> wird durch Regressionsgerade dargestellt - multiple lineare Regression: mehrere AV durch UV vorhergesagt -> Regressionsebene

Answer 11

- Kriteriumsvariable (AV) besteht aus 2 Teilen: - den durch UV vorhergesagten Teil (erklärte Variation) - den durch UV nicht erklärten Teil (nicht erklärte Variation) -um Güte der Prognose zu bestimmen wird die erklärte Variation ins Verhältnis zu Gesamtvariation gesetzt (Gesamtvariation = erklärte + nicht erklärte Variation) Relevante aufsummierte und quadrierte Abweichungen: - Abweichung eines beobachten Messwerts vom Mittelwert: Gesamtvariation - Abweichung eines vorhergesagten Wertes vom Mittelwert: erklärte Variation - Abweichung des beobachteten Werts zum Mittelwert: nicht erklärte Variation

Answer 12

- Einflussreiche Beobachtungen sind Beobachtungen, die in besonderem Ausmaß die Schätzer der linearen Regression beeinflussen und somit die Regressionsgerade verschieben - trifft vor allem bei Hebelpunkten zu - sind meist Ausreißer, aber nicht immer

Answer 13

- Übereinstimmungsmaß, das zeigt wie gut 2 Urteile übereinstimmen / abweichen - berücksichtigt Anteil zufällig übereinstimmender Urteile - wird verwendet um zu prüfen ob Klassifikationsschemata, Ratingskalen hinreichend objektiv sind - Voraussetzung ist symmetrische Häufigkeitstabelle - Zwei Beurteiler sollen unter Zuhilfenahme gegebener Kriterien zum gleichen Ergebnis kommen -> Kappa gibt an wie gut Urteile übereinstimmen Beispiel: 2 Gutachter diagnostizieren psychische Krankheiten Beispiel: Bei Assesment Center sollen Beobachter einschätzen ob Bewerber z.B. Blickkontakt gehalten hat ``` K= -1 Übereinstimmungen kleiner als unter Zufallsbildung erwartete Zahl K= 0 Beobachtungen = Anzahl zufälliger Urteile K= 1 Beobachtungen größer als Zufälle ```

Answer 14

- Pearson-Produkt-Moment-Korrelation - LINEARES Zusammenhangsmaß zwischen 2 Variablen - nur ab Intervallskala - je höher x, desto höher/niedriger y (-1;1) - je höher Maß ausfällt, desto häufiger treten Variablen zusammen auf - 0,1 schwach 0,3 mittel 0,5 stark - Nullkorrelation bedeutet nicht KEIN ZUSAMMENHANG, nur kein linearer! - sagt nichts über Zusammenhang aus! (A->B, B->A, C->A/B, A // B)

Answer 15

- weißt eine geringere Wölbung auf als eine Normalverteilung mit gleicher Varianz - negative Kurtosis (Wölbung)

Answer 16

- Verhältnis von Chancen / Odds von zwei Gruppen | - z.b Verhöltnis P(erkrankt | risiko) zu P(erkrankt | kein risiko) ist

Answer 17

- weißt eine größere Wölbung auf als eine Normalverteilung mit gleicher Varianz - positive Kurtosis (Wölbung)

Answer 18

- bei zwei Wertepaaren | - Konkordanz liegt vor wenn xi > xj und yi > yj (und andersrum xj und yi < yj (und andersrum >)

Answer 19

Fehlervarianzen einer Ausprägung für UV sind gleich

Answer 20

Beobachtungen, die von vornherein potenziell einflussreiche Beobachtungen darstellen

Answer 21

Population wird in Schichten eingeteilt und daraus werden Stichproben gezogen (Schüler in Bundesländern)

Answer 22

aus Population werden willkürlich Stichproben gezogen (alle gleiche Wahrscheinlichkeit)

Answer 23

Personen werden anhand speziellen Merkmals ausgesucht, sodass sie ein Abbild der Population ergeben (% Leute = Anteil Population)

Answer 24

- Personen, die einfach zu erreichen sind werden ausgesucht - Zwillingsstudie einige wenige Zwillingspaare ->zu prüfen ob Merkmale einer repräsentativen Stichprobe erfüllt

Answer 25

-Daten müssen angemessene Aussagen über zugrunde liegende Population erlauben, sodass Stichprobe ein verkleinertes Abbild der Population darstellt

Answer 26

- Alle Mitglieder der Population werden mit einbezogen - nur bei kleinen Populationen - z.B. Evaluation einer Vorlesung

Answer 27

- häufig verwendete Form der Kodierung von Nominalskalierten Variablen mit dichotomer Merkmalsausprägung - können so als Prädiktor in Regressionsanalyse aufgenommen werden - Dummyvariable erfasst die Differenz zwischen dem Mittelwert der ihr zugehörigen Gruppe zur Referenzgruppe - eine Gruppe Wert 1 eine Wert 0

Answer 28

- bezeichnet den Anteil der durch die Regression erklärten Variation an der Gesamtvariation - PRE-Maß und stimmt im Fall der einfachen linearen Regressionen mit dem Quadrat der Korrelation überein - je höher R² desto höher ist erklärte Variation zur Gesamtvariation - je niedriger R² desto niedriger ist erklärte Variation

Answer 29

- Zusammenhangsmaß für Nominalskalierte Variablen - Chi² Statistik wird durch das theoretische Maximum dieser Statistik der zugrunde liegende Kontingenztabelle geteilt (mit r/c-1) - V = wurzel aus (X² / n * min (r/c-1)

Answer 30

-misst den Unterschied zwischen der Kontingenz- und Indifferenztabelle anhand eines Wertes der zwischen 0 und unendlich liegt

Answer 31

- bivariate Häufigkeitstabelle - enthält absolute oder relative Häufigkeiten der Wertepaare zweier Variablen - in einer Zelle steht Häufigkeit für X und Y

Answer 32

Zusammenhangsmaß für eine Intervallskalierte Variable und eine binäre Variable, die auf Dichotomisierung einer normalverteilten (metrischen) Variablen beruht

Answer 33

relative Häufigkeit einer Variable X unter der Bedingung, dass andere Variable Y eine bestimmte Ausprägung hat

Answer 34

-enthält ausgehend von Randverteilungen einer Kontingenztabelle die aufgrund Unabhängigkeitsannahme zu erwartenden Häufigkeiten zweier Variablen X und Y

Answer 35

-empirisch ermittelte Wahrscheinlichkeit als Ergebnis der Anwendung des Satz des Bayes - Wahrscheinlichkeit, dass Beobachtungen auf der Grundlage der Daten Gruppen zugewiesen werden - >Ergebnis von Satz des Bayes

Answer 36

- Inzidenzrate genannt - wird aufgrund Vorwissen definiert -Wahrscheinlichkeit, dass eine Beobachtung einer Gruppe zugewiesen werden kann, bevor Daten erfasst werden

Answer 37

- Schnittmengen sind leer | - elementfremd / durchschnittsfremd

Answer 38

Normalverteilung - eine der wichtigsten stetigen Normalverteilungen - Gauß-Verteilung - Erwartungswert müh, Varianz sigma - symmetrisch, unimodal, Maximum bei müh, Wendepunkt bei müh ± sigma - stetig ( + bis - unendlich) Standardnormalverteilung - besondere Variante der Normalverteilung - mit müh = 0, sigma = 1 - N(0,1) -zwischen müh = ±sigma = 68% der Werte müh = ±2sigma = 95% müh = ±3sigma = 99%

Answer 39

- Standardisierter Messwert - gibt an wie viele Standardabweichungen und in welche Richtung ein Messwert in einer Stichprobe vom Mittelwert abweicht - durch Transformation werden Werte aus Verteilungen mit unterschiedlichen Mittelwerten und Streuungen in Bezug auf ihre relative Abweichung vom Mittelwert vergleichbar gemacht - überführt Verteilungen in Normalverteilungen - Werte von +/- 3 sind Wahrscheinlich - Mittelwert= 0 (fester Bezugspunkt) - Erwartungswert = 1 - Standardabweichung = 1

Answer 40

- Zusammenhangsmaß für ordinalskalierte Variablen - beruht auf Rangtransformationen - invariant, normiert und robust ggü. Ausreißern - je stärker Zusammenhang, desto größer der Betrag

Answer 41

- eindeutige Bestimmung der Geraden - Gerade soll optimal Vorhersage des Kriteriums erlauben - Variation des Kriteriums sollte in zwei Teile aufgeteilt werden

Answer 42

- die Gerade aus allen Gerade gewählt, die die Summe der quadratischen vertikalen Abstände (Abweichungen) der Beobachtung von der Geraden minimiert - Fehlerkriterium - Summe der quadrierten Differenzen zwischen vorhergesagten und beobachteten Werten -> Regressionsgerade wird so bestimmt, dass die Summe der quadrierten vertikalen Abstände der Beobachtung von der Geraden minimiert wird

Answer 43

- Linearität (AV und UV müssen durch Gerade beschrieben werden) - Homoskedastizität - Abwesenheit Einflussreicher Beobachtungen - Abwesenheit Ausreißer - Intervallskalenniveau der AV

Answer 44

Ergebnismenge = Ergebnisraum (alle möglichen Ergebnisse: Würfel {1,2,3,4,5,6} Ereignisraum = Teilmengen bestimmter Ergebnisse Ereignisse = Zusammenfassungen von Ergebnissen einen Zufallsvorgangs

Answer 45

frequentistisch: - basiert auf der relativen Häufigkeit - Experiment wird oft wiederholt und anhand dessen resultiert die Wahrscheinlichkeit - Gesetzt der großen Zahlen klassisch: - Verhältnis von günstigen Ergebnisse zur Gesamtmenge der Ergebnisse - Durchgänge müssen undabhängig und unendlich oft wiederholbar sein

Answer 46

Wirkt sich das Eintreten eines Ereignisses B nicht auf die Wahrscheinlichkeit eines Ereignisses A aus, so heißen A und B stochastisch unabhängig P(A|B) = P(A)

Answer 47

-besagt, dass ein Verhältnis zwischen der bedingten Wahrscheinlichkeit zweier Ereignisse P(A|B) und der umgekehrten Form P(B|A) besteht P(A|B) = (P(B|A) x P(A)) : P(B) Beispiel: Drogentest mit gegebener Spezifität und Sensitivität: -Wie hoch ist die Wahrscheinlichkeit, dass Personen, die positiv getestet wurde auch tatsächlich konsumiert? -> A-posteriori Wahrscheinlichkeit ist Ergebnis (Wahrscheinlichkeit, dass Beobachtungen auf der Grundlage der Daten Gruppen zugewiesen werden)

Answer 48

- beschreibt die absolute und/oder relative Häufigkeit von Merkmalen - Durch sie werden statistische Daten beschrieben - Bezeichnung für eine empirische Häufigkeitsverteilung - wird angegeben durch Verteilungsfunktion, Dichtefunktion oder Wahrscheinlichkeitsfunktion

Answer 49

- Wahrscheinlichkeitsverteilung für die Summe von quadrierten standardnormalverteilten unabhängigen Zufallsvariablen - ermöglicht zu beurteilen ob ein theoretischer Zusammenhang mit empirisch ermittelten Messpunkten übereinstimmt - Schätzung des Vertrauensintervalls der unbekannten Varianz - asymmetrisch (rechtsschief) - mit v Freiheitsgraden - nicht negativ, reele Zahlen, bis unendlich - mit wachsenden n(=v) strebt die Form gegen Normalverteilung (n>100) -z-Werte bilden, z-Werte quadrieren, anschließend aufsummieren Basis: Normalverteilung

Answer 50

- Wahrscheinlichkeitsverteilung für das Verhältnis einer standardnormalverteilten Zufallsvariablen zur Wurzel aus einer X² verteilten Zufallsvariable - 1 unter der Kurve, symmetrisch zu Mittelwert, müh = 0 - schmalgipfliger als Normalverteilung (in der Mitte etwas flacher, außen etwas breiter) - Anwendung: vergleich zum Mittelwert - ab ca. n=30 approximation an Normalverteilung - Wertebereich ±unendlich

Answer 51

- Wahrscheinlichkeitsverteilung für das Verhältnis von zwei X² verteilten Zufallsvariablen - Prüfverteilung - dient zur Prüfung ob 2 anhand von Stichprobendaten gewonnene Varianzen aus der selben Population stammen - >F-Test : Feststellung ob Unterschied zweier Stichprobenvarianzen auf statistischen Schwankungen beruhen oder es auf unterschiedliche Grundgesamtheit hinweist -stetig, asymmetrisch y1 (v1) -> Zählerfreiheitsgerade y2 (v2) -> Nennerfreiheitsgerade -> abhängig von Kombination dieser

Answer 52

- kann analytisch bestimmt werden, wenn gilt, dass die Mitglieder einer Stichprobe unabhängig voneinander gezogen werden können - Gesamtpopulation, dessen Verteilung und Parameter in der Regel nicht bekannt und erkennbar sind: also Abschätzung von Stichproben - große Stichprobe = bessere Schätzung (Gesetz der großen Zahlen) - alle theoretisch möglichen Stichproben mit z.B. n=3 werden gezogen - Mittelwert wird erstellt und dann aufgelistet - Stichprobenverteilung hat gleichen Hochpunkt wie Originalverteilung - Streuung ist schmaler als Original - je geringer Streuung, desto genauer wird gesuchter Parameter geschätzt Arten: - Mittelwerte - Antweilswerte (binominalverteil / approximativ Normalverteilt) - Varianz

Answer 53

- auf Basis von Stichprobenverteilungen werden gesuchte Parameter einer Population abgeschätzt - Punktschätzer (Punktgenau z.B. ein Feld beim Dart) - Intervallschätzer (Bandbreite)

Answer 54

- Fisher Z-Transformation der Korrelationskoeffizienten - Mittelwerte der Z Werte - Rücktransformation des neuen Mittelwertes

Answer 55

-erst in Schichten/Klassen z.b. Bundesländer einteilen und dann aus diesen zufallssstichproben ziehen

Answer 56

- Streuung - Wölbung - Modus - Median - zentrale Tendenz - Schiefe - Spannweite - Quartilskoeffizient - Varianz - Variation

Answer 57

Quantile | Perzentile

Answer 58

- Varianz - Standardabweichung - Variation - Spannweite (Range) - Interquartilsabstand

Answer 59

Linearität beschreibt, dass Variablenwerte in einer Linie liegen bzw. um eine herum Ein Maß für lineare Zusammenhänge ist der Korrelationskoeffizient Kausalität beschreibt die Beziehung zwischen Ursache und Wirkung, betrifft also die Abfolge aufeinander bezogener Ereignisse Aus einer Korrelation kann nicht gefolgert werden ob eine Kausalität besteht

Answer 60

``` C = Konkordante Paare D = Diskonkordante Paare Tx = Paare mit Rangbindung bei x Ty = Paare bei Rangbindung bei y ``` Tx und Ty sind weder konkordant noch diskonkordant

Answer 61

Cramers V | Chi²

Answer 62

Spezifität -> negative Testausgänge, die tatsächlich korrekt sind (krank) Sensitivität -> positive Testausgänge, die tatsächlich korrekt sind (gesund)

Answer 63

(Punkt-) biserale Korrelation Biseral = Zusammenhangsmaß für intervallskalierte Variable + binäre Variable (dichotomisierung Normalverteilung) Punktbiseral = Maß für dichotome und metrische Variable und stimmt mit Betrag der Korrelation einer dichotomen mit metrischen Variable überein

Answer 64

``` Prädiktor = Variable zur Vorhersage, UV Kriterium = Variable die vorhergesagt wird, AV ``` -> es muss die Funktion gefunden werden, die den Zusammenhang zwischen x und y optimal beschreibt

Answer 65

Es besteht die Möglichkeit, dass ein nicht linearer Zusammenhang besteht und eine Regressionsgerade so mit kurvilinearen Koeffizienten die Regression besser beschreiben kann

Answer 66

Regression - Methode mit der Erwartungen über eine AV gebildet werden soll - Aufgrund Informationen, die man aus UV hat

Answer 67

- mind. Intervallskaliert - Regressionsanalyse -> wie sieht Geradengleichung aus, die nah an allen Werten liegt? - eindeutig bestimmt, wenn b0 und b1 bekannt - soll optimale Vorhersage der AV erlauben - Fehlermenge ist gering

Answer 68

Differenz zwischen vorhergesagten und beobachteten Werten der AV (Kriterium)

Answer 69

unstandardisiert: -beliebige Standardabweichung, da beteiligte Variablen nicht standardisiert sind standardisiert: - wenn z-standardisierte Variablen vorliegen - stand. Regressionskoeffizient mit b0* und b1* liegt zwischen -1 und 1

Answer 70

- Beurteilung der Güte der Regression durch Zerlegung der gesamten Variant (Variation) in erklärten / nicht erklärten Anteil - R² misst den % Anteil der erklärten Varianz an der Gesamtvarianz - R² entspricht dem quadrierten Korrelationskoeffizienten zwischen UV und AV - Wenn 1 / -1, dann perfekter linearer (negativer) Zusammenhang -> alle Punkte auf Regressionsgerade

Answer 71

y = b0 + b1 * x1 + b2 * x2 + ... + e ``` b0 = Achsenabschnitt b1,2,... = Steigung x = Prädiktor e = Residuum ```

Answer 72

- erlauben häufig einfache Überprüfung der Voraussetzung - Überprüfen ob Voraussetzungen der einfachen linearen Regression erfüllt sind - Modifikation des Streudiagramms

Answer 73

``` n = Anzahl Versuche / Stichprobengröße phi = Treffer- / Erfolgswahrscheinlichkeit ``` Beispiel: Münzwurf n = 10 k = 4 mal Kopf phi = 1/2 Kopf oder Zahl

Answer 74

- Ergebnis A trifft in jedem Teilexperiment immer mit der gleichen Wahrscheinlichkeit p ein - Ergebnisse der einzelnen Teilexperimente sind voneinander unabhängig - Entweder Erfolg oder Misserfolg

Answer 75

- eine der wichtigsten diskreten Wahrscheinlichkeitsverteilungen - beschreibt die Anzahl der Erfolge in einer Serie von gleichartigen und unabhängigen Versuchen, die jeweils 2 mögliche Ergebnisse haben (Bernoulli-Experiment)

Answer 76

-Merkmalausprägungen können sich immer verändern -Alternative: hypergeometrische Verteilung Beispiel: Lottomodell

Answer 77

- Ist eine spezielle Art der gamma-Verteilung mit den Parametern alpha = 1/2 und r = n/2, wobei n = Anzahl der Freiheitsgeraden ist - Besonders, da Parameter festgelegt sind - Spielt eine große Rolle bei der Untersuchung normalverteilter Daten und bei der Reduzierung von großen Datenmengen auf normalverteilte Größen

Answer 78

- setzt sich aus Quotienten zweier X² verteilter Zufallsvariablen zusammen - Parameter: 2 unabhängige Freiheitsgerade

Answer 79

- die Stichprobenverteilung dient der Abschätzung der Grundgesamtheitsparameter durch die Stichprobe - Entsteht durch unendliches Wiederholen des Ziehens einer Stichprobe eines bestimmten Umfangs aus einer Grundgesamtheit -Stichprobenverteilung der Mittelwerte = Wahrscheinlichkeitsverteilung eines Stichprobenparameters

Answer 80

- Schätzt man einen Parameter (z.b. Mittelwert) der Population mit Hilfe einer Stichprobe und es wird nur ein Wert angegeben (z.b. Mittelwert der Stichprobe) - je größer Stichprobe, desto präziser der Punktschätzer - ergibt den Schätzwert für einen Populationsparameter, der aus Stichprobendaten abgeleitet wird - Gütekriterien: Erwartungstreue, Konsistenz und Effizienz

Answer 81

- findet den Wert, für den die Auftretenswahrscheinlichkeit der Beobachtung X am größten ist - Parameter werden so geschätzt, dass die likelihood der Daten maximiert ist/wird - Likelihood = Wahrscheinlichkeit

Answer 82

- ist eine Methode zur Schätzung unbekannter Parameter | - sorgt für Minimierung der Summe der quadrierten Abweichungen der beobachteten Messwerte vom gesuchten Schätzwert

Answer 83

- Intervallgrenzen sind abhängig von der Irrtumswahrscheinlichkeit x, der Streuung sowie dem Stichprobenumfang - untere Grenze < Parameter < obere Grenze - Konfidenzintervall muss gesuchten Parameter nicht enthalten - > 90 % KI = 10 % Chance, dass Parameter nicht im KI liegt

Answer 84

- in einem realistischen KI kann keine Wahrscheinlichkeit zugeordnet werden - Parameter = Konstante -> stellt keine Zufallsvariable dar, wodurch keine Wahrscheinlichkeit zugeordnet werden kann -> Aussage, dass Parameter eine bestimmt Wahrscheinlichkeit in einem KI zuliegen ist also falsch!, da Parameter eine Konstante ist

Answer 85

-Der "erwartete" Wert liegt mit 95% Sicherheit zwischen den Werten x1 und x2

Answer 86

- wird angewendet um zu einer symmetrischen und approximativ normalverteilten Stichprobenverteilung zu gelangen - ab n = 500 hinreichend normalverteilt, schief - Transformation der Korrelationskoeffizienten 1. Fisher Z Transformation 2. Mittelwerte der neuen Z Werte bilden 3. Rücktransformation des neuen Mittelwertes

Answer 87

- Nein, da Kohens K ein Übereinstimmungsmaß von Urteilen ist | - es wird zudem eine symmetrische Häufigkeitstabelle benötigt

Answer 88

Nominal (natürlich, dichotom) und Intervallskala | also: Punktbiseriale Korrelation

Answer 89

R² (Tabelle)

Answer 90

- Bei unkorrelierten Prädiktoren entsprechen die standardisierten Regressionskoeffizienten den Korrelationen mit dem Kriterium - Standartisierten Koeffizienten für Kriterium in Tabelle suchen -> quadrieren

Answer 91

Je größer die Stichprobe, desto kleiner ist die Streuung der Mittelwerte Also: Streuung ist in der Stichprobe größer als in der Population

Answer 92

Mittelwert (müh) betrachten, wenn etwa 100, dann annähernd normalverteilt

Statistik I Flashcards

(118 cards)