Grundlagen deskriptive Statistik Flashcards

(51 cards)

1
Q

Welche Skalenniveaus gibt es?

A

Metrische Skalen -> Ratioskaka,Verhältnisskala

Ordinalskala

Nominalskala

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Was macht eine Ratioskala aus?

A

Sie hat einen natürlichen Nullpunkt.
Es lassen sich Differenzen bilden.
Es lässt sich eine sinnvolle Reihenfolge bilden.
Die Daten können ins Verhältnis gesetzt werden.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Was unterscheidet eine Verhältnisskala von einer Ratioskala?

A

Sie hat keinen natürlichen Nullpunkt.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Was sind diskrete Variablen?

A

Eine diskrete Variable kann:
• endlich viele Werte annehmen (z. B. das Würfelergebnis: 6 Werte)
• abzählbar unendlich viele Werte annehmen (z. B. die Anzahl der Versuche bis zum ersten Erfolg in einer Bernoulli-Kette: 1, 2, 3, …)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Was gibt die quadratische Abweichung an? (Varianz s^2)

A
  • gibt an, wie weit ein einzelner Wert im Vergleich zum Arithmetischen Mittel entfernt ist
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Was ist eine stetige Variable?

A

Merkmale einer stetigen Variable:
• Sie kann jede reelle Zahl in einem Bereich annehmen (nicht nur ganze Zahlen).
• Zwischen zwei beliebigen Werten gibt es unendlich viele andere mögliche Werte.
• Beispiele:
• Körpergröße: 172,4 cm; 172,42 cm; 172,421 cm …

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Was ist der Unterschied zwischen einer diskreten und einer stetigen Variablen?

A

Unterschied zur diskreten Variable:
• Diskret: zählbar (z. B. Anzahl der Autos: 1, 2, 3 …)
• Stetig: nicht zählbar, unendlich viele mögliche Werte innerhalb eines Intervalls

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Was sind quantitative bzw. qualitative Variablen?

A

Merksatz:
• Quantitativ = Wie viel? (zahlenbasiert)
• Qualitativ = Was für ein Typ? (kategorienbasiert)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Skalenniveau von qualitativen Variablen?

A

Qualitative Variablen (auch: kategoriale Variablen)

Diese beschreiben Eigenschaften oder Kategorien – also keine Zahlen im rechnerischen Sinn.
• Unterteilung:
• Nominalskala: keine natürliche Reihenfolge
z. B. Geschlecht (m/w/divers), Haarfarbe (blond, braun, schwarz)
• Ordinalskala: natürliche Reihenfolge, aber keine Abstände
z. B. Schulnoten (sehr gut, gut, …), Zufriedenheit (hoch, mittel, niedrig)
• Beispiele:
• Nationalität
• Beruf
• Lieblingsfarbe

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Was sind quantitative Variablen?

A

Quantitative Variablen

Diese messen Mengen – also Zahlenwerte, die man rechnen kann (z. B. addieren, Mittelwert berechnen).
• Diskret: zählbar, z. B. Anzahl von Kindern (0, 1, 2, …)
• Stetig: messbar, z. B. Körpergröße (in cm), Gewicht, Zeit
• Alter in Jahren
• Einkommen in Euro

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Welche Formen von Zufallsstichproben gibt es?

A

Zufallsstichproben (probabilistisch)

Jede Einheit der Grundgesamtheit hat eine bekannte (meist gleiche) Chance, ausgewählt zu werden.

a) Einfache Zufallsstichprobe
• Jede Person wird rein zufällig gezogen.

b) Systematische Stichprobe
• Man wählt jede n-te Person aus einer Liste.

c) Geschichtete Stichprobe (Stratifizierung)
• Die Grundgesamtheit wird in Schichten (z. B. Altersgruppen) unterteilt, und aus jeder Schicht wird zufällig gezogen.
• Vorteil: Repräsentativität in jeder Schicht.

d) Klumpenstichprobe (Cluster Sample)
• Statt einzelne Personen zieht man ganze Gruppen (Klumpen) zufällig.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Welche Nicht Zufallsstichprobenarten gibt es?

A

Nicht-Zufallsstichproben (nicht-probabilistisch)
a) Gelegenheitsstichprobe (Convenience Sample)
• Man nimmt, was „gerade da ist“.
• Beispiel: Umfrage in der Fußgängerzone.
• Problem: Oft nicht repräsentativ.

b) Quotenstichprobe
• Es werden bestimmte Quoten (z. B. 50 % Männer, 50 % Frauen) erfüllt, aber innerhalb der Gruppen wird nicht zufällig gezogen.

c) Theoretische Stichprobe
• In der qualitativen Forschung: Auswahl nach theoretischer Relevanz, nicht nach Repräsentativität.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Was sind Variablen?

A

Variablen sind Merkmale, die an statistischen Einheiten untersucht werden.
Die Variablen besitzen Ausprägungen bzw. Werte.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q
A
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Was ist ein Merkmal bzw. eine Ausprägung?

A

Merkmale sind Werte oder Zustände die etwas annehmen kann.
Beispiele: Geschlecht, Farbe, Alter, Größe, Menge usw.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Welche wesentlichen Merkmale hat eine Ordinalskala?

A
  • für jeden Wert lässt sich feststellen wie häufig er vorkommt ( absolute Häufigkeit)
  • hat keinen natürlichen Nullpunkt
  • Bildung von Differenzen oder Quotienten ist nicht sinnvoll
  • die Reihenfolge der Werte kann kann interpretiert werden, aber nicht der Abstand zwischen den Werten
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
17
Q

Was sind wesentliche Merkmale einer Intervallskala?

A
  • für jeden Wert lässt sich die absolute Häufigkeit feststellen
  • hat keinen natürlichen Nullpunkt
  • die Werte lassen sich der Größe nach ordnen
  • es lassen sich sinnvolle Differenzen bilden
  • es lassen sich nicht sinnvoll Quotienten bilden
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
18
Q

Was sind Merkmale eines Nominalskalenniveaus?

A
  • es lässt sich für jeden Wert bestimmen, wie häufig er vorkommt
  • es gibt keinen absoluten Nullpunkt
  • die Werte lassen sich nicht der Größe nach ordnen
  • es ist keine sinnvolle Bildung von Differenzen oder Quotienten möglich
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
19
Q

Welche Merkmale hat eine Ratioskala?

A
  • für jeden Wert lässt sich die absolute Häufigkeit bestimmen
  • es gibt einen natürlichen Nullpunkt
  • die Werte lassen sich der Größe nach ordnen
  • es lassen sich sinnvoll Differenzen und Quotienten bilden
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
20
Q

Was sind metrische Variablen?

A

Variablen die entweder Ratio oder Intervallskaliert sind

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
21
Q

Was ist die absolute Häufigkeit?

A

Gibt die Anzahl der statistischen Einheiten in einer Stichprobe an, bei denen diese Ausprägung auftritt.

22
Q

Was ist die relative Häufigkeit?

A

Die relative Häufigkeit setzt die absolute Häufigkeit ins Verhältnis zur Gesamtprobe. Sie gibt den Prozentwert an.

23
Q

Was ist eine Häufigkeitsverteilung?

A

Gibt an, wie sich die beobachteten Werte einer Variablen über den möglichen Wertebereich verteilen.
Dazu wird ausgezählt, wie häufig die Ausprägungen einer Variablen in einer Stichprobe beobachtet werden.

24
Q

Was ist die kumulierte Häufigkeit?

A

Die kumulierte Häufigkeit wird aus der Summe der relativen Häufigkeiten aller Ausprägungen, die im Vergleich zu dieser bestimmten Ausprägung kleiner oder gleich groß sind.

25
Wie nennt man die kumulierte Häufigkeit noch?
Empirische Verteilungsfunktion
26
Bezeichnung für: Ausprägungen Absolute Häufigkeiten Relative Häufigkeiten Kumulierte Häufigkeiten
a n p c
27
Worauf ist bei der gruppierten Häufigkeitsverteilung zu achten?
Um große Datenmengen übersichtlicher zu gestalten kann man die Werte gruppieren. Hierbei dürfen sich die Intervalle nicht überschneiden und sie müssen den gesamten Wertebereich erfassen.
28
Wie werden Daten in einem Balken oder Kreisdiagramm dargestellt?
- Man kann sowohl die absolute als auch die relative Häufigkeit zur Darstellung heranziehen. - die Y-Achse muss dementsprechend angepasst werden - die Beschriftung der Kreissegmente muss angepasst werden - um die Größe der Kreissegmente zu bestimmen, muss ein prozentualer Anteil pro Wert errechnet werden
29
Was ist ein Stamm-Blatt Diagramm?
Eine semigrafische Darstellung von meistens metrischen Variablen, wenn die Menge der Daten nicht zu groß ist. Hierfür müssen die Daten zunächst der Größe nach geordnet werden.
30
Was ist ein Histogramm?
- eine Darstellungsform für metrische Variablen - Im Gegensatz zu Balkendiagrammen besteht zwischen den Balken kein Zwischenraum - sie erstrecken sich über einen bestimmten Wertebereich
31
Wie erstellt man ein Histogramm?
1. die Anzahl der Klassen muss festgelegt werden Äquivalent dazu kann man auch die Breite der Klassen festlegen ( diese sollte; für alle Klassen gleich sein) 2. danach ist eine gruppierte Häufigkeitsverteilung zu erstellen 3. abschliessend wird für jede Klasse eine Säule dargestellt, deren Höhe proportional zur absoluten bzw. relativen Häufigkeit der Klasse ist
32
Was sind Merkmale eine Normalverteilung?
- bei hinreichend großen Datenmengen einer metrischen Variablen nehmen die Häufigkeitsverteilungen, die Form einer Gauss schen normalverteilung an -> d.h. Die Variable ist normalverteilt 1. Glockenförmige, symmetrische Form: Die Verteilung ist symmetrisch um den Mittelwert. 2. Mittelwert = Median = Modus: Diese drei Lagemaße liegen bei einer Normalverteilung alle genau in der Mitte. 3. Asymptotisches Verhalten: Die Kurve nähert sich den Achsen, berührt sie aber nie – sie geht also gegen null, aber erreicht sie nicht. 4. Standardabweichung und Streuung: Etwa 68 % der Werte liegen innerhalb einer Standardabweichung vom Mittelwert, 95 % innerhalb von zwei und 99,7 % innerhalb von drei. 5. Unimodalität: Es gibt genau einen Gipfelpunkt – also nur ein Maximum. 6. Verteilungsparameter: Die Normalverteilung ist vollständig beschrieben durch Mittelwert (μ) und Standardabweichung (σ).
33
34
Welche Arten der Schiefe gibt es?
- rechtsschiefe/(linkssteile) Verteilungen -> fällt auf der rechten Seite flacher ab und steigt auf der linken steiler an - linksschiefe/(rechtssteile) Verteilungen -> fällt auf der linken Seite flacher ab und steigt auf der rechten steiler an
35
Darstellung einer kumulierten Häufigkeitsfunktion
Graphisch darstellen: • x-Achse: Werte oder Klassen (z. B. Noten, Größen, etc.) • y-Achse: Kumulierte Häufigkeit (absolut oder relativ) • Punkte setzen und ggf. verbinden (Treppenfunktion oder polygonartige Linie)
36
Was ist eine bimodale bzw. eine multimediale Verteilung?
1. Bimodale Verteilung: • Hat zwei Häufigkeitsgipfel (zwei “Moden”). • Diese Gipfel sind deutlich voneinander getrennt. • Kann z. B. entstehen, wenn zwei unterschiedliche Gruppen in einer Stichprobe enthalten sind (z. B. Körpergrößen von Männern und Frauen zusammen). 2. Multimodale Verteilung: • Hat mehr als zwei Moden (drei oder mehr Gipfel). • Tritt auf, wenn die Daten aus mehreren verschiedenen Teilgruppen stammen, die sich in ihren häufigen Werten unterscheiden.
37
Was umfasst die zentrale Tendenz?
- Mittelwert - Median - Modus
38
Womit berechnet man die Position der Verteilung?
Mit den Quantilen (Quartile, Dezile)
39
Welche Maße werden zur Berechnung der Streuung genutzt?
Varianz Standardabweichung Interquartilsabstand Spannweite (Range)
40
Was sind Maße der Schiefe?
Schiefekoeffizient Quartilskoeffizient
41
Was ist ein Maß der Wölbung?
Kurtosiskoeffizient
42
Was sind dichotome Variablen?
Dichotome Variablen sind Variablen mit genau zwei Ausprägungen – also zwei mögliche Werte. Merkmale: • Auch binäre Variablen genannt. • Häufige Ausprägungen: ja/nein, wahr/falsch, 0/1, männlich/weiblich (klassisch betrachtet). • Sie gehören zur nominalen Skalenniveau (keine Rangordnung), es sei denn, die zwei Werte haben eine logische Reihenfolge (dann ordinal). Beispiele: • Ist die Person Raucher? → Ja / Nein • Hat das Produkt einen Defekt? → 0 / 1 • War die Antwort korrekt? → Richtig / Falsch
43
Warum ist die Summe der Abweichungen vom Arithmetischen Mittel gleich 0?
Weil sich die negativen und positiven Abweichungen gegenseitig aufheben.
44
Was sagt die Summe der Abweichungsquadrate vom Mittelwert über einen bestimmten Wert aus?
Die Summe sagt aus wie gut ein bestimmter Wert die Daten repräsentiert.
45
Was ist Äquivarianz?
Äquivarianz (manchmal auch Äquivalenz der Varianzen) ist ein Begriff aus der Statistik, der sich auf die Gleichheit der Varianzen in verschiedenen Gruppen bezieht. Bedeutung: Wenn zwei oder mehr Gruppen äquivariante Varianzen haben, bedeutet das: • Die Streuung der Daten um den Mittelwert ist in allen Gruppen gleich groß.
46
Was ist der Unterschied zwischen dem Gruppenmittelwert und dem Gesamtmittelwert?
1. Gruppenmittelwert: • Der Durchschnitt innerhalb einer einzelnen Gruppe. • Beispiel: In einer Studie mit Männern und Frauen berechnest du den Mittelwert nur für die Männer oder nur für die Frauen. 2. Gesamtmittelwert: • Der Durchschnitt über alle Gruppen hinweg, also über die gesamte Stichprobe. • Berücksichtigt alle Werte unabhängig von der Gruppenzugehörigkeit.
47
Was muss man bei ungleicher Gruppengrösse mit dem Gesamtmittelwert machen?
Schritt 1: Gruppenmittelwerte multiplizieren mit Gruppengrößen • Gruppe A: 5 × 2 = 10 • Gruppe B: 10 × 3 = 30 Schritt 2: Addieren • Gesamt: 10 + 30 = 40 Schritt 3: Durch die Gesamtanzahl der Werte teilen • 40 / (2 + 3) = 40 / 5 = 8 Ergebnis: Gesamtmittelwert (gewichtet) = 8 Ohne Gewichtung hättest du einfach den Mittelwert von 5 und 10 genommen → (5+10)/2 = 7.5 – das wäre falsch, weil Gruppe B größer ist und daher mehr Einfluss haben muss.
48
Was definiert den Median?
- das er genau in der Mitte der Werte liegt, er ist also faktisch das 50% Quartil Somit sind 50% der Werte größer und 50% kleiner als der Median - die Hälfte des Medians bzw. das 1,5 fache des Medians sind das .25 Quartil bzw. das .75 Quartil - der Median ist im Gegensatz zum Mittelwert robust gegenüber Ausreißern und Extremwerten
49
50
Was sagen die Abweichungsbeträge aus?
Zeigt die Streuung der Daten um den Mittelwert an – ähnlich wie die Varianz, aber ohne Quadrieren. • Werden häufig verwendet zur Berechnung der mittleren absoluten Abweichung (MAD) Was sagen sie aus? • Je größer die Abweichungsbeträge, desto weiter liegen die Werte vom Mittelwert entfernt. • Kleine Abweichungsbeträge bedeuten, dass die Werte nah am Mittelwert liegen – also geringe Streuung.
51
Was sagt der Modus aus?
Der Modus ist der häufigste Wert in einer Datenreihe – also der Wert, der am häufigsten vorkommt. Merkmale: • Lagemaß, besonders für nominale Daten geeignet (z. B. Farben, Kategorien). • Eine Verteilung kann: • einen Modus haben (unimodal), • zwei Modi (bimodal), • mehrere Modi (multimodal), • oder keinen Modus, wenn alle Werte gleich oft vorkommen.