Vorlesung 4 Flashcards

(42 cards)

1
Q

Statistik als Teilgebiet der Stochastik

A
  • Explorative Statistik
    systematische Suche nach Zusammenhängen zwischen Daten
  • Stochastik
    Statistische Wahrscheinlichkeitstheorie
  • Wahrscheinlichkeitstheorie
    Zuordnung von Ereignissen und Wahrscheinlichkeiten
  • Mathematische Statistik
    auch induktive oder schließende Statistik, Massenerscheinungen (große
    Datenmengen) mit Wahrscheinlichkeitsrechnung beurteilen
  • Deskriptive Statistik
    Verdichtung von Daten zu Tabellen, graphische Darstellung und Kennzahlen
    (auch Lagemaße oder Standardabweichung)
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Grundgesamtheit

A

Die Grundgesamtheit ist die Menge aller möglichen Objekte über die man im Zuge einer
statistischen Erhebung eine Aussage machen möchte. Die Größe der Grundgesamtheit kann
begrenzt oder unbegrenzt sein.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Stichprobe

A

Als Stichprobe bezeichnet man eine Teilmenge einer Grundgesamtheit. Ihre Größe ist immer
begrenzt.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Arithmetischer Mittelwert

A

beschreibt den statistischen Durchschnittswert

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Empirischer Median

A

mittlerer Wert einer geordneten Messreihe (z.B. aussagekräftiger bei
Einkommensdurchschnitt von 98 Normalverdienern und 2 Spitzenverdienern)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Empirischer Modalwert (Modus)

A

Wert, der am häufigsten Vertreten ist (Werbung)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Geometrisches Mittel

A

(Wirtschaftsstatistik; weniger anfällig gegenüber Ausreißern ohne sie auszuschließen)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Skalenniveaus

A

Das Skalenniveau drückt aus, wie quantitativ ein Antwortwert ist, das heißt, inwieweit
sinnvolle Rechenoperationen angewendet werden können. Es werden vier Skalenniveaus
unterschieden

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Nominaskala

A

(nicht-metrisch bzw. kategorial; Darstellung und Klassifizierung qualitativer
Eigenschaftsausprägungen. Der Modus kann identifiziert werden):
Geschlecht (männlich, weiblich) oder Farbe (blau, gelb, grün, rot usw.)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Ordinaskala

A

(nicht-metrisch bzw. kategorial; Aufstellung einer Rangordnung -
besser/schlechter, größer/kleiner, häufiger/seltener usw. - mit Hilfe von Rangwerten. Modus
und Median können identifiziert werden):
Art des Wohnorts (Einzelhaus, Dorf, Kleinstadt, Großstadt)
Fahrzeugklasse (Kleinwagen, unterer Mittelklassewagen, oberer Mittelklassewagen usw.)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Intervallskala

A

(metrisch; gibt quantitative Werte wieder. Modus, Median und
arithmetisches Mittel können berechnet werden. Ist immer in gleichgroße Skalenabschnitte
unterteilt. Im Gegensatz zur Verhältnisskala hat die Intervallskala keinen natürlichen
Nullpunkt): Temperatur in Celsius oder IQ-Skala
à Nicht x ist doppelt so groß wie y (10 Grad ist nicht doppelt so heißt wie 5 Grad)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Ratioskala/Verhältnisskala

A

(metrisch; Modus, Median und arithmetisches Mittel können
berechnet werden. Gültigkeit von Verhältnissen: ein Einkommen von 4000 € ist doppelt so
groß wie ein Einkommen von 2000 €): Körpergröße oder Monatseinkommen

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Standardabweichung

A

Oft blenden Durchschnittswerte wichtige Informationen aus: „Die Deutschen trinken pro
Jahr durchschnittlich 20 Liter Wein“. (Manche trinken nichts, andere zu viel). Deshalb fügt
man Durchschnittswerten am besten immer auch ein Maß für die Abweichung (Streuung)
vom Durchschnitt (Mittelwert) bei, wie die Standardabweichung.
Die Standardabweichung ist ein Maß für die Streubreite der Werte eines Merkmals rund um
dessen Mittelwert (arithmetisches Mittel).

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Verteilungen

Skizze

A
Eine Verteilung gibt die Wahrscheinlichkeit einzelner Zufallsvariablen an. Sie kann als
Verteilungs- oder Dichtefunktion angegeben werden.
Aus den Funktionen kann für den
Wert x0 die Wahrscheinlichkeit
ermittelt bzw. abgelesen werden
[Dichtefunktion: Integral bis x0;
Verteilungsfunktion F(x0)], mit der
der Wert x0 unterschritten wird. 

à Das Integral bis xo beschreibt
Wahrscheinlichkeit, dass Ereignis eintritt
à Verteilungsfunktion ist deutlicher,
endet immer bei 1 oder 100%

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Verteilungen Logarithmische Normalverteilung

Anwendung der Log-Normalverteilung

A

Verteilungen in der Natur (Hochwasser, Ernteerträge); Zeitstudien & Lebensdaueranalysen; Konzentrations- und Reinheitsprüfungen.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Verteilungen Logarithmische Normalverteilung

Merkmale

A

Einseitige Begrenzung durch null; Multiplikatives Zusammenwirken mehrerer Effekte.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
17
Q

Anwendung der Normalverteilung

A

Körpergröße, Körpergewicht, Produktionsmaße (häufig
bei großen Grundgesamtheiten)
Merkmale: Mittelwert = Median; symmetrisch; eingipflig

18
Q

Verteilungen Exponentialverteilung

A

Zeit des Atomzerfalls bei radioaktiven Stoffen, Arbeitszeit einer Maschine zwischen zwei Stillständen, Lebensdauer von Bauelementen oder Lebewesen

19
Q

Verteilungen Exponentialverteilung

Merkmale

A

Einseitige Begrenzung durch null; Maximalwert der Funktion bei null.

20
Q

Berechnung eines Konfidenzintervalls

Was ist das Konfidenzintervalll

A

à mü = Mittelwert, unbekannt
à xquer = bekannt aus Stichprobe
„Aufspannen“ eines Unsicherheitsbereiches um den berechneten Mittelwert einer
Stichprobe (x) zur Abschätzung des Mittelwertes der Grundgesamtheit μ
à Zur Abschätzung eines unbekannten Mittelwertes der Grundgesamtheit μ werden auf
Basis einer Stichprobe mit dem Umfang n sowie den berechneten Größen „Mittelwert“ (x)
und „Standardabweichung“ (s) der Stichprobe Konfidenzgrenzen berechnet.

21
Q

Berechnung eines Konfidenzintervalls

Der Student-Faktor tm;1-a/2

A

m = n-1 (Umfang der Stichprobe minus 1)
a: vorgegebene statistische Sicherheit (z.B. 95%)
kann als Funktion des Stichprobenumfanges und der statistischen Sicherheit einer Tabelle
entnommen werden.

22
Q

Berechnung eines Konfidenzintervalls

Einseitiges Konfidenzintervall

A
à Klausurfrage auf gelbe Formel
bezogen
à Anpassung der Formel:
Obere Grenze = +
Untere Grenze = -
à gegeben n (Stichprobe)=10 und
Ergebnis bei 95% Sicherheit
à Tabellenwert ablesen bei n-1 = 9
und 95% Sicherheit
à in Formel einsetzen und
ausrechnen
Beispiel für eine einseitige ([meist] obere Konfidenzgrenze) Fragestellung: maximale
Bodenkonzentration im Rahmen einer Gefährdungsabschätzung
23
Q

Berechnung eines Konfidenzintervalls

Zweiseitiges Konfidenzintervall

A

à verteilt auf zwei Seiten

à n = 10 und Eintrittswahrscheinlichkeit 97,5%

à Eintrittswahrscheinlichkeit 95% gefordert, weil
Sicherheit auf beiden Seiten bestehen muss (nicht
auf einer Seite 5% sondern auf beiden Seiten 2,5%)
ist Eintrittswahrscheinlichkeit in Tabelle 97,5%
Beispiel für eine zweiseitige (obere und untere
Konfidenzgrenze) Fragestellung: Herstellung eines
Produktes (z. B. Kolben), mit engen Maßvorgaben

24
Q

Messbares Risiko

objektives Risiko

A

beruht auf naturwissenschaftlich messbaren Risikokriterien

25
Messbares Risiko Klassische Kriterien
* Eintrittswahrscheinlichkeit eines Schadens * Schadensumfang Risiko = Gefährdungspotential x Exposition
26
Messbares Risiko weitere Kriterien
* Ubiquität: räumliche Verbreitung des potentiellen Schadens * Peristenz: zeitliche Ausdehnung des potentiellen Schadens * Reversibilität: Wiederherstellbarkeit * Verzögerungseffekt: Latenz zwischen Ergebnis und Schaden * Ungewissenheit: Indikatoren für Unsicherheitskomponenten
27
Umgang mit wissenschaftlicher Unsicherheit Problematik
* Sicherheitserwartungen von Politik & Gesellschaften kollidieren mit der wissenschaftsinhärenten Unsicherheit * Medien kommunizieren wissenschaftliche Unsicherheit eher wenig differenziert - vorläufige Ergebnisse werden zu scheinbar sicheren Ergebnissen
28
Umgang mit wissenschaftlicher Unsicherheit Antiquiertes Vorgehen
* Unsicherheit existieren nicht, zumindest nicht in der Öffentlichkeit * unsichere Ergebnisse sind keine Ergebnisse * Wissenschaft verfügt über Meinungshoheit und vermittelt illusorische Sicherheit
29
Umgang mit wissenschaftlicher Unsicherheit
* Frühe Veröffentlichung unsicherer wissenschaftlicher Ergebnisse * Offenlegung von Datenlücken, Korrektur von Empfehlungen * Transparenz, Partizipation und Proaktivität schafft Vertrauen in Entscheidungsträger, Akzeptanz von Entscheidungen und hilft, Krisen zu vermeiden, bevor sie entstehen
30
Subjektive Risikowahrnehmung - die tägliche Risikobilanz Sozio-kulturelle Faktoren
* Wahlmöglichkeiten: erzwungene vs. freiwillige Risikoübernnahme * Kontrollierbarkeit: eigene Handlungsmöglichkeit zur Vermeidung * Risiko-Nutzen-Verhältnis * persönliche Betroffenheit * Schrecklichkeit des Schadens * Vertrauen: Glaubwürdigkeit der verantwortlichen Institution * Verantwortlichkeit: natürliche vs. anthropogene Risiken * Art des Schadenseintritt: zeitlich lokalisierbar vs. zeitlich diffus
31
Subjektive Risikowahrnehmung - die tägliche Risikobilanz Regressionsanalyse - Korrelationskoeffizient
Die aufgeführten Punktwolken lassen z.T. einen Zusammenhang zwischen den Größen X und Y erwarten. Derartige nicht streng funktionale Zusammenhänge heißen stochastische oder korrelative Zusammenhänge. Dabei bestimmt der empirische Korrelationskoeffizient rxy mit -1 ≤ rxy ≤ 1 den Grad, d.h. die Stärke und Richtung des linearen Zusammenhanges. (r2 = B; Bestimmtheitsmaß) à Korrelationskoeffizient Dimension: -1 oder +1, bei 0 alles durcheinander à Bestimmtheitsmaß: quadrierter Korrelationskoeffizient
32
Subjektive Risikowahrnehmung - die tägliche Risikobilanz Gegenüberstellung von zwei Parametern zur Klärung der Frage, ob ein korrelativer Zusammenhang besteht.
à Minimierung der Summe der quadrierten | Abstände zur Regressionsgeraden.
33
Subjektive Risikowahrnehmung - die tägliche Risikobilanz Vernünftige Zusammenhänge
- Körpergröße / Körpergewicht | - Autounfälle / Alter des Fahrers
34
Subjektive Risikowahrnehmung - die tägliche Risikobilanz Unsichere Zusammenhänge
- Körpergewicht / Arbeitsbelastung | - Kaffeekonsum / Lebenserwartung
35
Subjektive Risikowahrnehmung - die tägliche Risikobilanz Unsinnige Zusammenhänge, kein kausaler Zusammenhang
- Hamsterpopulation in der Lüneburger Heide / Glühweinkonsum auf dem Aachener Weihnachtsmarkt
36
Subjektive Risikowahrnehmung - die tägliche Risikobilanz | Möglichkeit der Winkelbezüge indirekter Zusammenhang
à Geburtenraten und Klapperstörche à auf dem Dorf leben mehr Klapperstörche, da werden auch mehr Kinder geboren à bedingt sich nicht gegenseitig, sondern hängt vom Wohnort ab
37
Repräsentative Umfragen
Repräsentativ ist eine Umfrage dann, wenn die Auswahl der Befragten möglichst alle Merkmale der zu erforschenden Personengruppe in verkleinertem Maßstab abbildet. à Geschlecht, Alter, Bildungsstand
38
Grundgesamtheit
Die Grundgesamtheit ist die Menge aller möglichen Objekte über die man im Zuge einer statistischen Erhebung eine Aussage machen möchte. Die Größe der Grundgesamtheit kann begrenzt oder unbegrenzt sein.
39
Stichprobe
Eine Stichprobe ist eine Teilmenge der Grundgesamtheit; ihre Größe ist immer begrenzt.
40
Randomized-Response-Technik
Bei der Anwendung der Technik entscheidet ein Zufallsgenerator (z.B. ein Würfel) darüber, ob der Befragte gebeten wird, ehrlich auf die kritische Frage (z.B. „Haben Sie schon einmal Steuern hinterzogen?“) zu antworten, oder ob à Minimierung der Summe der quadrierten Abstände zur Regressionsgeraden. Vernünftige Zusammenhänge: ØKörpergröße / Körpergewicht ØAutounfälle / Alter des Fahrers Unsichere Zusammenhänge: ØKörpergewicht / Arbeitsbelastung ØKaffeekonsum / Lebenserwartung Unsinnige Zusammenhänge, kein kausaler Zusammenhang: ØHamsterpopulation in der Lüneburger Heide / Glühweinkonsum auf dem Aachener Weihnachtsmarkt 34 er unabhängig vom Frageninhalt aufgefordert wird, mit „ja“ zu antworten. Der Ausgang des Zufallsexperiments ist dem Fragesteller nicht bekannt, er weiß also niemals, ob eine individuelle „ja“-Antwort lediglich durch den Würfel determiniert wurde oder ob der Befragte tatsächlich zugegeben hat, Steuern hinterzogen zu haben. Auf diese Weise wird die Anonymität des Befragten geschützt: Bei einer „ja“-Antwort ist dem Fragesteller kein Rückschluss auf das tatsächliche Verhalten möglich. Auf aggregierter Ebene kann der Anteil der Personen, die auf die kritische Frage mit „ja“ geantwortet haben, dennoch bestimmt werden. Dies ist möglich, weil der erwartete Anteil der Personen, die lediglich durch den Würfel zu einer „ja“-Antwort gezwungen wurden, durch die vom Zufallsgenerator erzeugte Verteilung bekannt ist.
41
Eine Dichtefunktion (auch Wahrscheinlichkeitsfunktion)
beschreibt, mit welcher Wahrscheinlichkeit eine Zufallsvariable eine bestimmte Merkmalsausprägung annimmt. Dies gilt allerdings nur bei diskreten Merkmalen. Bei stetigen Merkmalen können über die Dichtefunktion keine Aussagen über das Eintreffen einer Merkmalsausprägung getroffen werden, hier werden die Wahrscheinlichkeiten über die Verteilungsfunktion ermittelt (de.statista.com/statistik/lexikon)
42
Die Verteilungsfunktion
beschreibt den Zusammenhang zwischen einer Zufallsvariablen und deren Wahrscheinlichkeiten, d.h. sie gibt an, mit welcher Wahrscheinlichkeit eine Zufallsvariable höchstens einen bestimmten Wert annimmt. (de.statista.com/statistik/lexikon)