1 Flashcards
(51 cards)
Statistik Definition
*ein Bild von für jmd. interessanten Teil der Welt machen *Bild so stukturieren, dass es für jmd. aussagekräftig ist *aus Erkenntnissen Schlüsse ziehen, Handlungsanweisungen ableiten,, Erkenntisse kommunizierbar machen a. Statistik ist Wissenschaft von Sammeln, Aufbereiten, Darstellen–> beschreibende Statistik Analysieren, und Interpretieren von Zahlen und Fakten–> schliessende Statistik / beurteilende Statistik b. Eine Statistik in der beschreibenden Statistik Zusammensteleung von Zahlen und Fakten c. im Englishen ist “Statistic” eine Grösse aus gewissen Grunddaten berechnet. -Deckte es Grundgesamtheit ab: “Population” statistic bzw. “Parameter” -bei Stichproben “sample statistic”, “test statistic” bzw. Prüfgröss wenn Grössen Aussagen über Wahrscheinlichkeitsverteilung geben (zum testen von Hyphothesen) d. wird auch als “Lüge” bezeihnet da schwer überpfrüfbar
Untersuchungseinheit
Objekt mit dem sich Fragestellung beschäftigt (kann jeglicher Träger von Informationen sein)
Grundgesamtheit (Population)
Menge gleichartiger Untersuchungseinheiten. Sind genau definiert müssen aber physisch (noch) gar nicht existieren
Stellt alle interessierneden Untersuchungseinheiten dar
Masse: Parameter der grundgesamtheit mit grieschischen Buchstaben notiert
Stichprobe
Untermenge der Gesamtheit (“Ziehen” der Stichprobe unterliegt dem Zufall). Im Vergleich zur Grundsgesamtheit eher klein
beschränkt und zufällig oder systematisch aus der Population herausgegriffene Untermenge
Masse: Stichprobenvariablen mit lateinischen Buchstaben notiert
Merkmal
an der Untersuchungseinheit beobachtbare und für Statistik feststellbare Eigenschaft (Farbe einer Blume, Gewicht eines Babys)
Merkmalausprägung
bestimmter Wert eines Merkmals z.B rot, 4200gramm
Beobachtung
Bezeichnet Gesamtheit der ermittelten Merkmalausprägungen einer Untersuchungseinheit (z.B bei Personen: Geschlecht, Körpergrösse Körpergewicht, Alter, Schuhgrösse)
Missniveau / Skalenniveau
Unterschied der “Messbarkeit” von Merkmalen /Qualität der Messbarkeit (Geschlecht, Grösse, TShirt Grösse)
Skalen Klassifizierungen
*Numerische Skalen: 1,2,10,6,7,etc. *Nicht numerische Skalen *Norminalskalen: Einordnung in Klassen, keine natürliche Reihenfolge (Farbe, Nationalität) kann numerisch sein *Ordinalskalen: Einordnung in Klassen mit natüricher Reihnefolge (Tshirt Grössen, Schulnoten) kann numerisch sein *Intervallskalen: Reele Zahlen als Wertebereich, lässt arithmetische Rechenoperationen zu (sinnvole Rechenoperationen Addition und Subtraktion). Kein natürlicher Nullpunkt (Temperaturskale Jahreszahlen nach Christi Geburt) *Verhältnisskalen: erlaub arithmetische Rechenoperationen aller Arten (insbesondere Verhältnisse –> Quotienten zweier Werte). Es existiert ein natürtlicher Nullpunkt (Längen, Gewichte, Geldbeträge) *Metrische Skalen: Oberbegriff Intervall und Verhältnisskalen Merkmale sind qualitativ (Wie) oder quantitativ (Wie viel) beziehen sich auf Merkmale selbst, nich auf die Skalen. Qualitativ: Norminal und Orinalskalen Quantitativ: Intervall und Verhältnisskalen
Metrische Skalen ist Oberbegriff für Intervall und verhältnisskalen
Data Warehouse
Unternehmeninterne Datensammlung
Häufigkeitsberechnung
Absolute Häufigkeit: Reine Anzahl gezählter Häufigkeit Relative Häufigkeit: Anteil der Merkmalausprägung an der Gesamtzahl Prozentuale Häufigkeit: Prozentwert Relatve Häufigkeit: absolute Häufigkeit / Geasmtzahl der Beobachtungen Prozentuale Häufigkeit: relative Häufigkeit * 100
kumulierte Häufigkeitsverteilung
Hi=Σij=1 hj
Kreuztabelle
Für 2 Merkmale geeignet
Diskret und Stetige Merkmale
Diskret: wird durch abzählen ermittelt
Stetif: kann unendlich viele Zahlen annehmen, wird nicht durhc Zähen ermittelt (Zeit, Volumen, Gewicht)
Klasseneinteilung der Beobachtungswerte (bei quantitaviven Merkmalen)
Wird verwendet wenn die einzelnen Merkmalausprägungen nur einmal und im Ausnahmefall wenige Male vorkommt (z.B. Körpergrösse von Patienten, Temperaturwerte–> bei quantitativen Merkmalen)
x_<150/150x<160/160<x170/170<x180/180<_x
Klassenbreite lässt sich wie folgt berechnen:
Klassenbreite= Maximalwert - Minimalwert / Klassenzahl
Im Anschluss fängt man mit einer runden Zahl unterhalb des kleinsten Wertes an. Es wird dann eventuell eine Klasse mehr geben bzw. wird gerundet. Es wird dann gezählt wie viele Werte in die jeweiligen Klassen kommen und somit hat man die Häufigkeitstabelle.
* Klassen sollten dieselbe Breite haben
(Ausnahmen können erste und letzte Klasse sein)
*Klassengrenzen glatte Zahlen wählen
*Vernünftigen Komromiss zwischen Klasenzahl und Klassenbelegung (Klassenzahl in der Regel zwischen 5 und 20)
*zur bestimmung der Klasenbreite wird zunächst (Maximalwert-Minimalwert)/ Klassenzahl berechnet und dann mathematisc hgerundet und angepasst damit glatte Klassengrenzen erreicht werden
Histogramm
* stellt Häufigkeitsdiche dar (Säulenhöhe)
*Säulendiagramm ohne Abstände
* für Darstellung von quantitativen Merkmalen
Streuungsdiagramm
* Zur Visualisierung von Merkmalspaaren (z.B Gewicht und Grösse von personen)
* Jedes merkmalspaar stellt einen Punkt dar
Summenpolygon
Kurve stellt kumulierte Häufigkeit quantitaviver Daten dar
Arithmetisches Mittel
Statististischer Faschbegriff für Durchschnitt
Für population:
µ = 1/N * Σ ( hj * ) xj
Für Stichprobe: x¯ = 1/N * Σ ( hj * ) xj
hj = bei Datenklassen ermittelte Häufigkeit
Bei Datenklassen für xj den Mittelwert der Datenklasse verwenden!!!
Mitetlwert wird in der Wahrscheinlichkeitsrechnung Erwartungswert genannt!
Zentraleigenschaft (des arithmetisches Mittelwertes)
Besagt dass Summe aller Abweichungen der Einzlwerte von ihrem eigenen arithmetschen Mittel immer Null ergibt!!
z.B.:
Reihe: 1,2,4,5
Arithmetsches Mittel: 3
ALSO:
1 -3 = -2
2-3= -1
4-3=1
5-3=2
= 0
Median
Mittelwert im Lagemass, icht rechnerisch
bei einer geraden Zahl an Werten ist der arithmetische Mittelwert der beiden Mittelwerte zu nehmen.
Bei nicht numerischen ist dann Median nicht zu ermitteln oder es muss für einen der beiden Mittelwerte entschieden werden.
Modus
der am häufigsten vorkommende Wert in einer statischtischen Reihe
- Unimodal: ein Wert kommt am häufigsten vor
- Bimodal: zwei Werte kommen am häufigsten vor
- Multimodal: mehrere Werte kommen am häufigsten vor
Spannweite
Spannweite = grösster Wert - kleinster Wert
z.B. Preis Kamera: 150 - 130 Euro = 20 Euro (Spannweite)
ist sehr sensibel für Ausreisser
MAD (mean absolute deviation)
mittlere Absolute Abweichung (beim arithmetischen Mittelwert)
Vorzeichen der Abstände werden weggelassen, alles aufaddiert und Durchschnitt berechnet
“SUmme der Entfernungen zum Mittelwert geteilt durch die Anzahl der Werte”
Je grösser die Varianz bzw. Standardabweichung ist, desto grösser ist die Streuung! Stdandardabweichung hat dieselbe Dimension wie die Beobachtung selbst.