Zusammenfassung Flashcards

(60 cards)

1
Q

Bestandteile der Grundgesamtheit

A

mehrere Stichproben und sich daraus ergebende
Variablen
- unabhängige Variable (Prädiktor)
- abhängige Variable (Response)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Was sind ökologische Daten?

A

Artentabelle und Umweltdaten,
werden miteinander verbunden über den identischen Zeilennahmen (rownames =1)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Deskriptive Statistik

A

Beschreibung, Zusammenfassung und Gruppierung von Variablen und ihren Zusammenhängen

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Induktive (schließende) Statistik

A
  • Verallgemeinerbare Aussagen über die Grundgesamtheit
  • Testen von Hypothesen
    -> Unterscheidung von zufälligen Beobachtungen
    und systematischen Effekten
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Nullhypothese

A

in der schließenden Statistik wird eine Theorie überprüft, die man hier als Hypothese bezeichnet
-> Nullhypothese als Gegenhypothese, die entweder unterstützt (p>0.05) oder abgelegt wird (p<0.05)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

t-Test

A

Vergleich des empirisch gefundenen t Werts (p) mit der (theoretischen) t-Verteilung (z.B. Normalverteilung)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

ordinale Gradienten

A

Faktoren mit sinnvoller Reihenfolge (Faktorstufen) und entsprechender metrischer Variable

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Gruppen

A

Faktoren und Faktorstufen ohne metrische Variable

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Wichtige Variablen-Skalen in R (3)

A

Numerische Variablen (num):
Verhältnisskala/ Metrisch
Ganzzahlen (int):
Intervalskala (sinnvolle Abstände zw. den Werten)/ Zähldaten
Faktoren (factor):
Nominalskala/Kategorien

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Grundsätzliche Datenorganisation (3)

A
  • jede Variable steht in einer Spalte
  • Variablennamen stehen als Überschrift über der Spalte
  • Faktoren werden ebenfalls in
    EINER Spalte organisiert, die
    Faktorstufen werden möglichst als Buchstabencode
    verschlüsselt
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Lagemaße (3)

A

arithmetischer Mittelwert:
Maß für das Zentrum der Verteilung

Median:
Wert, der genau in der Mitte des sortierten
Datensatzes liegt er teilt also den Datensatz in zwei gleich große Bereiche

Modalwert (Modus):
der am häufigsten auftretende Wert = Peak im Histogramm

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Was ist Varianz?

A

ein Streuungsmaß für die mittlere Summe der quadrierten Abweichungen vom
Mittelwert

Sum of Squares / Freiheitsgrade (n-1)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Was ist Standardabweichung?

A

ist die mittlere Abweichung der Werte einer Variablen vom Mittelwert

Die Standardabweichung ist die Wurzel aus der Varianz und liegt damit wieder in der gleichen Maßeinheit vor.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Korrelationskoeffizent

A

Zeigt die Stärke eines Linearen Zusammenhangs, keine Geradensteigung !
liegt zw. -1 (negative Korrelation) und 1 (positive Korrelation)

Wie stark Punkte auf der Linie liegen oder um diese Linie herum streuen

zielt nur auf lineare Zusammehänge, kann andere mathematische Zusammenhänge wie Quadrierungen nicht besfchreiben

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Parametrische und nicht parametrische Zusammenhänge/ Korrelation

A

Parametrisch = verteilungsabhängig, Normalverteilung
Berechnung des
Pearsons-
Korellationskoeffizient

nicht parametrische = verteilungsunabhängig

Ist keine Normalverteilung herstellbar, kann der Spearman-Rang-Korellationskoeffizient

cor (x, y, method=spearman)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Regressionsanalyse

A
  • Eine Variable ist abhängig, die
    andere unabhängig
  • Ursache-Wirkung-Beziehung
  • y ist abhängig von x
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
17
Q

Verteilungen von Daten (3)

A

Symmetrisch:
Median = Mittelwert, z.B. Normalverteilung

Linksgipflig, rechtsschief:
Median < Mittelwert

Rechtsgipflig, linksschief:
Mittelwert > Median

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
18
Q

Simple random sampling

A

Randomisierte Verteilung der Untersuchungsplots
Nachteil: Ungünstig bei der Untersuchung von Landnutzung,
randomisierte Verteilung kann zu ungleichverteilung der Probflächen führen

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
19
Q

Gegenmaßnahme von Ungleichverteilung durch simple random sampling

A

Stratifizieren:
Randomisierung wird auf bestimmte Gruppen beschränkt, bzw. manche Gruppen sind nur bis zu bestimmten Maß in dem Randomisierten Verfahren enthalten

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
20
Q

Kontrolle störender Einflüsse

A

Blockdesign
Verfahren, wenn man mehrere Behandlungen hat, die man vergleiche möchte und sicherstellen muss, dass in einer Wiederholung die sonstigen Umweltbedingungen, die außerhalb der Behandlungswirkung liegen relativ homogen/ gering sind
räumliche Nähe der der Plots (in einem Block)

Besonders starker Umwelteffekt kann dann in einer Anova oder Ancova mit brücksischtigt werden

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
21
Q

Mittelwertvergleiche 2 Gruppen

A

Parametrischer Test:

Intervall
Normalerteilt

-> t-Test

nicht parametrische Test:

Ordinal
oder Internvall nicht normalverteilt

-> Wilcoxon Test

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
22
Q

Mittelwertsvergleich bei mehr als 2 Gruppen

A

Anova (parametrisch)

Kruskal-Wallis-Test (nicht parametrische)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
23
Q

Chi-Quadrat-Test

A

Test auf Unabhängigkeit zweier nominal skalierter Merkmale
Sehr Häufig bei der Auswertung von Befragungen

in R:
xtabs - Erstellung von Kreuztabellen

chisq.test - Durchführung eines Chi Quadrat Tests

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
24
Q

Varianzanalyse

A

Varianzanalyse: Zerlegung der Varianz in erklärten und
unerklärten Anteil

erklärt: Streuung zwischen
den Gruppen (SSA)
durch das Modell erklärt
Anova

nicht erklärt: Streuung innerhalb der Gruppen (Residuum) (SSE)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
25
R^2
Bestimmtheitsmaß bei Varianzanalyse SSA/SST Anteil der erklärten Varianz an der Gesamtvarianz
26
Anovatabelle Elemente
Links nach Rechts 1) Der untersuchte Faktor 2) Freiheitsgrade Oben: Anzahl Faktorstufen ( k-1) Unten: Stichprobenumfang (n) -Faktorstufen (k) 3) Sum of Squares Oben: zwischen den Gruppen = erklärte Streuung Unten: Innerhalb der Gruppen = Error 4) Mean sum of Squares Sumof Squares geteilt durch die Freiheitsgrade 5) F-Wert die Teststatistik Mean Sq (Faktor)/MeanSq (Residuen) 6) p-Wert
27
Mehr als 2 Faktorstufen / Gruppen
Anova Das Ergebnis gibt zwar an, ob der Faktor insgesamt einen signifikanten Effekt auf die Mittelwerte hat, davon weiß man aber noch nicht, welche Mittelwerte sich denn signifikant voneinander unterscheiden Lösung: Post-Hoc-Tests (Multiple Mittelwertsvergleiche) Ergebnis meist als Buchstabencode
28
nicht parametrische Alternative zur Anova
Kruskal-Wallis Test: Rangbasiertes Verfahren, für mehr als zwei Faktorstufen aber nur für einen Faktor Nichtparametriche Post Hoc Test: Paarweiser Wilcoxon Test Dunn‘s Test bei unbalancierten Gruppen
29
Lineares Regressionsmodell - Gleichung
Abhängige Variable y= ß0 y-Achsenabschnitt + ß1 Steigung, Regressionskoeffizent * x + error Fehler, Abweichung (Wird aber in der Regressionsgeraden nicht berücksichtig, GeradenGleichung tut so als wäre das Modell perfekt)
30
Anova & Regression
Allgemeine lineare Modelle (lm) Unterscheiden sich in der Form der Modelldarstellung: Regression -> Geraden Anova -> Gruppen Auch Anovatabelle für Regressionmodell durchführbar erklärter Varianzanteil (durch das Modell erklärt) + nicht erklärter Varianzanteil/ error/ (Residuen)/ Abstand Punkte zum Modell = Gesamtvarianz
31
Modellgüte R^2 Regression
R^2= 1- SSE (Quadratsumme Residuen) / SST (Quadratsumme Gesamtvarianz)
32
allgemeine lineare Modelle (3)
Kann mit mehreren Prädiktorvariablen unterschiedlicher Skalierung rechnen mehrere kontinuierliche: Multiple Regression mehrere Faktoren: Multifaktorielle ANOVA kontinuierliche und Faktoren: ANCOVA
33
summary multiples Regressionsmodell
Estimate zeigt eine positiven oder negativen (-) Zusammenhang der Variablen auf die abhängie Variable und deren Signifikanz Sowie güßtemaß des Regrssionsmodells (R-squared) und die Modell-Signifikanz
34
GLM
das verallgemeinernde lineare Modell Ermöglicht die Modellierung von Response Variablen unterschiedlicher Verteilungen (z.B. nicht normalverteilt) Art der Generalisierung, z.B. für Zähldaten die stark linksschief sind -> poisson nur für Integer, Zahlen ohne Komma famliy=poisson Kann über link- Funktionen eine Beziehung zwischen Response und Modell herstellen
35
Logistische Regression
Logistische Regression: ein GLM mit Logit Link family = binomial: Response in Form von 0 = nicht vorkommen und 1 = vorkommen S-Kurve modelliert die Vorkommenswahrscheinlichkeit in Abhängigkeit eines Prädiktors
36
2 Komponenten der Biodiversität
Artenreichtum (Species richness) Gleichverteilung (Eveness)
37
Eveness
Beschreibt Gelchverteilung, Abundanzen über die versch. Arten einer Probefläche -> spielen auch eine Rolle für die Diversität Abundanzen -> Zähldaten oder Deckungsgrad
38
Artenakkumulationskurve
Grafische Darstellung des Artenreichtums einer Gemeinschaft -> Sättigungskurve Kumulierter Artenreichtum in Abhängigkeit von der. Stichprobenanzahl je mehr Stichproben desto eher nähert man sich einer Sättigung an, alle Artenzaheln einer Gemeinschaft wurden erfasst
39
α-Diversität
Diversität an einem Probepunkt, Punktdiversität Beschreiben durch: Artenvielfahlt, oder Biodiversitätsindex wie z.B. Shanon Index
40
ß-Diversität
Veränderung entlang eines Gradienten Unterschied in der Artenzusammensetzung zweier Probeflächen
41
ökologische Distanz
Unterschiede in Artenzusammensetzung zwischen Gemeinschaften Vergleich zwischen den Probeflächen, Unterschiedlichkeit der Artenzusammensetzungen (Distanz)
42
Jaccard-Index
Messung der Ähnlichkeit Anteil der gemeinsamen Arten an allen vorkommendenm Arten der Probeflächen J=1 -> nur gemeinsame Arten 1-J -> Unähnlichkeit, Distanz
43
Ordinationsverfahren
Darstellung der Unähnlichkeit in der multivariaten Statistik Ähnlichkeit oder Unähnlichkeit der Aufnahmepunkte und/ oder der Arten vermessen Komponenten von Ordinationsverfahren/ Diagramm: Darstellung von Arten, Aufnahmeflächen und Umweltgradienten
44
Schrittweises Verfahren in der Auswertung ökologischer Daten
Vergleich von Unterschieden zwischen Gruppen? -> Mittelwertvergleiche, ANOVA Analyse von Zusammenhängen von Variablen? -> Korrelation, Regressionsmodelle Analyse der Ursachen für Vorkommen/ Abundanz von Arten? -> Habitatmodelle (Bsp.: Was beeinflusst Vorkommenswahrsch. vom Sperling in der Stadt? (0, 1) Logistische Regression, Ursachen für Vorkommenswahrsch.) Analyse der Ursachen für Unterschiede der Artenzusammensetzung -> Multivariate Methoden (Alle Arten auf einmal sind Response Variablen (es gibt nicht nur eine abhängige Variable))
45
Grundsätzliche Fragestellungen
Welche meiner Variablen ist die Responsevariable? Gibt es mehr als eine Responsevariable? -> univariate oder multivariate Statistik (Artenzusammensetzungen) Welche Form hat die Responsevariable? -> Beeinflusst die Wahl der statistischen Methoden Welches sind die Prädiktorvariablen? Sind die Prädiktorvariablen kontinuierlich oder kategorial oder beides?
46
Modellgleichungen
Modellgleichungen Response und Prediktor werden in Modellgleichungen und Grafikbefehlen meist durch ~ verbunden: plot (y~x ) : trägt x in Abhängigkeit von y auf lm( y~x ): lineares Modell mit x als Response und y als Prediktorvariable
47
Funktion str
str (Name der Tabelle): gibt eine Übersicht der Datenkategorien von Variablen in einem Datensatz Datenkategorien in der Ausgabe: num : numerische (metrische) Variable int : Ganzzahlen ohne Kommastellen (meistens Zähldaten) Factor : Faktor, kategoriale Variable
48
Funktion summary
summary (Name der Tabelle): gibt eine Tabelle mit Lagemaßen für jede Variable im Datensatz aus
49
Die Funktion plot
Universelle Graphikfunktion, die den Grafiktyp anhand der Datenkategorien der verwendeten Variablen auswählt plot (pH~Biotop): erste Variable numerisch, zweite kategorial = Boxplot plot(pH~CaGehalt): erste Variable numerisch, zweite auch = Scatterplot
50
Die Funktion hist
Erstellt ein Histogramm einer ausgewählten Variable des Datensatzes Verteilung der Variable hist ( pH): erstellt ein Histogramm der Variable pH
51
Subscripts (Indizierung von Tabellen)
Datenformat von Tabellen: - matrix (nur für Zahlen, selten) - dataframe (fast immer, wird über read.table erzeugt) [1,3] -> Zeile, Spalte
52
Subscripts für Variablen
pH[ location =="GB"] location [pH>5] logische Operanten zur Filterung von metrischen Variablen
53
Anova in R
Funktionen aov (response~predictor) oder lm(response~predictor) Für lineare Modelle, die metrische Prediktoren enthalten, ist aov nicht geeignet, lm aber schon Bringt so aber nicht viel, sollte einem Objekt zugeordnet werden: Model1<-aov(response ~predictor) Ausgabe der ANOVA Tabelle dann über: anova (Model1)
54
Anova in R mit mehreren Prädiktorvariablen
aov(response~predictor1 + predictor2) oder aov(response~predictor1 *predicto2) mit Interaktion wird auch in der Anova Tabelle ausgegeben
55
Das allgemeine multiple lineare Modell
in R alles mit lm lm (Response~ Variable1 + Variable2): Multiple Regression -> metrische Variablen lm(Response~ Faktor1 + Faktor2): Multifaktorielle ANOVA -> Kategorielle Variablen lm(Response~ Variable1 + Faktor1): ANCOVA
56
Ordinationsverfahren in R
Dirkete Ordination/ erzwungen Das Ordinationsmodell wird bereits an die Umwelt angepasst (hier CCA): dune.ca <- cca (dune~A1) Der Artdatensatz als Response Umweltvariablen als Prädiktoren Indirekte Ordination Das Ordinationsmodell wird nur aus der Distanzmatrix erstellt. (Unähnlichkeit der Zusammensetzung) Für eine NMDS muss immer noch das Distanzmaß (hier “ bray “ für Bray Curtis) angegeben werden und die Anzahl der Dimensionen des Ordinationsmodells (k): dune.nmds<-metaMDS(dune , distance = bray ", k =2) Stresswert über 0.2 -> ggf. Anzahl der Achsen (k) erhöhen
57
Ordinationsplot erstellen in R
plot1 <- ordiplot (dune.nmds , choices =c(1,2))
58
Überlagern von Umweltvariablen: envfit
ef<-envfit (dune.nmds , dune.env , permu = 999) permue -> bestimmt Genauigkeit des Ergebnisses ef -> gibt eine Tabelle mit p Werten aus
59
Platten nur der signifikanten Umweltvariablen
plot(ef , p.max = 0.05, col='black', cex =0.6)
60
Manova
Erlaubt Hypothesentest welche Prädiktoren haben einen Einfluss auf die Artenzusammensetzung? -> ANOVA-Tabelle als Output Funktion in R: adonis2 (package vegan) adonis2(Com ~ Zn+location , method = "bray", data =Env)