Statistik Flashcards

(98 cards)

1
Q

Bedeutung statistischer Analysen für die Soziologie

A

> dient, nach der Datenerhebung, der Auswertung und Analyse der meist standardisierten Daten

> die statistische Analyse trägt dazu bei Zusammenhänge aufzudecken und zu verdeutlichen

> Statistische Analyse hat eine zusammenführende Wirkung

> Statistik in der Soziologie hat auch im Hinblick auf die Darstellung von Wissen einen hohen Stellenwert

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Wo liegen die Stärken statistischer Analyse?

A

> hoher Verallgemeinerungsgrad
(Abbildung des großen Ganzen/Vogelperspektive)
—>verborgene Strukturen

> Zusammenführung von (begrenzten) Informationen vieler Einzelfälle

> Analyse von Trends

>

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Wo liegen die Schwächen statistischer Analysen?

A

> durch hohe Verallgemeinerung = Vernachlässigung individueller Besonderheiten, welche wichtig für das Phänomen sind

> Fehler in erhobenen Daten —> doppelte Hermeneutik
(Interpretation des Beforschten, wenn Fragebogen)

> Statistische Ergebnisse müssen so “übersetzt” werden, dass man mit ihnen Hypothesen/Theorien/Fragen beantworten kann

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Skizzieren sie die Entwicklung statistischen Wissens?

A

> Entstanden durch unterschiedliche Praxisfelder

> Zählbarkeit gewann im Laufe der Geschichte immer mehr an Relevanz

> Zählbarkeit brachte neue Möglichkeiten

> Institutionalisierung (Forschungseinrichtungen und akademischen Institute) sorgte für Zusammenführung und Kanonisierung des gesammelten Wissens (der Verfahren) aus den verschiedenen Praxisfeldern

> Statistik = Dynamische Wissenschaft —> ständige Entwicklung neuer Methoden, Verflechtung mit alten Methoden

> durch Dynamik gibt es verschiedene Strömungen die sich im Laufe der Zeit entwickelt haben

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Skizzieren sie die historischen Entwicklungen an Hand verschiedener Anwendungsfelder statistischen Wissens.

A

> Koordination von Regionen eines Herrschers (mit Universitätsstatistik)

> Universitätsstatistik = Lehre ü. den Staat /
(Schwächen und Stärken, sowie Nützlichkeit für das Reich)

> Beschreibung von Ländern und Regionen (Politische Arithmetik)

> Politische Arithmetik = nur zähl & messbare Gegenstände

> Politische Arithmetik = Vorläufer der amtlichen Statistik

> Amtliche Statistik = erste Professionalisierung von statistischem Wissen

> ab dem 19. Jhd. Befasste sich unter anderem mit Volkszählung

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Erläutern sie die verschiedenen Verwendungsweisen des Begriffs Statistik.

A

> Statistische Auswertungen bzw. das Produkt dieser wird als Statistik eines Bereiches bezeichnet.

> Auswertung und Zusammenstellung von Daten, anhand statistischer Analyse Methoden

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Klären sie die Herkunft des Begriffs Statistik.

A

> statisdique (frz.) —> Staatswissenschaft

Systematische Beschreibung eines Staates und dessen Bevölkerung auf zahlenmäßiger Ebene.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Klären sie die Begriffe induktive und deduktive Statistik.

A

INDUKTIV:

> schließende Statistik
Beziehung zwischen Eigenschaften einer Stichprobe
Das Schätzen und das Testen sind die beiden Formen der schließenden Statistik

DEDUKTIVE/DESKRIPTIVE:

> Beschreibende Statistik
Ordnung und Darstellung von Daten
Gewinnung von Überblicksinformationen großer Datenmengen
Verdichtung numerischer Informationen

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Erläutern sie, was ein Kodeplan ist.

A

> Auflistung aller verwendeten Variablen mit einer eindeutigen inhaltlichen Bedeutung der numerischen Codes

> evtl. weitere Informationen, welche sich auf den Messvorgang beziehen

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Was sind Untersuchungseinheiten, Merkmale, Variablen, Merkmalsausprägungen?

A

UNTERSUCHUNGSEINHEITEN:
= Untersuchungsgegenstand z.B Menschen, Familien, Städte…

MERKMALE:
= Dimensionen der Untersuchungseinheiten z.B Alter, Bildungsgrad…

VARIABLEN:
= mathematischer Begriff für Merkmale

MERKMALSAUSPRÄGUNGEN:
= Ausprägung die eine Untersuchungseinheit in einer Merkmalsdimension aufweist
(Inhaltliche Ausprägung der Merkmalsdimensionen)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Erläutern sie den Begriff der Datenmatrix und legen sie dar, welche Informationen in den Zeilen, den Spalten und den Feldern der Matrix enthalten sind.

A

> enthält Daten über mehrere Merkmale, mehrer Personen oder Objekte und die dazugehörige Merkmalsausprägung

> ZEILEN
Untersuchungseinheit

> SPALTEN
Dimensionen der Untersuchungseinheit/ Merkmale/ Variablen

> FELDER
Merkmalsausprägung

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Was versteht man im Sinne der klassischen Messtheorie unter messen?

A

> Versuch der Abbildung von sozialen Phänomenen im metrischen Raum

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Wie hängen die Rechenregeln im numerischen Raum mit dem Messprozess zusammen?

A

> Symbole, Zahlen usw. dienen als Übersetzung von Beobachtungen von Phänomenen des sozialen Raums
Abstrakte Darstellungsform des sozialen Raums
Rechenregeln =≠,<>,+-,*:

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Stellen sie verschiedene Skalenniveaus und die möglichen Rechenoperationen dar; geben sie Beispiele und begründen diese.

A

NOMINAL :
>gleich oder ungleich
> z.B Religion, Wohnort
> f(x)=f(y), f(x)≠(y)

ORDINAL:
>gleich oder ungleich, kleiner oder größer
> z.B Schulabschluss, Noten
> f(x)>f(y), f(x)gleich oder ungleich, kleiner oder größer, Abstand des Grrößenunterschieds
> z.B IQ
>f(x)-f(y)>_f(w)-f(z)

Intervall

RATIO:
>gleich o. ungleich, kleiner o. größer, Abstand des Größenunterschieds, Beziehung des Größenunterschieds —> Verhältnisaussagen
> z.B doppelt, halb so viel Einkommen
>f(x)=a*f(y)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Was ist eine dichotome Variable?

A

> ordinal oder nominal skaliertes Merkmal

> lediglich ZWEI Ausprägungen

(JA o. NEIN)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Was sind diskrete und stetige Daten?

A

STETIG
> metrisch skaliert
> innerhalb eines Intervalls unendlich viele Ausprägungen, weil immer Zwischenwerte vorliegen (Körpergröße)

DISKRET
> metrisch skaliert
> nimmt nur einzelne Zahlenwerte an (Alter in Jahren)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
17
Q

Diskutieren Sie das Problem, auf welchem Skalenniveau das Ergebnis einer Einstellungsfrage, zu der in der Abstufungen eher zustimmend oder eher ablehnend Stellung genommen wird, anzusiedeln ist.

A

> eher ordinal (oder eventuell metrisch diskret), weil die Größe des Abstands nicht definierbar ist.
Man kann keine Aussage über die “gefühlten” Abstände machen

Schwer vergleichbar

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
18
Q

Erläutern Sie an diesem Beispiel Eigenschaften des arithmetischen Mittels und des Medians

A
ARITHMETISCHES MITTEL: 
> wird auch Durchschnitt genannt 
> Voraussetzung: metrisch skaliert 
> stärker durch Extremwerte beeinflusst, kein Informationsverlust 
>Nachteil: Verzerrung 

MEDIAN:
> der Wert der in der Mitte steht, wenn die Messwerte der Größe nach geordnet sind
> Voraussetzung: ordinal oder metrisch skaliert
>

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
19
Q

Was spricht dafür/dagegen bei einer repräsentativen Stichprobe den Einkommensmedian bzw. das arithmetische Mittel des Einkommens zu verwenden?

A

MEDIAN:
>Informationsverlust
(Nicht so sehr vom Extremwert abhängig, zeigt an auf welchen Wertebereich Verteilung konzentriert ist

ARITHMETISCHES MITTEL:
> stärker durch Extremwerte beeinflusst, dadurch kein Informationsverlust
Nachteil: Verzerrung —> kein Schluss darauf, zB. Wie groß die Mehrheit ist/ wie viel die “Allgemeinheit” verdient

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
20
Q

In welcher Beziehung stehen Median und ar. Mittel in einer links/rechtssteilen Verteilung?

A

> eine Verteilung von Messwerten wird als schief bezeichnet wenn sie in der Weise asymmetrisch ist, dass links oder rechts des Durchschnitts eine Häufung der Messwerte auftritt

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
21
Q

Stellen Sie verschiedene Maßzahlen zur Beschreibung von Streuungen dar und beschreiben sie ihre Eigenschaften.

A

Streuung beschreibt Abweichung der Werte einer Verteilung vom Mittelwert.

> Range (Spannweite)
Maximaler Wert minus Minimaler Wert, nur Extremwerte

> Quartilsabstand:
Q3-Q1, 50 % der Fälle, Fokus auf mittlere Werte, keine Ausreißer

> Quantilsverhältnisse:
z.B. Q90/Q10, Rand der Verteilung ohne Ausreißer

> Durschnittliche Abweichung vom arithm. Mittel:
Summe der absoluten Abweichung vom Mittelwert jedes Falles durch die Fallzahl

> Varianz
Das gleiche wie, nur mit quadriertem Abständen, anfälliger für große Abstände
Summe der quadrierter Abstände = Variation

> Standardabweichung
= Wurzel der Varianz (s)
Gibt Auskunft über die Aussagekraft des Mittelwerts

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
22
Q

Was ist ein Varianzkoeffizient und wozu dient er?

A

> Setzt die Standartabweichung in Verhältnis zu Mittelwert

(s/xquer), um Steuungen vergleichbar zu machen

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
23
Q

Beschreiben Sie, welche Eigenschaften von Verteilungen mit Konzentrationsmaßen erfasst werden können.

A

> Wie ist die Summe der Merkmalsausprägungen auf UEs verteilt?

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
24
Q

Was unterscheidet Streuungs- und Konzentrationsmaße?

A

Streuung:
wie verteilen sich UEs auf verschiedne Merkmalsausprägungen und wie stark weichen sie vom Mittelwert ab

Konzentration:
Wie ist die Summe der Merkmalsausprägungen auf EUs verteilt

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
25
Geben Sie ein Beispiel für die sinnvolle Anwendung eines absoluten Konzentrationsmaßes.
> Aufsummierung der Marktanteile | > sinnvolle Anwendung ist die Monopolbildung
26
Wo liegen die Schwächen eines absoluten Konzentrationsmaß?
> Es wird jeweils nur eine Seite des Konzentrationsprozesses beleuchtet, offenbleibt, wie viele Zeitungen sich den Rest des Marktes teilen.
27
Geben sie Beispiele für die sinnvolle Anwendung eines summarischen Konzentrationsmaßes?
> Summe der quadrierter Marktanteile > Marktanteil von Zeitungen > nicht nur Monopolbildung wird betrachtet, sondern die Summe aller Zeitungen
28
Wo liegen die Schwächen eines summarischen Konzentrationsmaßes?
Nachteil: Untergrenze ist abhängig von der Fallzahl, bedingt vergleichbar, daher Anwendung bei Verteilungen höheren Fallzahlen
29
Geben sie ein Beispiel für die sinnvolle Anwendung eines relativen Konzentrationsmaßes?
Beispiel: Welcher Anteil der Merkmalssumme fällt auf einen bestimmten Anteil der Merkmalsträger Häufig Lorenzkurve Einkommensverteilung kann man damit Darstellen Wie viel Einkommen sìch auf wie viele Personen verteilt Je stärker die Lorenzkurve von der Diagonalen abweicht desto ungleicher ist die Verteilung
30
Stellen sie den Grundgedanken des Lorenzkurvenmaßes schriftlich und graphisch dar und beschreiben sie den Wertebereich.
> Relatives Konzentrationsmaß > Visualisierung von Konzentrationen > Gerade Linie steht für keine Konzentration > je stärker die Kurve von gerader Linie abweicht, desto stärker ist die Merkmalssumme konzentriert >Y-Achse: kum Anteil Merkmalssumme >X-Achse: kum. Anteil Fälle >GINI INDEX Fläche oberhalb der Kurve(F1) durch Gesammtfläche F1+F2 Wenn F1=0, GINI=0, keine Konzentration Wenn F2=0; GINI= 1, völlige Konzentration
31
Erklären sie das Konzept der Äquivalenzgewichtung für die Analyse von Haushaltseinkommen.
Ökonomische Technik, bei der die Haushaltsmitglieder verschiedene Gewichtungen bekommen. Anhand von OECD-Skala (1. Erwachsener 1,0; jeder weitere Erwachsene ü. 15 0,5; Kinder unter 15 0,3) > Gesammter Haushalt wird durch die Summe der Gewichtung geteilt um ein repräsentatives Einkommen zu bekommen (Einkommen steigen dadurch)
32
Welche Folgen hat die Wahl der beiden OECD-Skalen für die Messung von Kinderarmut?
Die Gewichtung der neuen OECD-Skala sorgt dafür, dass die Familien reicher wirken, weil weitere Erwachsene und Kinder weniger zählen, dass hat zur Folge dass man durch einen geringeren Wert teilt und somit zu einem höheren einkommen kommt. Das sorgt dafür das Kinderarmut schlechter aufgedeckt werden kann.
33
Erläutern sie die Entscheidungen, die der Bestimmung von Armutsquoten zu Grunde liegt.
Methodische Entscheidungen: >Ressourcen-basierte vs. Lebenslagen-basierte Bestimmung von Armut >relative vs. absolute Armutsgrenze >Individualperspektive vs. Haushaltsperspektive >Entscheidung der Äquivalenzgewichtung (neue vs. alte OECD Skala) >Entscheidung über Flächeneinheit, für die das Maß bestimmt wird (National, regional) >Entscheidung über rel. Armutsgrenze (50,60%..) und die Maßzahl (Median, ar. 🖕🏽)
34
Wie kann das Armutsmaß interpretiert werden, wenn als Parameter 0/1 gewählt werden?
Verschiedene Parameter: (FGT Armutsmaß) 0=Armutsquote ( Wie viel % sind unter der Armutsgrenze?) 1= Armutslücke (Wie viel % des Grenzeinkommens muss umverteilt werden?/ Wie viel Grenzeinkommen fehlt den Armen um durchschnittlich nicht mehr arm zu sein?) 2=Armutsintensität, durchschnittliche quadrierte Einkommenslücke
35
Erläutern sie an dem Beispiel Lohnzufriedenheit das Konzept der unabhängigen und der abhängigen Variable.
Lohnzufriedenheit ist abhängig von der Anstellung des Menschen, somit ist Lohnzufriedenheit die abhängige und die Anstellung die unabhängige Variable
36
Was versteht man unter einer Kreuztabelle?
= systematische Darstellung der Ausprägungskombinationen zweier Merkmale
37
Für Daten welchen Skalenniveaus lassen sich Kreuztabellen aufstellen?
Beliebige Skalenniveuas, weil pro Variable eine Ausprägung reicht
38
Was ist damit gemeint (im soziologischen Sinne), wenn man sagt, es bestehe ein Zusammenhang zwischen Schulbildung und Einkommen?
> das würde Bedeuten dass jemand mit einer höheren Schulbildung auch automatisch ein höheres Einkommen hat
39
In welchem Zusammenhang stehen Zusammenhangs- und Kausalitätsaussagen?
Zusammenhangsaussagen: >Aussagen aus statistischen Analysen (nicht alle Merkmale sondern ein paar selektierte) Kausalaussagen: Einbindung aller Bestandteile eines Phänomens Zusammenhangsaussagen können Bestandteil einer Konstruktion einer Kausalaussagen sein. Es ist aber sehr kühn aus einer einzigen Zusammenhangsaussagen eine Kausalaussage zu formulieren
40
Welche Datentypen kann man in einer Häufigkeitstabelle darstellen?
> die Daten müssen mindestens nominal skaliert sein, weil man eine Rangordnung bzw. Einen Größenunterschieds braucht um die kumulierte H. Zu integrieren
41
Wie würden die entsprechenden Spalten einer Datenmatrix aussehen, wenn ein starker Zusammenhang zwischen Schulbildung und Einkommen besteht?
Diagonale von links oben nach rechts unten
42
Erläutern sie den Begriff der Kontingenztabelle und der Indifferenztabelle.
KONTINGENZTABELLE: >enthalten die relative H. und die absolute H. von Kombinationen bestimmter Merkmalsausprägungen >Kontingenz meint das auftreten zweier Merkmale >Dargestellt werden die absoluten und die Randhäufigkeiten INDIFFERENZTABELLE: > enthalten die Werte, welche man bei einer Unabhängigkeit erwarten würde > ermittelt wir die Tabelle aus den eindimensionalen Randverteilungen
43
Was heisst in diesem Zusammenhang statistische Unabhängigkeit?
Das Auftreten der einen Variable beeinflusst nicht das Auftreten oder nicht auftreten einer anderen Variable Ein unabhängiges Auftreten der Variablen, es beeinflusst sich nicht gegenseitig
44
Was versteht man unter unabhängigen und abhängigen Variablen, unter symmetrischen und asymmetrischen Beziehungen in diesem Zusammenhang?
Symmetrisch- Ungerichtet, Richtungszusammenhang unklar Asymmetrisch- Richtungszusammenhang klar Abhängige Verändert sich auf Grund des Aufkommens einer anderen Variable Unabhängige Variable Verändert sich nicht bei aufkommen einer anderen Variable
45
Welche Anforderungen stellen wir an ein ideales Maß für die Beschreibung von bivariaten Zusammenhängen?
> der Wertebereich muss sinnvoll sein. | > Im Idealfall liegt dieser von (0-1)
46
Erläutern sie die Odds und Odds Ratio
ODDS: > vergleichen die Chancen zweier sich ausschließender Ereignisse Mit der Wahrscheinlichkeit (p) und d. Gegenwahrscheinlichkeit 1-p ODDS RATIO: Vergleicht zwei Konditionale Odds —> Kreuzverhältnissprodukt
47
Erläutern sie die Maßzahl Phi.
Zusammenhangsmaß
48
Erläutern sie das Konzept was hinter der Maßzahl CHI-Quadrat steht.
> Vergleicht beobachtete Werte mit den bei einem Nicht-Zusammenhang erwartenden Werten. >Vergleich von Kontingenz- & Indifferenztabelle
49
Erläutern sie das Konzept hinter den PRE-Maßen.
> Fehlerreduktionsmaß | >
50
Warum bedarf es für die Analyse ordinal skalierter Daten spezifische Zusammenhangsmaße?
Die Zusammenhangsmaße für nominale Daten schöpfen das Potential ordinaler Daten nicht aus, die Zusammenhangsmaße der nominalen Daten können keine Richtungaussagen machen. Wenn sich die Ordnungsstruktur einbezogen wird, dann ändert sich die Maßzahl.
51
Erläutern sie das Konzept des Paarvergleichs.
Jede Person wird mit jeder anderen Person hinsichtlich der beiden zu untersuchenden Variablen verglichen. Gesamtzahl der vergleichenden Paare = [N x (N-1)] /2
52
Welche Typen von Paaren können bei solchen Paarvergleichen austreten und wie werden sie benannt.
KONKORDANT: > nur konkordante Paare= perfekt positiver Zusammenhang DISKONKORDANT > nur diskondordante Paare= perfekt negativer Zusammenhang TIEx > viele TIEx TIEy
53
Wie kommt es dass man in den Sozialwissenschaften häufig nur mit schwachen oder mittelstarken Zusammenhängen zutun hat.
> Komplexe Zusammenhänge > Vielfältige Wechselwirkung > Faktoren lassen sich nur bedingt voneinander isolieren
54
Welche Rolle können unterschiedliche Zusammenhänge in Subgruppen für den in der Gesamtgruppe beobachtbaren Zusammenhang spielen.
> Schwache Zusammenhänge in der Gesammtgruppe können Hinweise für stärkere Beziehungen liefern, die in Subgruppen vorliegen. > Nur weil der Gesammtzusammenhang schwach ist, bedeutet dies eventuell nicht, dass keine stärkeren zusammenhänge vorliegen
55
Klären sie den Begriff der Regression und der Korrelation.
Regression = Zurückführung der abhängigen auf die unabhängige Variable Korrelation= Aussage über den Zusammenhang und deren Stärke
56
Was ist eine Regressionsgerade?
> Bestmögliche Repräsentierung der Verteilung durch geringsten Abstand von Gerade zu allen Punkten > Untersuchung des Zusammenhangs zwischen eigener abhängigen und einer unabhängigen Variable > Regressionsgerade bildet den Zusammenhang mit einer linearen Gerade, welche den linearen Zusammenhang untersucht
57
Wie sind die Parameter der Regressionsgeraden zu interpretieren?
Y= a+bx Y= die Gerade A= Steigung der Gearde B= y-achsenabschnitt
58
Was ist ein Determinationskoeffizient?
> Kennzahl zur Beurteilung des Anpassungsvermögens einer Regression > basiert auf Quadratsummenzerlegung, Gesammtsumme wird in erklärende und nicht erklärende Varianz geteilt ``` 1= sehr starker Zusammenhang 0= kein Zusammenhang ```
59
Welchen Wertebereich kann ein solcher Koeffizient (Determinationskoeffizient) annehmen?
``` 0 bis 1 > keine Aussage über die Richtung 0 —> kein Zusammenhang 0,05 —> geringe Korrelation 0,2 —> mittlere Korrelation 0,5 —> hohe Korrelation 0,7 —> sehr hohe Korrelation ```
60
Erläutern sie die Berechnung und die Interpretation des standardisierten Regressionskoeffizient: b*
> es handelt sich um eine Standardisierung der Steigung > Verteilung die mehr als 2 Variablen untersuchen > Ausgleich von verschiedenen Maßeinheiten B x (Sx/Sy)= b*
61
Erläutern sie das Konzept der Variable Bildungsjahre.
> metrische Transferierung der Variable Schulabschluss ``` 7 = kein Schulabschluss 9 = Hauptschulabschluss 10 = mittlere Reife 12 = Fachabitur 13 = Abitur ``` 1,5 Jahre —> Lehre/Verwaltung 2 Jahre —> Fachschulabschluss 3 Jahre —> Technikerausbildung 5 Jahre —> Hochschulabschluss
62
Erläutern sie den SPSS-Output.
``` B—> Steigung R= Korrelationskoeffizienten R2 = Determinationskoeffizient Beta= standardisierter Regressionskoeffizient Konstante= y-wert ```
63
Interpretieren sie die Ergebnisse: Koeffizienten, Regressionsgerade, Zusammenhangsmaße
Determinat
64
Erläutern sie die in der Vorlesung vorgestellten Modellannahmen für die Verwendung eines linearen Regressionsmodells.
1) Adäquanz eines linearen Modells ( könnte z.b. auch parabelförmigoder exponentiell sein) 2) Homoskedastizität (Gleiche Streuung der Punkte um die Regressionsgerade & damit die Residuen in allen Wertebereichen) —> Lösung: kann Logaritmierung sein 3) Normalverteilung der Residuen (Wenn Residuen nicht normalverteilt sind muss man andere Faktoren miteinbeziehen/ es gibt immer viele Randbedingungen) 4) Beeinflussung der Regression durch Ausreißer (Hohe Hebelkraft d. Ausreißer/ Extremfälle müssen überprüft & eventuell entfernt werden)
65
Skizzieren sie summarisch, wie die Prüfung dieser Modellannahmen erfolgt.
D
66
Was ist ein statistischer Zusammenhang?
> Modell zur Untermauerung/Widerlegung kausaler Argumentationen > erlauben eine (Un)Plausibilisierung verschiedener kausaler Argumentationen > Konzept der Variable, Transformation sozialer Phänomene in den numerischen Raum > drückt mathematisch eine Beziehung zwischen Variablen aus, die vom Wissenschaftler konstruiert wurden
67
In welchem Verhältnis stehen statistische Zusammenhänge und Erklärungen? Erläutern sie Probleme.
> Mehrebenenprobleme > unterschiedliche Wirkungslogiken > Zeitdimension (dynamische Entwicklungen) > komplexe Interaktion zwischen Variablen
68
Was versteht man unter einem ökologischen Fehlschluss?
> ökologischer Fehlschluss bedeutet dass es sich bei dem vorliegenden Zusammenhang um einen Scheinzusammenhang handelt, welcher bei Einbeziehung anderer Variablen kein Zusammenhang mehr ist
69
Welche Zusammenhangsbeziehungen können einen solchen Fehlschluss „aufklären“?
> die Einbeziehung einer Drittvariablen Z.B. niedriges Mitniveau und Drogenabhängigkeit (Höhere Kriminalität durch Beschaffungskriminalität)
70
Wie könnte man herauskriegen, ob tatsächlich ein ökologischer Fehlschluss vorliegt?
> Drittvariablenkontrolle Weitere Faktoren in Form von Drittvariablen Kontrolle miteinbeziehen um zu schauen ob es sich tatsächlich um einen Zusammenhang handelt Bei Kriminalität z.b Drogenabhängigkeit, Beschaffungskriminalität
71
Wo liegen Probleme bei der Interpretation von Zusammenhangsbeziehungen auf der Basis von Querschnittsdaten?
> das Problem ist, dass es sich bei Querschnittsdaten lediglich um Momentaufnahemn handelt, welche unterschiedliche Form der Interpretation zur Folge hat
72
Welche darüber hinausgehenden Interpretationsmöglichkeiten bieten Panel-Daten?
> mit längeren Perioden der Begutachtung, kann man fundiertere Aussagen über Veränderung oder gleichbleibende Zustände tätigen, da man eine bessere Vergleichbarkeit hat > bessere Möglichkeit in Richtung kausal zu argumentieren
73
Welche Bedeutung hat die Einbeziehung von Drittvariablen für die Untersuchung von Zusammenhängen zwischen einzelnen Variablen?
> Drittvariable eröffnet neue Möglichkeiten bei Analayse und Interpretation > Modelle werden durch Einbeziehung einer Drittvariablen komplexer und eventuell unübersichtlicher
74
Warum spricht man von Dritt-Variablen-Kontrolle?
> durch die Einbeziehung einer Drittvariablen kann sich der Zusammenhang einer bivariaten Verteilung auflösen > die Einbeziehung einer Drittvariablen kann also als Prüfung eines bivariaten Zusammenhangs genutzt werden
75
Erläutern sie an vier ausgewählten Varianten, wie sich die Zusammenhänge zwischen den drei beteiligten Variablen gestalten können.
Additiver Effekt —> Drittvariable verstärkt den Zusammenhang, hängt aber selber nicht von x ab Scheinkausalität/Zusammenhang—> x und y werden durch z erklärt (Storchenbeispiel) Intervention —> x bestimmt z, z bestimmt y, kein direkter Zusammenhang von x&y (Kriminalität&Migrationshintergrund) Suppression —> Einfluss von x auf y wird durch z verschleiert (Geschlecht-Einkommen durch Bildung in einem Unternehmen)
76
Warum ist es bedeutsam zwischen Zusammenhangsbeziehungen (Korrelationen) und kausalen Beziehungen zu unterscheiden?
> bei Suche nach Erklärungen für statistische Zusammenhänge wird es sehr schnell sehr komplex und theoretisch > durch statistische Zusammenhänge kann man keine Kausalität unterstellen —> keine Letztbegründungen drängender Fragen durch Statistik
77
Geben sie einige Beispiele und stellen sie jeweils Probleme dar. Korrelation und Kausalität
> Zusammenhang zwischen Geburten und Störchen | —> die Variablen können Korrelieren, aber die Storchenrate hängt nicht kausal mit der Geburtenrate zusammen
78
Beispiel: Geschlecht, Bildung & Stundenlohn a) In welchem Zusammenhang stehen Geschlecht und Stundenlohn? b) Welches zusätzlichen Erkenntnisse gewinnt man durch die Einbeziehung der Bildung?
a) Stundenlohn ->abhängig Geschlecht->unabhängig Der Stundenlohn variiert je nach Geschlecht b) Der Zusammenhang zwischen Geschlecht und Einkommen bleibt bestehen. Die Einbeziehung der Drittvariable ergibt keinen signifikanten Unterschied
79
Geben sie die Funktion zur Ermittlung der Y-Werte für einen Drei-Variablen Zusammenhang an; erläutern sie einzelne Parameter.
Y=b0+b1*x+b2+w+E B0= Regressionskonstante B1 & B2 = partiellen Regressionsgewichte E = Residuen (Streuung der Punkte um die Regressionsebene)
80
Was ist eine Regressionsebene und durch welche Parameter wird sie bestimmt?
> 3 Variablen —> somit 3 Dimensionen —> Ebene die von allen Punkten den geringsten Abstand hat (Regressionsgerade) > Ŷ= b0 + b1+ x + b2 * W B0= Regressionskonstante B1 & B2 = partiellen Regressionsgewichte
81
Wie kann man die Parameter der Regressionsebene interpretieren?
``` Ÿ= B0+B1*x+B2*w B0= Regressionskonstante->keine Aussagekraft, ohne Regressionsgewichte, Startpunkt der Ebene B1= partieller Effekt von x auf ÿ bereinigt um den Einfluss von w B2= partieller Effekt von w auf ÿ bereinigt um den Einfluss von x ```
82
Wie kann die Darstellung vereinfacht werden, wenn es sich um eine dichotome Dritt-Variable handelt? Bitte skizzieren sie diese Variante.
> Wenn die Drittvariable dichotom ist = Vereinfachung möglich —> Reduktion auf 2 Dimensionen 2 parallel verlaufende Graphen mit Abstand des Faktors (Regressionsgewicht) von W
83
Was ist damit gemeint wenn man sagt, der Einfluss einer Variablen wurde auspartialisiert?
> Bereinigung des Effekts der entsprechenden auspartialisierten Variable: b1 beschreibt partiellen Einfluss von X auf Y bereinigt um Einfluss von W auf Y Z.B Pxy.w —> w wird ausgeschlossen, auspartialisisert Betrachtet wird nur der Zusammenhang zwischen x und y
84
Welchem Zweck dient die Standardisierung der Regressionsgewichte?
> ermöglicht den Vergleich der unterschiedlich skalierten Regressionsgewichte > Aussage möglich, welche Variable sich stärker auf y auswirkt
85
Wie erfolgt die Standardisierung der Regressionsgewichte?
Bk*=bk•sk/sy | k ist dabei der Index für x,w usw.
86
Unter welchen Bedingungen entsprechen die standardisierten Regressionsgewichte den bivariaten Korrelationskoeffizienten zwischen den unabhängigen und der abhängigen Variable? Begründen sie dies an Hand der Formel.
> standardisierte Regressionsgewichte entsprechen bivariaten Korrelationskoeffizienten zwischen Variablen wenn Zusammenhang zwischen x und w = 0 ist
87
Welche Zusammenhangsmaße lassen sich für die Beschreibung von trivariaten Zusammenhängen nutzen?
> multipler Determinationskoeffizient > Bivariate Beziehung in trivariaten Zusammenhängen > symmetrisch: partielle Korrelationskoeffizienten > asymmetrisch: partielle Regressionsgewichte
88
Welche Zusammenhangsmaße lassen sich für die Beschreibung der bivariaten Beziehungen in einem trivariaten Zusammenhang nutzen?
Symmetrisch: Partielle Korrelationskoeffizienten Asymmetrisch: Partielle Regressionsgewichte
89
Was sind partielle Korrelationskoeffizienten? Erläutern sie dabei auch die Indexierung der Koeffizienten.
> Maßzahl zur Stärke des Zusammenhangs zweier Variablen unter Ausschluss der dritten Variablen > Rxy.w bedeutet, dass W ausgeschlossen wurde uns sich nur der Beziehung zwischen xy gewidmet wir
90
Wie werden die partiellen Korrelationskoeffizienten ermittelt; zeigen sie dies am Beispiel des Koeffizienten rxy.w.
Foto
91
Was unterscheidet partielle Korrelationskoeffizienten von partiellen Regressionsgewichten?
> symmetrisches Modell | ALSO keine Richtungsannahme
92
Was unterscheidet partielle Korrelationskoeffizienten von den bivariaten Korrelationskoeffizienten?
> Konstanthaltung der dritten Variablen (Bereinigung um diesen Effek), daher fallen sie meist geringer aus
93
Wie wird der multiple Determinationskoeffizient berechnet? Erläutern sie die Bedeutung der einzelnen Terme.
Formelsammlung Seite 19 letzter Punkt
94
Wie kann der multiple Determinationskoeffizient interpretiert werden; erläutern sie dabei auch die Begriffe Gesamtvariation, erklärte und nicht erklärte Variation.
Erklärte Variation ->
95
Geben sie ein Beispiel für die Anwendung des Logistischen Regressionsmodells.
Künstliche Intelligenz -> Bereich des maschinellen Lernens | Ein Algorithmus der Herausfindet ob etwas zutrifft oder nicht. Zum Beispiel Krankenversichert ist oder nicht
96
Was unterscheidet die logistische von der linearen Regression?
> metrische Variablen als erklärende Variablen, dichotome/kategoriale Variablen als abhängige Variablen > dichotome/kategoriale Variablen lassen keinen Raum für Interpolierung (entweder wähle ich CDU [1] oder nicht [0] > bei logistischen Regressionen geht es im Prinzip um die Voraussage von Entscheidungen und Angaben, wie gut diese Voraussagen sind (Wahrscheinlichkeit) > genauer als lineare Reg. Für solche Betrachtungen
97
Was ist ein Effektkoeffizient und wie kann er interpretiert werden? Beziehen sie sich dazu auf das Beispiel in Díaz-Bone zum Zusammenhang von Netzwerkgröße und Bleibewahrscheinlichkeit.
> Ja/Nein Entscheidung Wahrscheinlichkeiten > p für Ja/1-p für Ja (Gegenwahrscheinlichkeit) > Effektkoeffizienten bilden konditionale Odds ab, Euler´sche Zahl hoch Regressionsgewicht einer Variable = Konditionale Odds > Effektkoeffizient =1 kein Zusammenhang Effektkoeffizient gen Null —> negativer Zusammenhang Effektkoeffizient gen Unendlich —> positiver Zusammenhang
98
Mit welchen Maßen können Aussagen über die Qualität des Gesamtmodells gemacht werden?
> Prozentangabe, wie viele Fälle durch log Regression richtig vorhergesagt wurden > Logarithmierte Likelihood