Lektion 5 Flashcards

(39 cards)

1
Q

5.1 Noch unbehandelte Daten nennt man auch …

A

Rohdaten

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

5.1 Welche vier Schritte gehören zur Umwandlung der Rohdaten in einen strukturierten Datensatz?

A

Sortierung, Zuordnung, Digitalisierung, Formatierung

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

5.1 Warum sollte man eine Datenaufbereitung machen?

A

Fehler in der Datenaufbereitung und Datenbereinigung können dazu führen, dass alle Ergebnisse verfälscht sind

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

5.1 Erkläre belastbare Handlungsempfehlungen.

A

➢ Nur „saubere“, gut aufbereitete und dokumentierte Datensätze ermöglichen es, Zusammenhänge in Daten zu finden und somit wertvolle Erkenntnisse zu gewinnen
➢ Nur diese können zu belastbaren Handlungsempfehlungen führen können
➢ Zum Großteil werden Unternehmensentscheidungen auf Basis von (Markt-) Forschungsergebnissen getroffen
➢ Man muss sich daher auf die Ergebnisse verlassen können

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

5.1 Bedeutung des DSGVO und was es beinhaltet.

A

➢ Datenschutzgrundverordnung Seit 2018
➢ Verordnung der Europäischen Union, mit der die Regeln zur Verarbeitung personenbezogener Daten durch private Unternehmen und öffentliche Stellen EU-weit
vereinheitlicht worden sind.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

5.1 Anhand Miterbeiterbefragungen erklären warum bei anonymen Befragungen Rückschlüsse zu ziehen sind. Warum bei einer anonymen Mitarbeiter Befragung die Kombination von Merkmalen kritisch ist anhand eines Beispiels erläutern (wegen der Identifizierbarkeit)

A

Identifizierbarkeit können bei quantitativen Daten v.a. seltene Merkmale oder Merkmalskombinationen sein, wenn die Zielgruppe bekannt oder besonders klein ist. Dies kann z. B. häufiger bei Mitarbeiterbefragungen der Fall sein. Auch wenn diese anonym sind, könnten durch die Kombination von bestimmten Merkmalen Rückschlüsse auf einzelne Personen sein (Beispiel: Frauen mit einer körperlichen Einschränkung in einer Führungsposition und mit einer Betriebszugehörigkeit von mehr als zehn Jahren). Jedes Merkmal für sich ist relevant für eine Analyse. Aber in dieser Kombination wäre wahrscheinlich leicht ermittelbar (oder zumindest eingrenzbar), um wen es sich handelt.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

5.1 Datenbereinigung

A

Fehlerhafte Werte herausfinden, Entfernung von Dubletten & Umgang mit fehlenden Werten

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

5.2 Nenne 3 Statistikprogramme

A

• SPSS
• PSPP
• R

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

5.2 Was muss man alles tun und welche Formen werden verwendet, um etwas in ein statistisches Programm zu pflegen

A
  1. Codeplan erstellen, um Daten auswerten zu können
  2. den einzelnen Fragen werden Variablennamen zugeordnet
  3. den einzelnen Merkmalsausprägungen einer Variablen werden Codes zugeordnet
  4. Eingabe in tabellarischer Form
    • Jede Zeile steht für einen Befragten
    • Jede Spalte für eine Variable
    • Jede Zelle enthält die Antwort auf eine bestimmte Frage
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

5.2 Warum benötigt jeder Fragebogen eine eigene ID?

A

• Ermöglicht das eindeutige zuordnen der Antworten zu den Personen

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

5.2 Worin bestehen die beiden Aufgaben des Codeplans?

A

Ein Codeplan ordnet den einzelnen Fragen eines Fragebogens Variablennamen und den Merkmalsausprägungen einer Variablen Codes zu

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

5.2 Erkläre die Aussage, jede Zelle hat seinen variablen wert

A

Die einzelnen Zellen enthalten die Werte der jeweiligen Variablen des jeweiligen Falles

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

5.2 Wie muss eine Fragebogen-ID aufgebaut sein?

A

eindeutig

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

5.2 Erklären sie was ist eine Matrixfrage und was ist beim Erstellen eines Codeplans hierbei zu beachten?

A

➢ Bei einer Matrixfrage wird jede Antwort separat codiert
➢ Jede Zeile der Matrix wird als eigene Variable aufgeführt und die Antworten jeweils mit einem Code versehen
Bsp.:
Sie sind = F1 (Geschlechtervariable) Weiblich =1
Männlich= 2

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

5.2 Drei Funktionen der Datenaufbereitung erläutern (10 P)

A

Fehler vermeiden
• Unvollständige oder fehlerhafte Datensätze führen zu falschen Ergebnissen und verzerren Analyse
Nutzung für Re- und Sekundäranalyse
• Gut aufbereitete Daten ermöglichen eine spätere Weiterverwendung durch Forscher
Ethische Probleme vermeiden
• Anonymisierung schützt Teilnehmer vor Identifizierbarkeit -> wichtig für Forschungsethik & Datenschutz

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

5.2 Warum ist sorgfältige Datenaufbereitung wichtig?

A

Weil es sonst zu Verfälschungen im Ergebnis kommen kann, wenn Fehler in der Datenaufbereitung und
Datenbereinigung passieren. Nur auf Basis von „sauberer“ Daten, also gewissenhaft Aufbereiteten Daten können belastbare Handlungsempfehlungen getroffen werden.

17
Q

5.2 Schritte/Teile/ Kriterien der Datenaufbereitung erläutern

A
  1. Erstellung der Datensätze
    • Umwandlung des Rohmaterials in strukturierte Datensätze
    • Sortierung, Zuordnung, Digitalisierung, Formatierung
  2. Kommentierung der Datensätze
    • Ergänzung der Daten um Metainformationen (Erhebungsdatum, Bedeutung d. Variablen)
  3. Anonymisierung der Datensätze nach DSGVO (Datenschutz)
    • Alle Informationen, die zur Identifizierung von Teilnehmern führen können, entfernen
  4. Datenbereinigung
    • Fehlerhafte Werte herausfinden, Entfernung von Dubletten & Umgang mit fehlenden Werten
  5. Datentransformation
    • Daten zusammenfassen oder recodieren –> ermöglicht repräsentative Ergebnisse
18
Q

5,3 Was ist ein einfacher Weg, um schnell einen Datenüberblick zu bekommen?

A

Häufigkeitstabellen

19
Q

5.3 Wofür dienen Ergebnistabellen?

A

Anhand von Ergebnistabellen kann man sehen, ob es Variablen gibt, bei denen Codes vorhanden sind, die nicht vorab definiert wurden

20
Q

5.3 Wie entstehen Fehler bei Ergebnistabellen?

A

➢ Wenn Befragungen an unterschiedlichen Zeitpunkten wiederholt werden (Wellen)
➢ Wenn nicht alle Datensätze gleich codiert sind

21
Q

5.3 Kriterien der Datenaufbereitung

A

➢ Vollständigkeit aller relevanten Daten
➢ Einheitlichkeit: Gleiche Formate (z.B. Datums- oder Währungsangaben)
➢ Ausschluss doppelter Werte (entfernen von Dubletten)
➢ Behandlung fehlender Werte: Strategien, um mit fehlenden Werten umzugehen
➢ Ausreißererkennung: Identifikation ungewöhnlicher Werte
➢ Plausibilität d. Antwortmuster: sicherstellen, dass Antworten logisch konsistent sind

22
Q

5.3 Schritte der Datenbereinigung

A
  1. Überprüfung d. Häufigkeitsverteilung, um nicht definierte Werte oder Codierungsfehler zu entdecken
  2. Anonymisierung d. Datensätze nach DSGVO: Sicherstellung, dass keine Identifizierung der Befragten möglich ist -> besondere Vorsicht bei seltenen Merkmalskombinationen (dürfen keine Rückschlüsse auf Einzelpersonen zulassen)
  3. Fehlererkennung: Korrektur o. Entfernung von unplausiblen o. fehlerhaften Daten
  4. Stereotype Antwortmuster: Identifikation von Befragten, die konsistent extreme o. mittlere Werte ankreuzen
  5. Löschung d. IP-Adresse: zum Schutz d. Anonymität d. Befragten
23
Q

5.3 Was bezeichnet der Schritt der Anonymisierung?

A

Nach der Datenschutzgrundverordnung (europäische Union seit 2018), gibt es verbindliche Regeln zur Verarbeitung von personenbezogenen Daten durch private Unternehmen und öffentlichen Stellen. Die Datensammlungen dürfen keine Rückschlüsse auf Personen zulassen. Es müssen alle Informationen, die zur Identifizierung von Teilnehmern führen könnten, entfernt werden

24
Q

5.3 Definition IP-Adresse:

A

➢ Adresse im Computernetzwerk
➢ basiert auf Internetprotokoll
➢ wird Geräten zugewiesen und macht sie somit adressierbar und erreichbar

25
5.3 Wofür dienen IP-Adressen?
➢ im Rahmen der Qualitätskontrolle hilfreich ➢ dient der Überprüfung, ob ein Befragter den Fragebogen mehrmals ausgefüllt hat oder bei Fremdvergabe ➢ Unvollständige oder fehlerhafte Fragenbögen fallen sofort auf und können entfernt werden
26
5.3 Was sind Mittelkreuzer?
Befragte, die immer die mittlere Kategorie ankreuzen
27
5.3 Was sind Extremkreuzer?
Befragte, die immer die Randkategorien ankreuzen
28
5,3 Was sind Speeder?
Befragte, die den Fragebogen überdurchschnittlich schnell ausfüllen
29
5.4 Warum empfiehlt es sich, die Transformationen in einer Kopie des Datensatzes durchzuführen?
Weil Daten bei der Datentransformation unwiderruflich verloren gehen können.
30
5.4 die 4 Schritte der Datentransformation
1. Umgang mit fehlerhaften Werten 2. Umcodierung von Variablen 3. Bildung neuer Variabler 4. Gewichtung von Stichproben
31
5.4 Datentransformation was sind belastbare Handlungsempfehlungen
Es empfiehlt sich, nach Abschluss von Dateneingabe, Codierung und Datenbereinigung den Datensatz zu speichern und für die Datentransformation mit einer Kopie weiterzuarbeiten. Die folgenden Schritte umfassen mehr oder weniger weitreichende Transformationen des Rohdatenmaterials. Dabei kann es vorkommen, dass verschiedene Ansätze bei der Datentransformation ausprobiert und dann verglichen werden sollen. Es können bei der Datentransformationen aber auch Fehler passieren, die zur Folge haben, dass bestimmte Daten unwiderruflich verloren gehen. In jedem dieser Fälle kann dann auf den Original- Datensatz zurückgegriffen werden.
32
5.4 Warum ist es hilfreich die im Menü ausgewählten Transformationsoptionen als Befehlssyntax ausgeben zu lassen?
um Prozess transparent & nachvollziehbar zu gestalten
33
5.4 Wie werden fehlende Daten gekennzeichnet?
➢ Manchmal überspringen Befragte unangenehme Fragen (z.B. zum Einkommen) ➢ Frage muss als ungültig gekennzeichnet werden ➢ Markierung durch eigenständige Codes (Bsp.: „-99“ für übersprungen oder „-77“ für Frage nicht gestellt)
34
5.4 warum Codierung fehlender Werte und Folgen
damit man anschließend unterscheiden kann, ob jemand die Frage nicht beantworten wollte (weil z.B. unangenehm -99 oder aufgrund von Filterführung erst gar nicht die Frage gestellt bekommen hat -77)
35
5.4 Was macht die Analyse intuitiver?
➢ Stärkere Merkmalsausprägungen sollten auch einen höheren Wert zugeordnet bekommen ➢ Bsp.: „1“ für sehr oft, „5“ für nie ➢ Umpolung (falsche Codierung) könnte Datenanalyse verzerren ➢ Wenn die Daten dann später in einem Balkendiagramm dargestellt werden, dann würde der niedrigste Balken die häufigsten Besuche darstellen
36
5.4 Warum kann es vorkommen, dass neue Variablen gegründet werden müssen?
➢ Manchmal neue Variablen notwendig -> z.B. für die Berechnung eines Index ➢ Fein abgestufte Variablen müssen in Variablen mit weniger Abstufungen umgewandelt werden
37
5.4 Was kann durch Gewichtungsverfahren korrigiert werden?
Verzerrte Stichproben
38
5.4 Grundprinzip des Gewichtungsverfahren 10P.
➢ Verzerrte Stichproben können durch Gewichtungsverfahren korrigiert werden ➢ Das heißt, dass die Stichprobe durch Gewichtung an die Grundgesamtheit angepasst wird ➢ So bekommen überrepräsentierte Personen ein niedriges, unterrepräsentierte Personen ein hohes Gewicht ➢ Ziel: Stichprobe repräsentiert die Zielpopulation besser (empirische Realität)
39
5.4 Was bedeutet Repräsentativität?
Stichprobe spiegelt die tatsächliche Verteilung in der Grundgesamtheit wider