Computational Social Sciences (11) Flashcards

1
Q

Computational Social Science =

A

endeavour to understand human communication by using automation in observational, theoretical and experimental research

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

CSS: content

A
  1. lange and complex data sets
  2. digital traces and other “naturally occurring” data
  3. requires algorithmic solution to analyse
  4. re-testing old theories with new approach
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

doppelte Relevanz von CSS

A
  1. Werkzeugkasten der KoWi
    1. können für Studien eingesetzt werden
  2. Gegenstand der KoWi
    1. man untersucht z.B. Algorithmen con Suchmaschinen oder auf Social Media
    2. Problem: Tech-Unternehmen geben Algorithmen nicht Preis
    3. Ziel der Forschung: diese geheimen Algorithmen aufdecken und analysieren
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Algorithmus =

A

Regelwerk für schrittweises Verfahren bzw. Folge von Anweisungen zur Lösung eines Problems (z.B. Rezept)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Big Data beinhaltet

A
  • Volume
  • Variety
  • Velocity
  • Veracity
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Big Data: Volume

A

große Datenmenge, oft Peta- oder Exabytes

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Big Data: Variety

A

Vielfalt der Datenstrukturen
(nicht nur Zahlendatenbanken, sondern Text, Audio, Video etc.)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Big Data: Velocity

A

Geschwindigkeit, mit der Daten entstehen und sich dynamisch entwickeln

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Big Data: Veracity

A

“Wahrhaftigkeit” von Daten
(Herkunft, inhaltliche Gültigkeit)
→ Bias aus Analyse der Big Data

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Datafizierung =

A

man kann Menschen durch Daten erfassen

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Digitalisierung vs. Datafizierung

A
  • Datafizierung ≠ Digitalisierung, da auch schon vorher möglich
  • Digitalisierung vereinfacht jedoch Datafizierung maßgeblich
  • Sammlung der Daten durch Suchmaschinen, Bewegung (Maps), Webnutzung, Social Media (Instagram), Kommunikation (WhatsApp)
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Künstliche Intelligenz (KI) =

A

Artificial Intelligence (AI)

Teilgebiet der Informatik, die sich mit Nachbildung intelligenten Denkens, Verhaltens bei Maschinen beschäftigt

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Machine Learning =

A

ein Teilbereich der KI

künstlicher Prozess, bei dem Computer anhand von vorgegebenen Parametern und Datenmaterial Wissen generieren, indem sie Algorithmen auf große Datenmengen anwenden

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

NLP =

A

natural language processing

Anwendung von Machine Learning auf geschriebene und gesprochene Sprache, um sie für Computer verarbeitbar zu machen → Unterkategorie von ML

ein Teilbereich des Machine Learnings, dieses ist wiederum Teil der KI

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Beispiele für AI-generated content

A
  • Roboterjournalismus (Wetter, Sport, Aktienberichte anhand von Daten)
  • online-Produktbeschreibungen
  • Handschrifterkennung
  • Prognosemodelle, z.B. für Erkrankungen, Straffälligkeit
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Telemetrie =

A

Messeinrichtungen, die an Fernseher angeschlossen werden, erfassen alls An-, Um- und Ausschaltvorgänge
→ “People Meter”

(automatisierte Beobachtung)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
17
Q

Datenspuren =

A

Daten, die aus natürlichem Verhalten von Menschen durch automatisierte Beobachtungsverfahren erfasst und gespeichert werden

Bsp. Navigationshandlungen im Internet ( Page Visits, Scroll Depth, Time Spent etc. )

(automatisierte Beobachtung)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
18
Q

Datenspuren: Vorteile

A
  • Resultat natürlichen Verhaltens
  • große Datenmengen
  • neue Analysemöglichkeiten für “alte” Theorien
19
Q

Datenspuren: Nachteile

A
  • Zugang beschränkt und teuer (Unternehmen geben Daten selten preis)
  • fehlende Repräsentativität (viele Daten ≠ gute/repräsentative Daten)
  • algorithmische Konfundierung (jeder Feed auf Social Media sieht anders aus)
  • Rückschluss auf sensible Informationen über Personen (Datenmissbrauch)
20
Q

Tracking =

A

> Software erfasst gewünschte Variablen und zeichnet diese auf (z.B. Plugins im Browser)

Option: zusätzlich Merkmale mit Fragebogen erfassen

21
Q

Datenspende =

A

Nutzer laden Daten herunter und stellen sie Forschenden zur Verfügung

22
Q

Automatisierte IA =

A

verschiedene Verfahren, bei denen die Codierung der Codiereinheiten durch Computerprogramme übernommen wird

23
Q

Automatisierte IA: Beispiele

A
  • zeitliche Dynamiken und Veränderungen in der Berichterstattung
  • formale und sprachliche Merkmale von Kommunikation (z.B. politische Reden)
  • Rezeption von Inhalten (z.B. Kommentare auf Social Media)
24
Q

automatisierte IA: Scraping/Crawling

A

automatisierte Ansteuerung von Websites und Extraktion von Inhalten
→ ganze Webseite gespeichert

25
automatisierte IA: API
**(application programming interface)** Forschende fragen z.B. bei Twitter an, ob sie alle Tweets mit #trump von 2015-2016 erhalten können, Twitter stellt diese dann zur Verfügung 1. Request: API call is initiated by researcher 2. Receive: API goes to server and collects data 3. Response: SPI transfers requested data back to researcher
26
automatisierte IA: Datenaufbereitung
Daten müssen für Computer “lesbar” gemacht werden - Definition und Erstellung von Codiereinheiten - Preprocessing 1. Feature-Extraktion 2. Tokennisierung (Merkmale in noch kleinere Bestandteile zerlegen) - Entfernung von Stoppwörtern (und, oder) - Wörter auf Wortstamm reduzieren (do = does = doing) → Output: Datenstruktur die als Input für Computer dient
27
automatisierte IA: Datenanalyse: Überblick
verschiedene Codierungsverfahren
28
automatisierte IA: Datenanalyse: Überblick
verschiedene Codierungsverfahren - Text- und Wortmetriken
29
automatisierte IA: Datenanalyse: Überblick
verschiedene Codierungsverfahren - Text- und Wortmetriken - Textklassifikation
30
automatisierte IA: Datenanalyse: Text- und Wortmetriken
- Kollokation: gemeinsames Auftreten von Wörtern nacheinander - Kookurenz: gemeinsames Auftreten von Wörtern in selbem Dokument → Frequenzanalyse
31
automatisierte IA: Datenanalyse: Textklassifikation
diktionärbasierter Ansatz - typische Wörter für Konstrukt werden in Wörterbuch zusammengefasst - in Dokument wird nach Übereinstimmungen mit Wörterbuch gesucht - Bsp. Erfassung von positiven/negativen Bewertungen (Sentimentanalyse)
32
Beispiele für Machine Learning
- analyse jokes or sarcasm - analyse children’s books concerning most frequent descriptions - analyse common patterns in political speeches
33
supervised machine learning
Trainingsmaterial für Machine Learning wird vorgegeben
34
unsupervised machine learning
Machine Learning geschieht ohne Trainingsmaterial, das System sucht selbstständig nach Mustern in Daten
35
NLP: topic modelling
Wortcluster (Worte kommen oft zusammen vor) werden zu topics zusammengefasst
36
NLP: transcription and translation
Transkriptionen von handgeschriebenen Texten, gesprochener Sprache und anschließender Übersetzung
37
Simulationen =
Vorgänge werden mithilfe von Programmen simuliert
38
Simulationsarten
- statische Simulationen (nur ein Zeitpunkt) - Monte-Carlo-Simulationen (basierend auf Zufallsprozessen) - dynamische Simulationen (Prozesse) - kontinuierlich (Prognosemodelle stetiger Prozesse) - diskrete Simulation (outcome nach festgelegter Zeit) - agent based modelling (Agenten mit Eigenschaften imitieren menschliches Verhalten)
39
statische Simulationen
nur ein Zeitpunkt
40
Monte-Carlo-Simulationen
basierend auf Zufallsprozessen
41
dynamische Simulationen
Prozesse - kontinuierlich (Prognosemodelle stetiger Prozesse) - diskrete Simulation (outcome nach festgelegter Zeit)
42
agent based modelling
Agenten mit Eigenschaften imitieren menschliches Verhalten
43
Limitationen der CCS
- Computer erkennt Doppeldeutigkeit und Verwendungskontext nicht - manuelle Validierung der Ergebnisse durch Forschende nötig - aufwendige Datenaufbereitung - Machine Bias (KI lernt an biased data)
44
Studie von van Dalen et al. 2012
- Untersuchungsobjekte: Journalisten (ES, GB, DK, DE) - Mikroebene - keine Zufallsstichprobe, sonder so viele wie möglich - standardisierte PAPI - Feldphase 2007-2009 - Likert-Skala - Ergebnisse - Unterschiede im Rollenverhältnis zwischen Ländern - korrespondiert mit Inhalt (mehr Unterhaltung in GB) - zentrale Rolle des Mediensystems als Sozialisierungsinstanz - kritische Würdigung - vergleichende Perspektive - Kombination von IA und Befragung - Limitationen: - standardisierte Befragung - kein Matching von Inhalt und Befragte - nur 4 Länder