V01 - Einführung und Grundlagen Flashcards

1
Q

Was sind die vier Paradigmen der Wissenschaft? (V01F11)

A

○ 1 Empirisch/Experimentell: Systematische Sammlung und Dokumentation von Daten der Umwelt
○ 2 Theoretisch: Gesetze und Regeln die Umwelt beschreiben (Physik)
○ 3 Berechnend: Computersimulation der Abläufe, Gewinnung von Erkenntnissen daraus
○ 4 Data-intensive: heranziehen von empirisch ermittelten Daten -> Bildung komplexer Modelle (Verständnis, Vorhersagen)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Welche Schritte gibt es bei Data Science? (V01F23)

A

○ Daten erzeugen/sammeln
○ Daten ablegen/abrufen
○ Daten bereinigen
○ Daten analysieren
○ Daten visualisieren

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Was sind die vier Vs von Big Data? (V01F31)

A

○ Volume: Umfang der Daten
○ Velocity: Eintrittsgeschwindigkeit der Daten, es entstehen schnell große Datenmengen, welche schnell (teilweise in Echtzeit) wieder verarbeitet werden müssen
○ Variety: Vielfalt der Daten, Heterogenität der Daten
○ Veracity: Qualität (Wahrhaftigkeit) der Daten (Korrektheit, Vollständigkeit, Konsistenz, Aktualität)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Warum ist Big Data das Ende der klassischen Wissenschaft? (V01F12)

A

Bei der klassischen Wissenschaft musste eine Kausalität nachgewiesen werden. Durch Big Data (also riesigen Datenmengen) ist die Kausalität weniger relevant geworden. Wenn die Kausalität immer besteht bei den angegebenen Daten, dann kann auch diese als Grundlage für eine Analyse verwendet werden.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Warum können Daten schon mal fehlerhaft sein? (V01F37)

A

○ Technische Probleme: Sensoren defekt, bei Übertragung der Daten gab es Verluste etc.
○ Menschliches Versagen: Daten falsch notiert/übertragen/zugeordnet

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Wie ist Data Science definiert? (V01F05)

A

Data Science vereinigt verschiedene wissenschaftliche Disziplinen (z.B. Statistik, Informationstechnologie, künstliche Intelligenz etc.), um neues Wissen aus vorhandenen oder erzeugten Daten zu extrahieren und darzustellen. So werden neue Erkenntnisse gewonnen, Muster erkannt und Schlussfolgerungen sowie Optimierungen ermöglicht.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Was ist eine Motivation dafür Data Science zu nutzen? (V01F11)

A

Eine Motivation ist, dass aus großen Datenmengen Annahmen abgeleitet werden können.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Was ist der Unterschied zwischen Korrelation und Kausalität? (V01F13)

A

Korrelation beschreibt die Tatsache, dass zwei Parameter in einer unbekannten Form zusammenhängen. Kausalität zeigt, dass ein Parameter ausschlaggebend für den anderen ist. Eine Korrelation zeigt also nicht zwangsweise auch eine Kausalität.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Was umfasst der Schritt Daten erzeugen/sammeln in Data Science? (V01F24)

A

○ Daten können aus bestimmten Quellen gesammelt (z.B. Web-Scraping) oder neu erzeugt werden
○ Datenquellen können sein: vorhandene Datensätze (Patientenakte), Daten neu erstellen (z.B. Sensoren)
○ Dieser Schritt bestimmt die Datenqualität und somit den weiteren Aufwand und die Qualität der extrahierbaren Informationen

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Was umfasst der Schritt Daten ablegen/abrufen in Data Science? (V01F25)

A

○ Aufgenommene/erzeugte Daten müssen so abgelegt bzw. gespeichert werden, dass sie wieder- und weiterverarbeitet werden können
○ Format (z.B. Tabelle) und Struktur (z.B. Graph) bestimmen die weiteren Nutzungsmöglichkeiten
○ Daten können lokal (z.B. auf Server) oder global (z.B. in Cloud) abgelegt werden.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Was umfasst der Schritt Daten bereinigen in Data Science? (V01F27)

A

○ Datenbereinigung ist entscheidend für Weiterverarbeitung
○ Aufwand richtet sich nach der Qualität der zu bereinigenden Daten -> dieser Schritt kann sehr aufwändig werden
○ Beispiel: Datenbereinigung ist nötig, wenn die Daten aus verschiedenen Quellen stammen: *Datensätze in gleiches Format bringen(Code, Version, Zeichen etc.) -> „Syntax“
* Datensätze inhaltlich angleichen (Werte ergänzen oder ändern, Bezeichnungen anpassen, Formate anpassen etc.) -> „Semantik“

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Was passiert im Schritt Daten analysieren? (V01F??)

A

○ In der Analyse kann das eigentliche Wissen (bzw. die neuen Informationen) extrahiert werden -> z.B. Erkennung neuer Beziehungen, Aufbereitung vorhandener Informationen, Vorhersagen etc.
○ Beispielsweise durch statistische Berechnungen, Auswertungen, Vergleiche etc. ->Hier zeigt sich, dass Korrelation nicht gleich Kausalität. Fehlinterpretationen der Ergebnisse können schwerwiegende Folgen haben.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Was passiert im Schritt Daten visualisieren? (V01F??)

A

○ Extrahierte Informationen für Menschen verständlicher machen, z.B. durch grafische Visualisierung.
○ Passende Visualisierungen ermöglichen schnelleres Verständnis, effizientere Entscheidungsfindung, neue Erkenntnisse, bessere Überwachung etc.
○ Auswahl der perfekten Visualisierungsmöglichkeit ist nicht immer trivial

How well did you know this?
1
Not at all
2
3
4
5
Perfectly