V02 - Vorgehensweise und Werkzeuge Flashcards

1
Q

Wie lässt sich Data Science als Pipeline beschreiben? (V02F10)

A

○ Beginnt mit geringem analytischen und strategischen Anteil, die jeweils mit jedem Schritt etwas steigen
○ 1 Data Quality
○ 2 Descriptive Statistics
○ 3 Diagnostics: Faktoren und Ursachen identifizieren
○ 4 Predictive: Vorhersagen und Wahrscheinlichkeiten
○ 5 Semantic: sozialen Kontext und Bedeutung verstehen
(Abbildung in Unterlagen)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Wie läuft das Knowledge Discovery in Database (KDD) Modell ab? (V02F12)

A

○ 1. Auswahl: Datensatz wird nach potenziell nützlichen Teildatensätzen durchsucht und diese
werden extrahiert.
○ 2. Vorverarbeitung: Die ausgewählten Daten (Zieldaten) werden vorverarbeitet bzw. bereinigt,
z.B. Artefakte (Rauschen, Fehler etc.) entfernen, Konsistenz und Redundanz prüfen, Ausreißer-Detektion etc.
○ 3. Transformation: Dieser Schritt ist eigentlich Teil der Vorverarbeitung. Hier werden z.B.
Formate und Datentypen angepasst und somit die Daten für das eigentliche Data Mining vorbereitet.
○ 4. Data Mining: Die Daten werden auf Muster und Beziehungen überprüft.
○ 5. Interpretation: Es wird untersucht, ob die gefundenen Muster sinnvoll erscheinen, bzw. zur
Fragestellung passen und neue Erkenntnisse liefern können. Daraufhin werden die Muster
interpretiert und ggf. neues Wissen aus ihnen abgeleitet.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Wie läuft das CRISP-DM (Cross-Industry Reference Process for Data Mining) Modell ab?

A

○ 1 Business Unterstanding: Verstehen des Geschäftsproblems und Transformation in ein Daten-Analyse-Problem
○ 2 Data Understanding: Verstehen der Datenrepräsentation so wie erste explorative Analyse(n)
○ 3 Data Preparation: ETL-Prozess, Daten Transformation und Bereinigung, Anreichern, etc.
○ 4 Modelling: erstellen eines Data-Mining-Modells mit einem geeigneten Verfahren
○ 5 Evaluation: Auswahl und Bewertung des/der Modelle, Business-Ziel erreicht?
○ 6 Deployment: Anwendung des Modells im operativen Bereich
(Abbildung in Unterlagen)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Wie werden die Daten aufgeteilt?

A

○ Es gibt immer eine Trainings- und eine Testmenge, eine Validierungsmenge ist optional
○ 80-20 Modell: 80% Training, 20% Test
○ Bei 3 Mengen: 70% Training, 20% Validierung, 10% Test

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Warum werden Modelle wie KDD und CRISP-DM durchgeführt? (V02F??)

A

Damit langfristig etwas gelernt wird.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Warum werden Daten überhaupt partitioniert? (V02F??)

A

○ Zunächst wird ein KI-Modell mithilfe der Trainingsdaten trainiert, sodass z.B. Berechnungsparameter angepasst werden können. Um dieses Modell dann testen zu können sind Daten nötig, welche nicht im Training benutzt wurden, die sog. Testdaten. Somit kann sichergestellt werden, dass das Modell nicht nur für die Trainingsdaten gute Ergebnisse liefert, sondern auch auf „neuen“ Daten.
○ Validierungs-Daten werden für Test während Training benutzt, Test-Daten werden für Test genutzt, wenn Training abgeschlossen ist (Model wird währenddessen nicht mehr verändert)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly