Probeklausur Flashcards
(7 cards)
Was ist die Datenwertschöpfungskette und welche Phasen können hier unterschieden werden?
Die Datenwertschöpfungskette beschreibt wie neue Daten gesammelt und eingesetzt werden.
Sie ist nach folgenden Phasen aufgeteilt:
Processing:
Collection –> Integration –> Storage –> Analysis –> Use
Planning:
Innovation & Management
Governance:
Ethics & Compliance
Mit welchen Fragestellungen in Bezug auf die zeitliche Ebene (Vergangenheit, Gegenwart, Zukunft) beschäftigen wir uns als Data Scientists in der Praxis?
Vergangenheit: Was ist passiert? Wir können Daten beschreiben/analysieren. Wir können Modelle trainieren.
Gegenwart: Was passiert gerade und warum? Wir beschreiben und analysieren Daten. Wir haben eine solide Grundlage, wollen aber noch mehr.
Zukunft: Was wird/soll passieren? Wir projizieren Daten und treffen so Annahmen für die Zukunft.
Welche Chancen/Risiken müssen bei der Verwendung von Vorhersagemodellen im Kontext von Business Intelligence berücksichtigt werden? Nenne je zwei Beispiele.
Chancen:
-Entscheidungen datenbasiert treffen
-Datenanalyse kann große Datensätze analysieren
-Daten können benutzt werden um die Zukunft vorhersagen
-Vorhersage-Modelle sind “neutral”
Risiken:
-Datenwissenschaftler sind oft nicht stark mit ihren Subjekten verbunden
-Datenanalyse erfordert das nötige Wissen
-Datenanalyse erfordert die richtigen Tools
-Datenanalyse braucht konstante Auseinandersetzen mit eigenen Annahmen und Glauben
Modelle Welche Aussage(n) ist/sind richtig?
A.
Modelle verwenden Features um eine Zielgröße (Target) zu schätzen.
B.
Algorithmen verwenden Features um eine Zielgröße (Target) zu schätzen.
C.
Als Targets eignen sich ausschließlich stetige Werte.
D.
Targets können stetig oder diskret sein.
A und D sind richtig
B ist falsch weil: Algorithmen sind Verfahren oder Prozesse, mit denen Modelle trainiert werden
C ist falsch weil Targets können stetig sein (z. B. Hauspreise in Euro), müssen es aber nicht. Bei Klassifikation sind sie z. B. diskret (z. B. „Ja“/„Nein“, „Katze“/„Hund“).
Welche Aussage(n) ist/sind richtig?
A.
Deterministisch arbeitende Algorithmen im Kontext von Business Intelligence werden als symbolische (symbolic) Algorithmen bezeichnet.
B.
Deterministisch arbeitende Algorithmen im Kontext von Business Intelligence werden als sub-symbolische (sub-symbolic) Algorithmen bezeichnet.
C.
Sub-symbolische (sub-symbolic) Algorithmen eignen sich besonders gut für die Verwenden in Bereichen, in denen Nachvollziehbarkeit eine große Rolle spielt.
D.
Symbolische (symbolic) Algorithmen eignen sich besonders gut für die Verwenden in Bereichen, in denen Nachvollziehbarkeit eine große Rolle spielt.
A und D sind korrekt.
Siehe Folie 35 (Lernstack)
Welche Aussage(n) ist/sind richtig?
A.
KNN ist ein Algorithmus aus dem Bereich des Supervised Learning.
B.
KNN ist ein Algorithmus aus dem Bereich der Klassifikation.
C.
KNN bestimmt die Klasse eines neuen Datenpunktes durch Vergleich mit seinen unmittelbaren (nearest) Nachbarn.
D.
KNN bestimmt den Regressionswert eines neuen Datenpunktes durch die Lage von k Zentroiden, die in die Datenpunkte gelegt werden.
Richtig sind A, B und C.
Punkt D beschreibt das K-Means Clustering.
Welche Aussage(n) ist/sind richtig?
A.
Random Forest ist ein Beispiel für einen Algorithmus aus dem Bereich des Ensemble Learning.
B.
Random Forest ist ein Beispiel für einen Clustering-Algorithmus.
C.
Random Forest ist ein Beispiel für einen Ensemble-Learning-Algorithmus der mit Hilfe von Boosting umgesetzt wird.
D.
Random Forests können sowohl zum Supervised, als auch zum Unsupervised Learning verwendet werden.
Richtig sind A und C.
Random Forest ist teil der Decision Trees und somit der Regression –> kein unsupervised Learning