All Flashcards

(30 cards)

1
Q

Was versteht man unter Data Science?

A

Ein interdisziplinäres Feld zur Gewinnung von Erkenntnissen aus Daten durch Statistik, Informatik, maschinelles Lernen und Fachwissen.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Was sind die Hauptschritte der Data Value Chain?

A

Collection, Integration, Storage, Use, Analysis, Innovation & Management, Ethics & Compliance.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Wie funktioniert Kundensegmentierung in der Praxis?

A

Durch Clustering von Merkmalen wie Alter und Ausgaben in Gruppen, die anschließend interpretiert und zur Klassifikation neuer Kunden verwendet werden.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Welche Methoden gehören zur explorativen Datenanalyse?

A

Deskriptive Statistik, Visualisierung (z. B. Histogramme, Boxplots), Resampling (Hold-Out, LOO, k-Fold).

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Was bedeutet Bias-Variance-Tradeoff?

A

Ein Modell muss eine Balance zwischen zu starker Vereinfachung (Underfitting) und zu komplexer Anpassung (Overfitting) finden.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Welche Clustering-Methoden gibt es im Unsupervised Learning?

A

Hierarchisches Clustering, k-Means, DBSCAN.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Was macht der k-Nearest Neighbors Algorithmus?

A

Klassifiziert einen Datenpunkt anhand der Mehrheitsklasse der k nächsten Nachbarn.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Welche Metriken bewertet ein Klassifikationsmodell?

A

Accuracy, Precision, Recall, F1-Score, Confusion Matrix.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Wofür wird Regression in Data Science verwendet?

A

Zur Vorhersage kontinuierlicher Zielgrößen wie Preis oder Umsatz.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Was ist der Unterschied zwischen Bagging und Boosting?

A

Bagging trainiert mehrere Modelle unabhängig, Boosting trainiert sequentiell, wobei jedes Modell Fehler des vorherigen ausgleicht.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Welche Chancen bietet Data Science?

A

Automatisierung, bessere Entscheidungen, neue Geschäftsmodelle, Personalisierung.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Welche Risiken birgt Data Science?

A

Verzerrte Daten, Intransparenz (Blackbox), Datenschutzprobleme, ethische Konflikte.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Was ist der zentrale Grenzwertsatz?

A

Er besagt, dass der Mittelwert einer großen Anzahl unabhängiger Stichproben näherungsweise normalverteilt ist – unabhängig von der Ausgangsverteilung.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Was ist Overfitting und wie erkennt man es?

A

Overfitting liegt vor, wenn ein Modell die Trainingsdaten zu genau abbildet, aber bei neuen Daten schlecht generalisiert. Es zeigt sich durch hohe Trainings- aber niedrige Testgenauigkeit.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Was ist eine Confusion Matrix?

A

Eine Tabelle zur Bewertung von Klassifikationsmodellen mit den Einträgen: True Positives, False Positives, True Negatives, False Negatives.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Wann verwendet man DBSCAN statt k-Means?

A

Wenn die Anzahl der Cluster unbekannt ist und Daten Rauschen oder ungleich große Cluster enthalten – DBSCAN erkennt auch Ausreißer.

17
Q

Welche Vorteile bieten Random Forests gegenüber einzelnen Entscheidungsbäumen?

A

Höhere Genauigkeit, geringere Overfitting-Neigung, robust gegenüber Rauschen und Ausreißern.

18
Q

Was ist der Unterschied zwischen MAE, MSE und RMSE?

A
  • MAE: Durchschnittlicher Fehler
  • MSE: Durchschnitt der quadrierten Fehler
  • RMSE: Quadratwurzel von MSE, betont größere Fehler stärker
19
Q

Was ist Feature Scaling und warum ist es wichtig?

A

Skalierung von Eingabedaten (z. B. Standardisierung) ist wichtig für Modelle wie k-NN oder SVM, die von Abständen oder Gradienten abhängen.

20
Q

Welche Visualisierungen nutzt man zur Erkennung von Ausreißern?

A

Boxplots, Scatterplots, z-Score-basierte Plots, QQ-Plots.

21
Q

Wie funktioniert k-Fold Cross Validation?

A

Die Daten werden in k Gruppen geteilt. Jedes Segment wird einmal als Test- und die restlichen als Trainingsdaten genutzt. Der Mittelwert aller Testergebnisse gibt die Modellgüte an.

22
Q

Was versteht man unter Blackbox-Modellen?

A

Modelle (z. B. neuronale Netze), deren Entscheidungslogik für Menschen schwer nachvollziehbar ist.

23
Q

Was ist ein Entscheidungsbaum (Decision Tree)?

A

Ein Modell, das Daten über Entscheidungsregeln in einer baumartigen Struktur klassifiziert oder vorhersagt. Jeder Knoten stellt eine Bedingung dar, die zur nächsten Verzweigung führt.

24
Q

Was ist der Gini-Index?

A

Ein Maß zur Auswahl von Attributen bei Entscheidungsbäumen. Er bewertet die “Reinheit” eines Knotens – je niedriger, desto homogener die Daten nach der Aufteilung.

25
Was ist der Unterschied zwischen supervised und unsupervised Learning?
* Supervised Learning: Training mit Zielvariablen (z. B. Klassifikation, Regression) * Unsupervised Learning: Keine Zielvariablen – Mustererkennung (z. B. Clustering, PCA)
26
Wofür steht R² in der Regression?
Für den Erklärungsgrad – also wie viel der Varianz in der Zielvariable durch das Modell erklärt wird. Werte nahe 1 bedeuten hohe Modellgüte.
27
Was ist Cross Validation und wozu dient sie?
Eine Methode zur Modellvalidierung, bei der Daten mehrfach in Trainings- und Testsets aufgeteilt werden, um die Verlässlichkeit der Modellgüte zu beurteilen.
28
Welche Arten von Datenfehlern gibt es?
* Fehlende Werte (Missing Data) * Ausreißer (Outliers) * Verzerrung (Bias) * Duplikate * Falsch formattierte Daten
29
Was bedeutet Feature Engineering?
Der Prozess der Auswahl, Transformation und Erstellung von Eingabevariablen (Features), um die Leistungsfähigkeit von Machine-Learning-Modellen zu verbessern.
30
Was ist ein Use Case für Data Science im Gesundheitswesen?
Prognose von Krankheitsverläufen, Risikoeinschätzung bei Patienten, personalisierte Medizin, medizinische Bilderkennung, Optimierung von Behandlungsplänen.