All Flashcards
(30 cards)
Was versteht man unter Data Science?
Ein interdisziplinäres Feld zur Gewinnung von Erkenntnissen aus Daten durch Statistik, Informatik, maschinelles Lernen und Fachwissen.
Was sind die Hauptschritte der Data Value Chain?
Collection, Integration, Storage, Use, Analysis, Innovation & Management, Ethics & Compliance.
Wie funktioniert Kundensegmentierung in der Praxis?
Durch Clustering von Merkmalen wie Alter und Ausgaben in Gruppen, die anschließend interpretiert und zur Klassifikation neuer Kunden verwendet werden.
Welche Methoden gehören zur explorativen Datenanalyse?
Deskriptive Statistik, Visualisierung (z. B. Histogramme, Boxplots), Resampling (Hold-Out, LOO, k-Fold).
Was bedeutet Bias-Variance-Tradeoff?
Ein Modell muss eine Balance zwischen zu starker Vereinfachung (Underfitting) und zu komplexer Anpassung (Overfitting) finden.
Welche Clustering-Methoden gibt es im Unsupervised Learning?
Hierarchisches Clustering, k-Means, DBSCAN.
Was macht der k-Nearest Neighbors Algorithmus?
Klassifiziert einen Datenpunkt anhand der Mehrheitsklasse der k nächsten Nachbarn.
Welche Metriken bewertet ein Klassifikationsmodell?
Accuracy, Precision, Recall, F1-Score, Confusion Matrix.
Wofür wird Regression in Data Science verwendet?
Zur Vorhersage kontinuierlicher Zielgrößen wie Preis oder Umsatz.
Was ist der Unterschied zwischen Bagging und Boosting?
Bagging trainiert mehrere Modelle unabhängig, Boosting trainiert sequentiell, wobei jedes Modell Fehler des vorherigen ausgleicht.
Welche Chancen bietet Data Science?
Automatisierung, bessere Entscheidungen, neue Geschäftsmodelle, Personalisierung.
Welche Risiken birgt Data Science?
Verzerrte Daten, Intransparenz (Blackbox), Datenschutzprobleme, ethische Konflikte.
Was ist der zentrale Grenzwertsatz?
Er besagt, dass der Mittelwert einer großen Anzahl unabhängiger Stichproben näherungsweise normalverteilt ist – unabhängig von der Ausgangsverteilung.
Was ist Overfitting und wie erkennt man es?
Overfitting liegt vor, wenn ein Modell die Trainingsdaten zu genau abbildet, aber bei neuen Daten schlecht generalisiert. Es zeigt sich durch hohe Trainings- aber niedrige Testgenauigkeit.
Was ist eine Confusion Matrix?
Eine Tabelle zur Bewertung von Klassifikationsmodellen mit den Einträgen: True Positives, False Positives, True Negatives, False Negatives.
Wann verwendet man DBSCAN statt k-Means?
Wenn die Anzahl der Cluster unbekannt ist und Daten Rauschen oder ungleich große Cluster enthalten – DBSCAN erkennt auch Ausreißer.
Welche Vorteile bieten Random Forests gegenüber einzelnen Entscheidungsbäumen?
Höhere Genauigkeit, geringere Overfitting-Neigung, robust gegenüber Rauschen und Ausreißern.
Was ist der Unterschied zwischen MAE, MSE und RMSE?
- MAE: Durchschnittlicher Fehler
- MSE: Durchschnitt der quadrierten Fehler
- RMSE: Quadratwurzel von MSE, betont größere Fehler stärker
Was ist Feature Scaling und warum ist es wichtig?
Skalierung von Eingabedaten (z. B. Standardisierung) ist wichtig für Modelle wie k-NN oder SVM, die von Abständen oder Gradienten abhängen.
Welche Visualisierungen nutzt man zur Erkennung von Ausreißern?
Boxplots, Scatterplots, z-Score-basierte Plots, QQ-Plots.
Wie funktioniert k-Fold Cross Validation?
Die Daten werden in k Gruppen geteilt. Jedes Segment wird einmal als Test- und die restlichen als Trainingsdaten genutzt. Der Mittelwert aller Testergebnisse gibt die Modellgüte an.
Was versteht man unter Blackbox-Modellen?
Modelle (z. B. neuronale Netze), deren Entscheidungslogik für Menschen schwer nachvollziehbar ist.
Was ist ein Entscheidungsbaum (Decision Tree)?
Ein Modell, das Daten über Entscheidungsregeln in einer baumartigen Struktur klassifiziert oder vorhersagt. Jeder Knoten stellt eine Bedingung dar, die zur nächsten Verzweigung führt.
Was ist der Gini-Index?
Ein Maß zur Auswahl von Attributen bei Entscheidungsbäumen. Er bewertet die “Reinheit” eines Knotens – je niedriger, desto homogener die Daten nach der Aufteilung.