KI_Supervised_Learning_Karteikarten Flashcards
(30 cards)
Was ist überwachtes Lernen?
Ein ML-Ansatz, bei dem Modelle aus gelabelten Daten lernen.
Welche Datenarten gibt es im überwachten Lernen?
Trainingsdaten, Validierungsdaten, Testdaten.
Warum sind gelabelte Daten notwendig?
Sie ermöglichen das Erlernen der korrekten Klassifikationen.
Welche Algorithmen gehören zum überwachten Lernen?
Entscheidungsbäume, k-NN, SVM, lineare Regression.
Was ist ein Entscheidungsbaum?
Ein Modell zur Klassifikation oder Regression basierend auf Baustrukturen.
Welche Knotenarten gibt es in Entscheidungsbäumen?
Wurzelknoten, Entscheidungsnoten, Blattknoten.
Wie werden Entscheidungsbäume erstellt?
Durch rekursives Teilen der Daten mit Informationsgewinn oder Gini-Index.
Welche Methoden zur Entscheidungsbaum-Erstellung gibt es?
ID3 (Informationsgewinn), CART (Gini-Index), MARS (Regression).
Was ist Informationsgewinn?
Die Reduktion der Entropie durch eine Entscheidung.
Was ist der Unterschied zwischen Entropie und Gini-Index?
Entropie misst die Unordnung, Gini-Index misst die Wahrscheinlichkeit falscher Klassifikationen.
Was ist Pruning?
Eine Technik zur Reduzierung von Overfitting durch Vereinfachung des Baums.
Was ist der Unterschied zwischen Pre-Pruning und Post-Pruning?
Pre-Pruning stoppt das Wachstum frühzeitig, Post-Pruning entfernt unnötige Äste nach dem Training.
Wie funktioniert k-NN?
Neue Datenpunkte werden anhand der k nächsten Nachbarn klassifiziert.
Was ist das Voronoi-Diagramm?
Eine Darstellung der Regionen, die jeweils einem Trainingspunkt zugeordnet sind.
Wie misst man die Ähnlichkeit in k-NN?
Mit Distanzmetriken wie euklidischer oder Manhattan-Distanz.
Was ist die euklidische Distanz?
Die direkte Entfernung zwischen zwei Punkten im Merkmalsraum.
Was ist die Manhattan-Distanz?
Die Summe der absoluten Differenzen zwischen zwei Punkten.
Welche Nachteile hat k-NN?
Tipps: Rechenaufwand und Empfindlichkeit
Hoher Rechenaufwand bei vielen Datenpunkten, empfindlich gegenüber irrelevanten Features.
Was ist der Einfluss des Hyperparameters k?
Ein zu kleines k kann zu Overfitting führen, ein zu großes k zu Underfitting.
Was ist eine Support Vector Machine (SVM)?
Ein Algorithmus, der die optimale Trennlinie zwischen zwei Klassen findet.
Was ist der Entscheidungsrand (Margin) in SVMs?
Der Abstand zwischen der Trennlinie und den nächstgelegenen Punkten beider Klassen.
Was sind Support Vektoren?
Die Datenpunkte, die die Trennlinie definieren.
Was ist der Unterschied zwischen Hard-Margin und Soft-Margin SVM?
Hard-Margin lässt keine Fehler zu, Soft-Margin toleriert einige Fehler.
Wie funktioniert die Kernel-Trick-Methode?
Daten werden in einen höherdimensionalen Raum transformiert, um sie besser zu trennen.