ML_Geron_01 Flashcards

Question

Kann ein SVM-Klassifikator einen Konfidenzwert ausgeben, wenn er einen Datenpunkt klassifiziert? Wie sieht es mit einer Wahrscheinlichkeit aus?

Answer 1

* Ein SVM-Klassifikator kann den **Abstand zwischen einem Testdatenpunkt und der Entscheidungsgrenze** ausgeben, und Sie können diese als **Konfidenzmaß** interpretieren. * Allerdings lässt sich dieser Score nicht direkt in eine Schätzung der Wahrscheinlichkeit einer Kategorie umrechnen. Wenn Sie beim Erstellen eines SVM in **Scikit-Learn probability=True** einstellen, werden die Wahrscheinlichkeiten mithilfe einer **logistischen Regression auf den Scores der SVM kalibriert** (das zusätzlich mit fünffacher Kreuzvalidierung auf den Trainingsdaten trainiert wird). * Damit erhalten Sie auch für ein SVM die Methoden **predict\_proba()** und **predict\_log\_proba()**.

Answer 2

Ein instanzbasiertes Lernsystem lernt die Trainingsdaten auswendig; anschließend wendet es ein Ähnlichkeitsmaß auf neue Datenpunkte an, um die dazu ähnlichsten erlernten Datenpunkte zu finden und diese zur Vorhersage zu verwenden.

Answer 3

SVMs versuchen, die breitestmögliche »Straße« zwischen den Kategorien einzufügen. Wenn also die Trainingsdaten nicht skaliert sind, **neigt das SVM dazu, kleine Merkmale zu ignorieren** (siehe Abbildung 5-2).

Answer 4

Der Grundgedanke bei Support Vector Machines ist, die **breitestmögliche »Straße«** zwischen den Kategorien zu fitten. Anders ausgedrückt, soll zwischen der Entscheidungsgrenze zwischen den beiden Kategorien und den Trainingsdatenpunkten eine möglichst große Lücke sein. Bei der Soft-Margin-Klassifikation sucht das SVM nach einem **Kompromiss zwischen einer perfekten Trennung zwischen den Kategorien und der breitestmöglichen Straße** (d.h., einige Datenpunkte dürfen auf der Straße liegen). Eine weiteres wichtiges Konzept ist die **Verwendung von Kernels** beim Trainieren nichtlinearer Datensätze.

Answer 5

* Diese Frage **betrifft nur lineare SVMs**, da Kernel-SVMs nur die duale Form verwenden können. * Die Komplexität der Berechnung der **primalen Form ist proportional zur Anzahl der Trainingsdatenpunkte *m***, während sie bei der dualen Form zu einer Zahl zwischen ***m²* und *m³* proportional** ist. * Wenn es also **Millionen** Datenpunkte gibt, sollten Sie **auf jeden Fall die primale Form** verwenden, weil die duale Form viel zu langsam wird.

Answer 6

* Ein Modell mit **etwas Regularisierung arbeitet in der Regel besser** als ein Modell ohne Regularisierung. Daher sollten Sie grundsätzlich die Ridge-Regression der einfachen linearen Regression vorziehen. * Die **Lasso-Regression** verwendet einen **ℓ₁ -Strafterm**, wodurch Gewichte auf exakt null heruntergedrückt werden. Dadurch erhalten Sie spärliche Modelle, bei denen **alle Gewichte außer den wichtigsten null sind**. Auf diese Weise können Sie eine automatische Merkmalsauswahl durchführen, wenn Sie ohnehin schon den Verdacht hegen, dass nur einige Merkmale wichtig sind. Wenn Sie sich nicht sicher sind, sollten Sie der Ridge-Regression den Vorzug geben. * **Elastic Net ist grundsätzlich gegenüber der Lasso-Regression vorzuziehen**, da sich Lasso in einigen Fällen sprunghaft verhält (wenn mehrere Merkmale stark miteinander korrelieren oder es mehr Merkmale als Trainingsdatenpunkte gibt). **Allerdings gilt es einen zusätzlichen Hyperparameter einzustellen**. Wenn Sie Lasso ohne das sprunghafte Verhalten verwenden möchten, können Sie einfach Elastic Net mit einer *l1\_ratio* um 1 verwenden.

Answer 7

Wenn der Validierungsfehler nach jeder Epoche immer wieder steigt, ist die **Lernrate möglicherweise zu hoch** und der Algorithmus divergiert. Wenn auch der **Trainingsfehler steigt**, ist dies mit Sicherheit die Ursache, und Sie sollten die Lernrate senken. Falls der Trainingsfehler aber nicht steigt, **overfittet Ihr Modell die Trainingsdaten**, und Sie sollten das Trainieren abbrechen.

Answer 8

* Wenn Sie einen Trainingsdatensatz mit Millionen Merkmalen haben, können Sie das **stochastische Gradientenverfahren** oder das **Mini-Batch-Gradientenverfahren** verwenden. * Wenn die Trainingsdaten in den Speicher passen, funktioniert eventuell auch das **Batch-Gradientenverfahren**. * Die **Normalengleichung funktioniert jedoch nicht**, weil die Komplexität der Berechnung schnell (mehr als quadratisch) mit der Anzahl Merkmale ansteigt.

Answer 9

* Wenn der Trainingsfehler und der Validierungsfehler fast gleich und recht hoch liegen, liegt vermutlich **Underfitting der Trainingsdaten** vor. Es gibt also ein **hohes Bias**. * Sie sollten daher den **Hyperparameter zur Regularisierung α** senken.

Answer 10

Modellbasierte Lernalgorithmen suchen nach einem optimalen Wert für die Modellparameter, sodass das Modell gut auf neue Datenpunkte verallgemeinert. Normalerweise trainiert man solche Systeme durch Minimieren einer Kostenfunktion. Diese misst, wie schlecht die Vorhersagen des Systems auf den Trainingsdaten sind, zudem wird im Falle von Regularisierung ein Strafterm für die Komplexität des Modells zugewiesen. Zum Treffen von Vorhersagen geben wir die Merkmale neuer Datenpunkte in die Vorhersagefunktion des Modells ein, wobei die vom Lernalgorithmus gefundenen Parameter verwendet werden.

Answer 11

Ein Validierungsdatensatz wird zum Vergleichen von Modellen verwendet. Es ist damit möglich, das beste Modell auszuwählen und die Feineinstellung der Hyperparameter vorzunehmen.

Answer 12

Spam-Erkennung ist eine typische überwachte Lernaufgabe: Dem Algorithmus werden viele E-Mails und deren Labels (Spam oder Nicht-Spam) bereitgestellt.

Answer 13

In einem berühmten Artikel aus dem Jahr 1996 (https://goo.gl/dzp946)11 zeigte David Wolpert, dass es keinen Grund gibt, ein Modell gegenüber einem anderen zu bevorzugen, wenn Sie absolut keine Annahmen über die Daten treffen. Dies nennt man auch das No-Free-Lunch-(NFL-)Theorem. Bei einigen Datensätzen ist das beste Modell ein lineares Modell, während bei anderen ein neuronales Netz am besten geeignet ist. Es gibt kein Modell, das garantiert a priori besser funktioniert (daher der Name des Theorems). Der einzige Weg, wirklich sicherzugehen, ist, alle möglichen Modelle zu evaluieren. Da dies nicht möglich ist, treffen Sie in der Praxis einige wohlüberlegte Annahmen über die Daten und evaluieren nur einige sinnvoll ausgewählte Modelle. Bei einfachen Aufgaben könnten Sie beispielsweise lineare Modelle mit unterschiedlich starker Regularisierung auswerten, bei einer komplexen Aufgabe hingegen verschiedene neuronale Netze.

Answer 14

Eine Abfolge von Komponenten zur Datenverarbeitung nennt man eine Pipeline. Pipelines sind in Machine-Learning-Systemen sehr häufig, weil dabei eine Menge Daten zu bearbeiten und viele Datentransformationen anzuwenden sind.

Answer 15

Das System zieht mehrere Eigenschaften zum Treffen einer Vorhersage heran (es wird die Bevölkerung eines Bezirks verwenden, das mittlere Einkommen und so weiter). Bei einer einzigen wäre eine univariate

Answer 16

Min-Max-Skalierung und die Standardisierung. ## Footnote Die Skalierung ist eine persönliche Wahl, um die Zahlen als richtig empfinden zu lassen, z. B. zwischen Null und Eins oder Eins und Hundert. Konvertieren Sie beispielsweise Daten in Millimeter in Meter, weil dies praktischer ist, oder imperial in metrisch. Während es bei der Normalisierung um die Skalierung auf einen externen "Standard" - die lokale Norm - geht, z. B. um das Entfernen des Mittelwerts und das Teilen durch die Standardabweichung der Stichprobe, damit Ihre sortierten Daten mit einer kumulativen Normalen oder einem kumulativen Poisson verglichen werden können, oder wie auch immer. Normalisieren (Min-Max-Skalierung): Die Bereichsskalierung transformiert die Werte in einen anderen Bereich. Dies beinhaltet normalerweise sowohl eine Verschiebung als auch eine Maßstabsänderung der Skala (Vergrößerung oder Verkleinerung). Die Daten werden nach der folgenden Gleichung transformiert Standardisierung: Standardisierung (manchmal auch Autoskalierung, oder z-Transformation genannt) ist das Skalierungsverfahren, das in einem Mittelwert von null und einer Varianz von eins resultiert. Für jeden Datenwert muss der Mittelwert µ subtrahiert und das Ergebnis dann durch die Standardabweichung σ dividiert werden (beachten Sie, dass die Reihenfolge dieser zwei Operationen nicht umgedreht werden darf):

Answer 17

1. Das Modell vereinfachen (weniger Merkmale) 2. Restriktionen einführen (Regularisierung) 3. Mehr Testdaten beschaffen

Answer 18

Eine Möglichkeit wäre, von Hand an den Hyperparametern herumzubasteln, bis Sie eine gute Kombination finden. Dies wäre sehr mühselig, und Sie hätten nicht die Zeit, viele Kombinationen auszuprobieren. Stattdessen sollten Sie die Scikit-Learn-Klasse GridSearchCV die Suche für Sie erledigen lassen. Sie müssen ihr lediglich sagen, mit welchen Hyperparametern Sie experimentieren möchten und welche Werte ausprobiert werden sollen. Dann werden alle möglichen Kombinationen von Hyperparametern über eine Kreuzvalidierung evaluiert.

Answer 19

Um einen Wert für θ zu finden, der die Kostenfunktion minimiert, gibt es eine Lösung mit geschlossener Form – anders ausgedrückt, eine mathematische Gleichung, die uns das Ergebnis direkt liefert. Diese wird auch als die Normalengleichung bezeichnet

Answer 20

Wir werden zwei unterschiedliche Ansätze zum Trainieren diskutieren: * Verwenden einer Gleichung mit »geschlossener Form«, die die für den Trainingsdatensatz idealen Modellparameter direkt berechnet (also die Modellparameter, die eine Kostenfunktion über die Trainingsdaten minimieren). * Verwenden eines iterativen Optimierungsverfahrens, des Gradientenverfahrens (GD), bei dem die Modellparameter schrittweise angepasst werden, um die Kostenfunktion über die Trainingsdaten zu minimieren und dabei möglicherweise die gleichen Parameter wie beim ersten Ansatz zu erhalten. Wir werden einige Varianten des Gradientenverfahrens betrachten, die uns bei den neuronalen Netzen in Teil II wieder und wieder begegnen werden: das Batch-Gradientenverfahren, das Mini-Batch-Gradientenverfahren und das stochastische Gradientenverfahren.

Answer 21

Um das Gradientenverfahren zu implementieren, müssen Sie den Gradienten der Kostenfunktion nach jedem Modellparameter θj berechnen. Anders ausgedrückt müssen Sie berechnen, wie stark sich die Kostenfunktion ändert, wenn Sie θj ein wenig verändern. Dies nennt man eine partielle Ableitung. Sie verhält sich wie die Frage »Wie ist die Neigung des Bergs unter meinen Füßen, wenn ich mich nach Osten wende?«, um anschließend die gleiche Frage nach Norden gerichtet zu stellen (ebenso bei allen anderen Dimensionen, falls Sie sich ein Universum mit mehr als drei Dimensionen vorstellen können).

Answer 22

Das Hauptproblem beim Batch-Gradientenverfahren ist, dass es bei jedem Schritt den gesamten Trainingsdatensatz zum Berechnen der Gradienten verwendet, wodurch es bei großen Trainingsdatensätzen sehr langsam wird. Das andere Extrem ist das stochastische Gradientenverfahren (SGD), das bei jedem Schritt nur einen Datenpunkt zufällig auswählt und nur für diesen Punkt die Gradienten berechnet. Natürlich wird dadurch der Algorithmus viel schneller, da in jeder Iteration nur sehr wenige Daten verändert werden müssen. Damit ist das Trainieren auf riesigen Datensätzen möglich, da pro Iteration nur ein Datenpunkt verändert werden muss (SGD lässt sich auch als Out-of-Core-Algorithmus implementieren).

Answer 23

Diese Diagramme zeigen die Leistung des Modells auf den Trainings- und den Validierungsdaten über der Größe des Trainingsdatensatzes.

Answer 24

Ein wichtiges theoretisches Ergebnis aus der Statistik und dem Machine Learning ist, dass sich der Verallgemeinerungsfehler eines Modells als Summe dreier sehr unterschiedlicher Fehler ausdrücken lässt: Bias: Dieser Teil des Verallgemeinerungsfehlers wird durch falsche Annahmen verursacht, etwa die Annahme, dass die Daten linear sind, obwohl sie sich quadratisch verhalten. Ein Modell mit hohem Bias wird die Trainingsdaten vermutlich underfitten. Varianz: Dieser Teil kommt durch übermäßige Empfindlichkeit des Modells für kleine Variationen in den Trainingsdaten zustande. Ein Modell mit vielen Freiheitsgraden (wie etwa ein höhergradiges Polynom) hat vermutlich eine hohe Varianz und overfittet daher die Trainingsdaten leichter. Nicht reduzierbare Fehler: Dieser Teil ist durch das Rauschen in den Daten selbst bedingt. Die einzige Möglichkeit, diesen Fehleranteil zu verringern, ist, die Daten zu säubern (z.B. die Datenquellen zu reparieren (wie etwa beschädigte Sensoren) oder Ausreißer zu erkennen und zu entfernen). Das Steigern der Komplexität eines Modells erhöht meistens dessen Varianz und senkt dessen Bias. Umgekehrt erhöht eine geringere Komplexität des Modells dessen Bias und senkt die Varianz. Deshalb nennt man dies ein Gleichgewicht.

Answer 25

Das logistische Regressionsmodell lässt sich direkt auf mehrere Kategorien verallgemeinern, ohne dass man mehrere binäre Klassifikatoren trainieren und miteinander kombinieren muss. Dies nennt man Softmax-Regression oder multinomiale logistische Regression.

Answer 26

Die Klassifikation mit Softmax-Regression sagt zeitgleich nur eine Kategorie vorher (sie arbeitet mit mehreren Kategorien, nicht mehreren Ausgaben). Sie sollte also nur verwendet werden, wenn sich die Kategorien gegenseitig ausschließen, wie etwa bei Pflanzenarten. Sie können sie also nicht dazu verwenden, um mehrere Personen im gleichen Bild zu erkennen.

Answer 27

Damit quantifiziere ich den Unterschied zwischen zwei Wahrscheinlichkeitsverteilungen.

ML_Geron_01 Flashcards

(51 cards)