ML_Geron_01 Flashcards

1
Q

Was sind die zwei verbreitetsten Aufgaben beim überwachten Lernen?

A

Die zwei verbreitetsten Aufgaben beim überwachten Lernen sind Regression und Klassifikation.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Welche Art Algorithmus würden Sie verwenden, um Ihre Kunden in unterschiedliche Gruppen einzuteilen?

A

Wenn Sie nicht wissen, wie Sie die Gruppen definieren sollen, können Sie ein Clustering-Verfahren verwenden (unüberwachtes Lernen), um Ihre Kunden in Cluster jeweils ähnlicher Kunden zu segmentieren.

Wenn Sie dagegen die gewünschten Gruppen bereits kennen, können Sie einem Klassifikationsalgorithmus viele Beispiele aus jeder Gruppe zeigen (überwachtes Lernen) und alle Kunden in diese Gruppen einordnen lassen.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Was ist der Unterschied zwischen einem Modellparameter und einem Hyperparameter eines Lernalgorithmus?

A

Ein Modell besitzt einen oder mehr Modellparameter, die festlegen, wie Vorhersagen für einen neuen Datenpunkt getroffen werden (z.B. die Steigung eines linearen Modells).

Ein Lernalgorithmus versucht, optimale Werte für diese Parameter zu finden, sodass das Modell bei neuen Daten gut verallgemeinern kann.

Ein Hyperparameter ist ein Parameter des Lernalgorithmus selbst, nicht des Modells (z.B. die Menge zu verwendender Regularisierung).

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Angenommen, Sie möchten Bilder als innen/außen und Tag/Nacht klassifizieren.

Sollten Sie zwei Klassifikatoren mit logistischer Regression oder einen Klassifikator mit Softmax-Regression erstellen?

A

Wenn Sie Bilder als außen/innen und Tag/Nacht klassifizieren möchten, schließen sich die Kategorien nicht gegenseitig aus (d.h., alle vier Kombinationen sind möglich).

Sie sollten daher zwei Klassifikatoren mit logistischer Regression trainieren.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Kann das Gradientenverfahren bei einem logistischen Regressionsmodell in
einem lokalen Minimum stecken bleiben?

A

Das Gradientenverfahren kann beim Trainieren eines logistischen Regressionsmodells nicht in einem lokalen Minimum stecken bleiben, weil die Kostenfunktion konvex ist.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Nehmen wir an, Sie hätten einen SVM-Klassifikator mit RBF-Kernel trainiert.
Es sieht so aus, als würde Underfitting der Trainingsdaten vorliegen: Sollten
Sie γ (gamma) erhöhen oder senken? Wie sieht es mit C aus?

A

Wenn ein mit einem RBF-Kernel trainierter SVM-Klassifikator die Trainingsdaten underfittet, gibt es möglicherweise zu viel Regularisierung.

Um diese zu senken, müssen Sie gamma oder C erhöhen (oder beide).

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Sie verwenden eine polynomielle Regression, plotten die Lernkurven und
bemerken, dass es zwischen dem Trainingsfehler und dem Validierungsfehler
einen großen Unterschied gibt. Was passiert? Nennen Sie drei Möglichkeiten,
dies zu beheben.

A

Wenn der Validierungsfehler deutlich höher als der Trainingsfehler ist, liegt es daran, dass Ihr Modell die Trainingsdaten overfittet.

Dies lässt sich beheben, indem Sie den Grad des Polynoms senken: Ein Modell mit weniger Freiheitsgraden neigt weniger zu Overfitting.

Sie können auch versuchen, das Modell zu regularisieren – beispielsweise über einen 2 -Strafterm (Ridge) oder einen 1 -Strafterm (Lasso), der zur Kostenfunktion addiert wird. Damit reduzieren Sie auch die Freiheitsgrade des Modells.

Schließlich können Sie auch die Größe des Trainingsdatensatzes erhöhen.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Was ist ein gelabelter Trainingsdatensatz?

A

Ein gelabelter Trainingsdatensatz ist ein Trainingsdatensatz, der die gewünschte Lösung (das Label) für jeden Datenpunkt enthält.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Was ist Out-of-Core-Lernen?

A

Out-of-Core-Algorithmen können riesige Datenmengen verarbeiten, die nicht in den Hauptspeicher des Computers passen.

Ein Out-of-Core-Lernalgorithmus teilt die Daten in Mini-Batches ein und verwendet Techniken aus dem Online-Learning, um aus diesen Mini-Batches zu lernen.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Wie würden Sie Machine Learning definieren?

A

Beim Machine Learning geht es um das Konstruieren von Systemen, die aus Daten lernen können. Lernen bedeutet, sich bei einer Aufgabe anhand eines Qualitätsmaßes zu verbessern.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Welches Problem liegt vor, wenn Ihr Modell auf den Trainingsdaten eine sehr gute Leistung erbringt, aber schlecht auf neue Daten verallgemeinert?

Nennen Sie drei Lösungsansätze.

A

Wenn ein Modell auf den Trainingsdaten herausragend abschneidet, aber schlecht auf neue Datenpunkte verallgemeinert, liegt vermutlich Overfitting der Trainingsdaten vor (oder wir hatten bei den Trainingsdaten eine Menge Glück).

Gegenmaßnahmen bei Overfitting sind das

  • Beschaffen zusätzlicher Daten,
  • das Vereinfachen des Modells (Auswählen eines einfacheren Algorithmus, Reduzieren der Parameteranzahl oder Regularisierung des Modells) oder das
  • Verringern des Rauschens in den Trainingsdaten
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Führen alle Algorithmen für das Gradientenverfahren zum gleichen Modell,
vorausgesetzt, sie laufen lange genug?

A

Wenn das Optimierungsproblem konvex (wie bei der linearen oder logistischen Regression) und die Lernrate nicht zu hoch ist, finden sämtliche algorithmischen Varianten des Gradientenverfahrens das globale Optimum und führen zu sehr ähnlichen Modellen.

Allerdings konvergieren das stochastische und das Mini-Batch-Gradientenverfahren nicht wirklich (es sei denn, Sie reduzieren die Lernrate), sondern springen um das globale Optimum herum. Das bedeutet, dass diese Algorithmen geringfügig unterschiedliche Modelle hervorbringen, selbst wenn Sie sie lange laufen lassen.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Was ist Kreuzvalidierung, und warum sollten Sie diese einem Validierungsdatensatz vorziehen?

A

Kreuzvalidierung ist eine Technik, mit der Sie Modelle vergleichen können (zur Parameterauswahl und zum Einstellen von Hyperparametern), ohne dass Sie einen separaten Validierungsdatensatz benötigen.

Damit sparen Sie wertvolle Trainingsdaten ein.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Was ist ein Online-Lernsystem?

A

Ein Online-Lernsystem kann im Gegensatz zu einem Batch-Lernsystem inkrementell lernen.

Dadurch ist es in der Lage, sich sowohl an sich schnell ändernde Daten oder autonome Systeme anzupassen als auch sehr große Mengen an Trainingsdaten zu verarbeiten.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Können Sie vier Arten von Aufgaben nennen, für die Machine Learning gut geeignet ist?

A
  • Machine Learning ist zum Lösen komplexer Aufgaben geeignet, bei denen es keine algorithmische Lösung gibt,
  • zum Ersetzen langer Listen händisch erstellter Regeln,
  • zum Erstellen von Systemen, die sich an wechselnde Bedingungen anpassen und schließlich dazu,
  • Menschen beim Lernen zu helfen (z.B. beim Data Mining).
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Ist es eine gute Idee, das Mini-Batch-Gradientenverfahren sofort zu unterbrechen, sobald der Validierungsfehler steigt?

A

Wegen des Zufallselements gibt es weder beim stochastischen noch beim Mini-Batch-Gradientenverfahren eine Garantie für Fortschritte bei jeder Iteration.

Wenn Sie also das Trainieren abbrechen, sobald der Validierungsfehler steigt, kann es passieren, dass Sie vor Erreichen des Optimums abbrechen.

Es ist günstiger, das Modell in regelmäßigen Abständen abzuspeichern und das beste gespeicherte Modell aufzugreifen, falls es sich eine längere Zeit nicht verbessert (es also vermutlich den eigenen Rekord nicht knacken wird).

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
17
Q

Was kann schiefgehen, wenn Sie Hyperparameter mithilfe der Testdaten einstellen?

A

Wenn Sie Hyperparameter mit den Testdaten einstellen, riskieren Sie ein Overfitting des Testdatensatzes.

Der gemessene Verallgemeinerungsfehler ist dann zu niedrig angesetzt (Sie könnten in diesem Fall also ein Modell einsetzen, das schlechter funktioniert als erwartet).

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
18
Q

Können Sie vier verbreitete Aufgaben für unüberwachtes Lernen nennen?

A

Verbreitete unüberwachte Lernaufgaben sind

  • Clustering,
  • Visualisierung,
  • Dimensionsreduktion und das
  • Erlernen von Assoziationsregeln.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
19
Q

Können Sie vier der wichtigsten Herausforderungen beim Machine Learning benennen?

A

Zu den Hauptschwierigkeiten beim Machine Learning gehören

  • fehlende Daten,
  • mangelhafte Datenqualität,
  • nicht repräsentative Daten,
  • nicht informative Merkmale,
  • übermäßig einfache Modelle, die die Trainingsdaten underfitten und
  • übermäßig komplexe Modelle, die die Trainingsdaten overfitten.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
20
Q

Nehmen Sie an, dass die Merkmale in Ihrem Trainingsdatensatz unterschiedlich skaliert sind. Welche Algorithmen würden dadurch in Mitleidenschaft
gezogen und in welcher Weise? Was können Sie dagegen tun?

A
  • Wenn die Merkmale in Ihrem Trainingsdatensatz sehr unterschiedlich skaliert sind, hat die Kostenfunktion die Gestalt einer länglichen Schüssel. Deshalb benötigen die Algorithmen für das Gradientenverfahren lange zum Konvergieren. Um dieses Problem zu beheben, sollten Sie die Daten skalieren, bevor Sie das Modell trainieren.
  • Die Normalengleichung funktioniert auch ohne Skalierung.
  • Darüber hinaus können regularisierte Modelle mit nicht skalierten Merkmalen bei einer suboptimalen Lösung konvergieren: Weil die Regularisierung große Gewichte abstraft, werden Merkmale mit geringen Beträgen im Vergleich zu Merkmalen mit großen Beträgen tendenziell ignoriert.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
21
Q

Welcher der besprochenen Algorithmen für das Gradientenverfahren erreicht
die Umgebung der optimalen Lösung am schnellsten? Welcher konvergiert?
Wie können Sie auch die übrigen konvergieren lassen?

A

Die Trainingsiterationen sind beim stochastischen Gradientenverfahren am schnellsten, da es nur genau einen Trainingsdatenpunkt berücksichtigt. Es wird also normalerweise die Umgebung des globalen Optimums als Erstes erreichen (oder das Mini-Batch-Gradientenverfahren mit sehr kleinen MiniBatches).

Allerdings wird nur das Batch-Gradientenverfahren mit genug Trainingszeit auch konvergieren. Wie erwähnt, springen das stochastische und das Mini-Batch-Gradientenverfahren um das Optimum herum, es sei denn, Sie senken die Lernrate allmählich.

22
Q

Was ist ein Stützvektor?

A
  • Nach dem Trainieren eines SVM ist jeder Datenpunkt an der »Straße« (siehe vorige Antwort) ein Stützvektor, einschließlich des Straßenrands.
  • Die Entscheidungsgrenze ist vollständig durch die Stützvektoren festgelegt. Jeder Datenpunkt, der kein Stützvektor ist (d.h. abseits der Straße liegt) hat darauf keinen Einfluss; Sie könnten diese entfernen, weitere Datenpunkte hinzufügen oder sie verschieben. Solange sie weg von der Straße bleiben, beeinflussen sie die Entscheidungsgrenze nicht.
  • Zum Berechnen einer Vorhersage sind nur die Stützvektoren nötig, nicht der gesamte Datensatz.
23
Q

Was für einen Machine-Learning-Algorithmus würden Sie verwenden, um einen Roboter über verschiedene unbekannte Oberflächen laufen zu lassen?

A

Reinforcement Learning funktioniert voraussichtlich am besten, wenn ein Roboter lernen soll, in unbekanntem Gelände zu laufen, da Reinforcement Learning für diese Art Aufgabe verbreitet ist.

Die Aufgabe ließe sich auch als überwachte oder unüberwachte Aufgabe formulieren, diese Herangehensweise wäre aber weniger natürlich.

24
Q

Was ist ein Testdatensatz, und warum sollten man einen verwenden?

A

Ein Testdatensatz hilft dabei, den Verallgemeinerungsfehler eines Modells auf neuen Datenpunkten abzuschätzen, bevor ein Modell in einer Produktionsumgebung eingesetzt wird.

25
Q

Kann ein SVM-Klassifikator einen Konfidenzwert ausgeben, wenn er einen
Datenpunkt klassifiziert? Wie sieht es mit einer Wahrscheinlichkeit aus?

A
  • Ein SVM-Klassifikator kann den Abstand zwischen einem Testdatenpunkt und der Entscheidungsgrenze ausgeben, und Sie können diese als Konfidenzmaß interpretieren.
  • Allerdings lässt sich dieser Score nicht direkt in eine Schätzung der Wahrscheinlichkeit einer Kategorie umrechnen. Wenn Sie beim Erstellen eines SVM in Scikit-Learn probability=True einstellen, werden die Wahrscheinlichkeiten mithilfe einer logistischen Regression auf den Scores der SVM kalibriert (das zusätzlich mit fünffacher Kreuzvalidierung auf den Trainingsdaten trainiert wird).
  • Damit erhalten Sie auch für ein SVM die Methoden predict_proba() und predict_log_proba().
26
Q

Welche Art Lernalgorithmus beruht auf einem Ähnlichkeitsmaß, um Vorhersagen zu treffen?

A

Ein instanzbasiertes Lernsystem lernt die Trainingsdaten auswendig; anschließend wendet es ein Ähnlichkeitsmaß auf neue Datenpunkte an, um die dazu ähnlichsten erlernten Datenpunkte zu finden und diese zur Vorhersage zu verwenden.

27
Q

Warum ist es wichtig, beim Verwenden von SVMs die Eingabedaten zu skalieren?

A

SVMs versuchen, die breitestmögliche »Straße« zwischen den Kategorien einzufügen.

Wenn also die Trainingsdaten nicht skaliert sind, neigt das SVM dazu, kleine Merkmale zu ignorieren (siehe Abbildung 5-2).

28
Q

Was ist die Support Vector Machines zugrunde liegende Idee?

A

Der Grundgedanke bei Support Vector Machines ist, die breitestmögliche »Straße« zwischen den Kategorien zu fitten. Anders ausgedrückt, soll zwischen der Entscheidungsgrenze zwischen den beiden Kategorien und den Trainingsdatenpunkten eine möglichst große Lücke sein.

Bei der Soft-Margin-Klassifikation sucht das SVM nach einem Kompromiss zwischen einer perfekten Trennung zwischen den Kategorien und der breitestmöglichen Straße (d.h., einige Datenpunkte dürfen auf der Straße liegen).

Eine weiteres wichtiges Konzept ist die Verwendung von Kernels beim Trainieren nichtlinearer Datensätze.

29
Q

Sollten Sie die primale oder die duale Form des SVM-Problems verwenden,
um ein Modell mit Millionen Datenpunkten und Hunderten Merkmalen zu
trainieren?

A
  • Diese Frage betrifft nur lineare SVMs, da Kernel-SVMs nur die duale Form verwenden können.
  • Die Komplexität der Berechnung der primalen Form ist proportional zur Anzahl der Trainingsdatenpunkte m, während sie bei der dualen Form zu einer Zahl zwischen m2 und m3 proportional ist.
  • Wenn es also Millionen Datenpunkte gibt, sollten Sie auf jeden Fall die primale Form verwenden, weil die duale Form viel zu langsam wird.
30
Q

Welche Gründe sprechen für folgende Verfahren?
– Ridge-Regression anstatt einer einfachen linearen Regression (d.h. ohne
Regularisierung)?
– Lasso anstelle einer Ridge-Regression?
– Elastic Net anstelle von Lasso?

A
  • Ein Modell mit etwas Regularisierung arbeitet in der Regel besser als ein Modell ohne Regularisierung. Daher sollten Sie grundsätzlich die Ridge-Regression der einfachen linearen Regression vorziehen.
  • Die Lasso-Regression verwendet einen 1 -Strafterm, wodurch Gewichte auf exakt null heruntergedrückt werden. Dadurch erhalten Sie spärliche Modelle, bei denen alle Gewichte außer den wichtigsten null sind. Auf diese Weise können Sie eine automatische Merkmalsauswahl durchführen, wenn Sie ohnehin schon den Verdacht hegen, dass nur einige Merkmale wichtig sind. Wenn Sie sich nicht sicher sind, sollten Sie der Ridge-Regression den Vorzug geben.
  • Elastic Net ist grundsätzlich gegenüber der Lasso-Regression vorzuziehen, da sich Lasso in einigen Fällen sprunghaft verhält (wenn mehrere Merkmale stark miteinander korrelieren oder es mehr Merkmale als Trainingsdatenpunkte gibt). Allerdings gilt es einen zusätzlichen Hyperparameter einzustellen. Wenn Sie Lasso ohne das sprunghafte Verhalten verwenden möchten, können Sie einfach Elastic Net mit einer l1_ratio um 1 verwenden.
31
Q

Nehmen Sie an, Sie verwenden das Batch-Gradientenverfahren und plotten
den Validierungsfehler in jeder Epoche. Was passiert vermutlich, wenn der
Validierungsfehler ständig steigt? Wie können Sie dies beheben?

A

Wenn der Validierungsfehler nach jeder Epoche immer wieder steigt, ist die Lernrate möglicherweise zu hoch und der Algorithmus divergiert.

Wenn auch der Trainingsfehler steigt, ist dies mit Sicherheit die Ursache, und Sie sollten die Lernrate senken.

Falls der Trainingsfehler aber nicht steigt, overfittet Ihr Modell die Trainingsdaten, und Sie sollten das Trainieren abbrechen.

32
Q

Welchen Trainingsalgorithmus für die lineare Regression können Sie verwenden, wenn Sie einen Trainingsdatensatz mit Millionen Merkmalen haben?

A
  • Wenn Sie einen Trainingsdatensatz mit Millionen Merkmalen haben, können Sie das stochastische Gradientenverfahren oder das Mini-Batch-Gradientenverfahren verwenden.
  • Wenn die Trainingsdaten in den Speicher passen, funktioniert eventuell auch das Batch-Gradientenverfahren.
  • Die Normalengleichung funktioniert jedoch nicht, weil die Komplexität der Berechnung schnell (mehr als quadratisch) mit der Anzahl Merkmale ansteigt.
33
Q

Bei der Ridge-Regression bemerken Sie, dass der Trainingsfehler und der Validierungsfehler beinahe gleich und recht hoch sind. Krankt dieses Modell an
einem hohen Bias oder an einer hohen Varianz?

Sollten Sie den Regularisierungsparameter α erhöhen oder senken?

A
  • Wenn der Trainingsfehler und der Validierungsfehler fast gleich und recht hoch liegen, liegt vermutlich Underfitting der Trainingsdaten vor. Es gibt also ein hohes Bias.
  • Sie sollten daher den Hyperparameter zur Regularisierung α senken.
34
Q

Wonach suchen modellbasierte Lernalgorithmen?

Welches ist die häufigste Strategie, die zum Erfolg führt? Wie treffen sie Vorhersagen?

A

Modellbasierte Lernalgorithmen suchen nach einem optimalen Wert für die Modellparameter, sodass das Modell gut auf neue Datenpunkte verallgemeinert.

Normalerweise trainiert man solche Systeme durch Minimieren einer Kostenfunktion. Diese misst, wie schlecht die Vorhersagen des Systems auf den Trainingsdaten sind, zudem wird im Falle von Regularisierung ein Strafterm für die Komplexität des Modells zugewiesen.

Zum Treffen von Vorhersagen geben wir die Merkmale neuer Datenpunkte in die Vorhersagefunktion des Modells ein, wobei die vom Lernalgorithmus gefundenen Parameter verwendet werden.

35
Q

Was ist der Zweck eines Validierungsdatensatzes?

A

Ein Validierungsdatensatz wird zum Vergleichen von Modellen verwendet. Es ist damit möglich, das beste Modell auszuwählen und die Feineinstellung der Hyperparameter vorzunehmen.

36
Q

Würden Sie die Aufgabe, Spam zu erkennen, als überwachte oder unüberwachte Lernaufgabe einstufen?

A

Spam-Erkennung ist eine typische überwachte Lernaufgabe: Dem Algorithmus werden viele E-Mails und deren Labels (Spam oder Nicht-Spam) bereitgestellt.

37
Q

Was ist das No-Free-Lunch-Theorem?

A

In einem berühmten Artikel aus dem Jahr 1996 (https://goo.gl/dzp946)11 zeigte David Wolpert, dass es keinen Grund gibt, ein Modell gegenüber einem anderen zu bevorzugen, wenn Sie absolut keine Annahmen über die Daten treffen.

Dies nennt man auch das No-Free-Lunch-(NFL-)Theorem. Bei einigen Datensätzen ist das beste Modell ein lineares Modell, während bei anderen ein neuronales Netz am besten geeignet ist. Es gibt kein Modell, das garantiert a priori besser funktioniert (daher der Name des Theorems).

Der einzige Weg, wirklich sicherzugehen, ist, alle möglichen Modelle zu evaluieren. Da dies nicht möglich ist, treffen Sie in der Praxis einige wohlüberlegte Annahmen über die Daten und evaluieren nur einige sinnvoll ausgewählte Modelle. Bei einfachen Aufgaben könnten Sie beispielsweise lineare Modelle mit unterschiedlich starker Regularisierung auswerten, bei einer komplexen Aufgabe hingegen verschiedene neuronale Netze.

38
Q

Was ist eine Pipeline?

A

Eine Abfolge von Komponenten zur Datenverarbeitung nennt man eine Pipeline. Pipelines sind in Machine-Learning-Systemen sehr häufig, weil dabei eine Menge Daten zu bearbeiten und viele Datentransformationen anzuwenden sind.

39
Q

Was ist eine multivariate Regressionsaufgabe?

A

Das System zieht mehrere Eigenschaften zum Treffen einer Vorhersage heran (es wird die Bevölkerung eines Bezirks verwenden, das mittlere Einkommen und so weiter).

Bei einer einzigen wäre eine univariate

40
Q

Welche Verfahren gibt es, um sämtliche Merkmale auf die gleiche Skala zu bringen?

A

Min-Max-Skalierung und die Standardisierung.

Die Skalierung ist eine persönliche Wahl, um die Zahlen als richtig empfinden zu lassen, z. B. zwischen Null und Eins oder Eins und Hundert. Konvertieren Sie beispielsweise Daten in Millimeter in Meter, weil dies praktischer ist, oder imperial in metrisch.

Während es bei der Normalisierung um die Skalierung auf einen externen “Standard” - die lokale Norm - geht, z. B. um das Entfernen des Mittelwerts und das Teilen durch die Standardabweichung der Stichprobe, damit Ihre sortierten Daten mit einer kumulativen Normalen oder einem kumulativen Poisson verglichen werden können, oder wie auch immer.

Normalisieren (Min-Max-Skalierung): Die Bereichsskalierung transformiert die Werte in einen anderen Bereich. Dies beinhaltet normalerweise sowohl eine Verschiebung als auch eine Maßstabsänderung der Skala (Vergrößerung oder Verkleinerung). Die Daten werden nach der folgenden Gleichung transformiert

Standardisierung: Standardisierung (manchmal auch Autoskalierung, oder z-Transformation genannt) ist das Skalierungsverfahren, das in einem Mittelwert von null und einer Varianz von eins resultiert. Für jeden Datenwert muss der Mittelwert µ subtrahiert und das Ergebnis dann durch die Standardabweichung σ dividiert werden (beachten Sie, dass die Reihenfolge dieser zwei Operationen nicht umgedreht werden darf):

41
Q

Welche Gegenmaßnahmen gibt es beim Overfitting?

A
  1. Das Modell vereinfachen (weniger Merkmale)
  2. Restriktionen einführen (Regularisierung)
  3. Mehr Testdaten beschaffen
42
Q

Wie kann ich gute Hyperparameter mit Scikit-learn finden?

A

Eine Möglichkeit wäre, von Hand an den Hyperparametern herumzubasteln, bis Sie eine gute Kombination finden. Dies wäre sehr mühselig, und Sie hätten nicht die Zeit, viele Kombinationen auszuprobieren.
Stattdessen sollten Sie die Scikit-Learn-Klasse GridSearchCV die Suche für Sie erledigen lassen. Sie müssen ihr lediglich sagen, mit welchen Hyperparametern Sie experimentieren möchten und welche Werte ausprobiert werden sollen. Dann werden alle möglichen Kombinationen von Hyperparametern über eine Kreuzvalidierung evaluiert.

43
Q

Was ist die Normalengleichung?

A

Um einen Wert für θ zu finden, der die Kostenfunktion minimiert, gibt es eine Lösung mit geschlossener Form – anders ausgedrückt, eine mathematische Gleichung, die uns das Ergebnis direkt liefert. Diese wird auch als die Normalengleichung bezeichnet

44
Q

Welche Ansätze gibt es zum Trainieren von linearer Regression?

A

Wir werden zwei unterschiedliche Ansätze zum Trainieren diskutieren:

  • Verwenden einer Gleichung mit »geschlossener Form«, die die für den Trainingsdatensatz idealen Modellparameter direkt berechnet (also die Modellparameter, die eine Kostenfunktion über die Trainingsdaten minimieren).
  • Verwenden eines iterativen Optimierungsverfahrens, des Gradientenverfahrens (GD), bei dem die Modellparameter schrittweise angepasst werden, um die Kostenfunktion über die Trainingsdaten zu minimieren und dabei möglicherweise die gleichen Parameter wie beim ersten Ansatz zu erhalten. Wir werden einige Varianten des Gradientenverfahrens betrachten, die uns bei den neuronalen Netzen in Teil II wieder und wieder begegnen werden: das Batch-Gradientenverfahren, das Mini-Batch-Gradientenverfahren und das stochastische Gradientenverfahren.
45
Q

Wie kann ich die partielle Ableitung intuitiv erklären?

A

Um das Gradientenverfahren zu implementieren, müssen Sie den Gradienten der Kostenfunktion nach jedem Modellparameter θj berechnen. Anders ausgedrückt müssen Sie berechnen, wie stark sich die Kostenfunktion ändert, wenn Sie θj ein wenig verändern. Dies nennt man eine partielle Ableitung. Sie verhält sich wie die Frage »Wie ist die Neigung des Bergs unter meinen Füßen, wenn ich mich nach Osten wende?«, um anschließend die gleiche Frage nach Norden gerichtet zu stellen (ebenso bei allen anderen Dimensionen, falls Sie sich ein Universum mit mehr als drei Dimensionen vorstellen können).

46
Q

Das stochastische Gradientenverfahren im Vergleich zum Batch-Gradientenverfahren?

A

Das Hauptproblem beim Batch-Gradientenverfahren ist, dass es bei jedem Schritt den gesamten Trainingsdatensatz zum Berechnen der Gradienten verwendet, wodurch es bei großen Trainingsdatensätzen sehr langsam wird. Das andere Extrem ist das stochastische Gradientenverfahren (SGD), das bei jedem Schritt nur einen Datenpunkt zufällig auswählt und nur für diesen Punkt die Gradienten berechnet. Natürlich wird dadurch der Algorithmus viel schneller, da in jeder Iteration nur sehr wenige Daten verändert werden müssen. Damit ist das Trainieren auf riesigen Datensätzen möglich, da pro Iteration nur ein Datenpunkt verändert werden muss (SGD lässt sich auch als Out-of-Core-Algorithmus implementieren).

47
Q

Was sind Lernkurven?

A

Diese Diagramme zeigen die Leistung des Modells auf den Trainings- und den Validierungsdaten über der Größe des Trainingsdatensatzes.

48
Q

Das Gleichgewicht zwischen Bias und Varianz

A

Ein wichtiges theoretisches Ergebnis aus der Statistik und dem Machine Learning ist, dass sich der Verallgemeinerungsfehler eines Modells als Summe dreier sehr unterschiedlicher Fehler ausdrücken lässt:
Bias: Dieser Teil des Verallgemeinerungsfehlers wird durch falsche Annahmen verursacht, etwa die Annahme, dass die Daten linear sind, obwohl sie sich quadratisch verhalten. Ein Modell mit hohem Bias wird die Trainingsdaten vermutlich underfitten.

Varianz: Dieser Teil kommt durch übermäßige Empfindlichkeit des Modells für kleine Variationen in den Trainingsdaten zustande. Ein Modell mit vielen Freiheitsgraden (wie etwa ein höhergradiges Polynom) hat vermutlich eine hohe Varianz und overfittet daher die Trainingsdaten leichter.
Nicht reduzierbare Fehler: Dieser Teil ist durch das Rauschen in den Daten selbst bedingt. Die einzige Möglichkeit, diesen Fehleranteil zu verringern, ist, die Daten zu säubern (z.B. die Datenquellen zu reparieren (wie etwa beschädigte Sensoren) oder Ausreißer zu erkennen und zu entfernen).
Das Steigern der Komplexität eines Modells erhöht meistens dessen Varianz und senkt dessen Bias. Umgekehrt erhöht eine geringere Komplexität des Modells dessen Bias und senkt die Varianz. Deshalb nennt man dies ein Gleichgewicht.

49
Q

Was ist Softmax-Regression?

A

Das logistische Regressionsmodell lässt sich direkt auf mehrere Kategorien verallgemeinern, ohne dass man mehrere binäre Klassifikatoren trainieren und miteinander kombinieren muss. Dies nennt man Softmax-Regression oder multinomiale logistische Regression.

50
Q

Kann ich Softmax-Regression für die Erkennung von mehreren Personen im gleichen Bild verwenden?

A

Die Klassifikation mit Softmax-Regression sagt zeitgleich nur eine Kategorie vorher (sie arbeitet mit mehreren Kategorien, nicht mehreren Ausgaben). Sie sollte also nur verwendet werden, wenn sich die Kategorien gegenseitig ausschließen, wie etwa bei Pflanzenarten. Sie können sie also nicht dazu verwenden, um mehrere Personen im gleichen Bild zu erkennen.

51
Q

Was bestimme ich mit der Kreuz-Entropie?

A

Damit quantifiziere ich den Unterschied zwischen zwei Wahrscheinlichkeitsverteilungen.