Machine Learning KLAUSUR Flashcards
- Perceptrons (One-Layer, Multi-Layer, etc) (16 cards)
Machine Learning Process
- Datenerfassung und -aufbereitung 2. Feature-Auswahl 3. Wahl des Algorithmus 4. Parameter- und Modellauswahl 5. Training 6. Auswertung
Terminology
Inputs: x Weights: W (gewichtete Verbindung zwischen den Knoten. Analogie zu den Synapsen im Gehirn) Outputs: y (abhängig vom Input und dem Gewicht des Neurons) Targets: t (sind die zusätzlichen Daten, die wir für das überwachte Lernen benötigen, da sie die richtigen Antworten liefern, über die der Algorithmus lernt) Activation function: g(.) (Beschreibt das Feuern der Neuronen als Antwort auf das gewichtete Input - so wie der Schwellenwert) Error: E
Wie läuft das Lernen im Gehirn ab?
Das wichtigste Konzept ist die Plastizität: die Veränderung der Stärke der synaptischen Verbindungen zwischen Neuronen und die Schaffung neuer Verbindungen.
Hebb’s Rule
- Änderungen in der Stärke der synaptischen Verbindungen
- wenn zwei Neuronen ständig gleichzeitig feuern, dann wird ihre Verbindung stärker
- wenn die Neuronen nie gleichzeitig feuern, dann stirbt die Verbindung zwischen ihnen ab
- Die Idee dahinter ist, dass wenn zwei Neuronen beide auf etwas reagieren, dann sollten sie verbunden sein.
Beispiel: Großmutter zu Besuch mit Schokolade. Neuronen werden angeregt und sind glücklich, weil wir den Geschmack von Schokolade mögen. Die Verbindung der Neuronen wird mit der Zeit immer stärker weil sie gleichzeitig feuern. Das bedeutet, dass wenn wir ein Bild von Großmutter sehen, auch automatisch an Schokolade und den Geschmack denken. Pavlov nannte dies classical conditioning
McCulloch und Pitts Neurons
Der Zweck dieses Modells besteht darin, dass es nur das Nötigste extrahiert, um die Entität, um die es geht, genau darzustellen, und die überflüssigen Details entfernt. Das Neuron wird modelliert als: 1) einen Satz gewichteter Eingänge (w; die den Synapsen zugeordnet). 2) einen Addierer (der die Eingangssignale summiert - h) 3) eine Aktivierungsfunktion (zunächst eine Schwellenwertfunktion, die entscheidet, ob das Neuron bei den aktuellen Eingaben feuert (“spikes”))
Überwachtes Lernen
Dem Algorithmus wird ein Beispieldatensatz vorgegeben. Dieser enthält Daten, die bereits in bestimmte Kategorien (Cluster) eingeteilt sind (labeled data). Gut geeignet, um Klassifizierungen vorzunehmen, d. h. die Daten anhand von vorgegebenen Kategorien einzuteilen.
Motivation des Multi-layer Perceptron
- lineare Modelle sind einfach zu verstehen und zu verwenden - aber lineare Modelle können nur gerade Linien, Ebenen oder Hyperebenen. - Die meisten interessanten Probleme sind jedoch nicht linear trennbar. - Die Lösung ist das Hinzufügen von Neuronen zwischen den Eingangsknoten und den Ausgängen
XOR (exclusive or gate) mit dem MLP
Ein XOR ist ein digitales Logikgatter, das nur dann einen wahren Ausgang liefert, wenn sich seine beiden Eingänge voneinander unterscheiden.
Die Eingabe (1, 0) entspricht dem Knoten A mit dem Wert 1 und B mit dem Wert 0. Die Eingabe für Neuron C ist also -1 × 0,5 + 1 × 1 + 0 × 1 = -0,5 + 1 = 0,5. Dies liegt über dem Schwellenwert von 0, so dass Neuron C feuert und die Ausgabe 1 liefert. Für Neuron D ist die Eingabe -1 × 1 + 1 × 1 + 0 × 1 = -1 + 1 = 0, so dass es nicht feuert und die Ausgabe 0 liefert. Daher ist die Eingabe für Neuron E -1 × 0,5 + 1 × 1 + 0 × -1 = 0,5, so dass Neuron E feuert.
Das Überprüfen des Ergebnisses der Eingaben sollte Sie davon überzeugen, dass Neuron E feuert, wenn die Eingaben A und B unterschiedlich sind, aber nicht feuert, wenn sie gleich sind.
Bild: MLP Perceptron Netzwerk zeigt ein set von Gewichten die das XOR Problem lösen

Herausforderung für das Training des MLP
- Wie können wir dieses Netzwerk so trainieren, dass die Gewichte so angepasst werden, dass sie die richtigen (Ziel-)Antworten erzeugen?
- die für das Perceptron verwendete Methode erfordert die Berechnung des Fehlers am Ausgang.
- wir wissen nicht, welche Gewichte falsch waren: die in der ersten Schicht, oder die in der zweiten?
- wir wissen auch nicht, was die richtigen Aktivierungen für die Neuronen in der Mitte des Netzes sind.
- Diese Tatsache gibt den Neuronen in der Mitte des Netzes ihren Namen; man nennt sie die versteckte Schicht (oder Schichten), weil es nicht möglich ist, ihre Werte direkt zu untersuchen und zu korrigieren.
Gradienten-dezente Methode
Die Gewichte des Netzes werden so trainiert, dass der Fehler bergab geht, bis er ein lokales Minimum erreicht, genau wie ein Ball, der unter der Schwerkraft rollt.
Das lokale Minimum ist der Ort, an dem der Fehler klein ist, und das ist genau das, was wir wollen.

Differenzierbare Aktivierungsfunktion
Bild 4.4: die Schwellenwertfunktion, die wir für das Perzeptron verwendet haben. Nicht die Diskontinuität, bei der der Wert von 0 auf 1 wechselt.
Buld 4.5: Die Sigmoid-Funktion, die qualitativ ziemlich ähnlich aussieht, aber sanft und differenzierbar variiert.
Fallbeispiel KI 1 - Sales Forecast für einen Supermarkt
- Supermarkt versucht, wöchentliche Verkaufszahlen vorherzusagen
- Ziel ist es, die Einkaufsplanung besser einschätzen zu können
- u.a. können Faktoren wie z.B. Feiertage einen besonderen Einfluss auf das Einkaufsverhalten der Einwohner haben
Umsetzung:
- Nutzung verfügbarer Daten (z.B.: StoreNr, Konsumentenpreis, Feiertag, Arbeitslosenrate, etc)
- Target könnten wöchentliche Verkaufsraten sein
Einsatz KI:
- Fragestellung des Supervised Learning
- Aus einem Featureraum wird versucht den wöchentlichen Umsatz vorherzusagen basierend auf bereits vorhandenen historischen Datensätzen
- Merkmale wie Wochentag oder ob heute ein Feiertag ist, könnten größeren Einfluss als die Temperatur haben → Feature Selection
Vorteile:
- geeignet um zeitliche Zusammenhänge zu erkennen
- besonders gut, um Informationen über einen längeren Zeitraum vorherzusagen
Fallbeispiel 2 KI - Smarter Staubsaugerroboter
Ziel für Entnutzer
- Immer saubere Wohnung, intuitive Reinigung
- Durch intelligentes Kamerasystem, weiß der Roboter, wo genau sauber gemacht werden soll
- Steuerung per Sprachkommando möglich
Einsatz KI
- Convolutional Neural Network für Bilderkennung - Verschmutzung wird erkannt
- Entscheidungsbaum verarbeitet die Informationen und Roboter erhält automatisch den Befehl, dort sauber zu machen oder nicht
Vorteil
- bereits genutzte Technologie in diversen Märkten und somit technologisch keine Barrieren in der Nutzung der KI
- Entscheidungsbäume sind meist recht einfach aufzusetzen
Nachteil
- eine große Anzahl an Bildern wird benötigt, um das System zu trainieren
- Trainingsphase und labeln könnte recht lange dauern
- potentielle Hacking threats
MLP - Was ist die Gefahr bei zu vielen Endknoten?
Trennflächen: Wenn ich 2 Merkmale mit unterschiedlichen Schwirigkeitsgeraden habe und 2 Hiddenknoten. Wie sieht die Trennfläche aus? Bananenförmig? warum?
- Aus 2 Reihen zusammengesetzt
- fließender Übergang mit Sigmuid