Lesson_5 K Means Clustering Flashcards
(25 cards)
Welche Arten des maschinellen Lernens gibt es?
- Überwachtes Lernen (Supervised Learning)
- Unüberwachtes Lernen (Unsupervised Learning)
- Reinforcement Learning
Was ist die lineare Regression?
Eine Methode zur Vorhersage eines Zielwertes (abhängige Variable) anhand von unabhängigen Beobachtungen.
Vorhersagefunktion: ( h_{ heta}(x) = heta_0 + heta_1 \cdot x )
Was ist der Mean Squared Error (MSE)?
Der MSE misst die durchschnittliche quadratische Abweichung der vorhergesagten Werte von den tatsächlichen Werten:
( MSE = \frac{1}{2m} \sum_{i=1}^{m} (h_{ heta}(x^{(i)}) - y^{(i)})^2 )
Was ist der Gradient Descent-Algorithmus?
Ein iterativer Algorithmus, der den Gradienten der Kostenfunktion nutzt, um die Parameter ( \theta ) zu aktualisieren und die Kostenfunktion zu minimieren.
Wie werden Daten im maschinellen Lernen aufgeteilt?
- Trainingsset: Zum Erstellen des Modells.
- Validationsset: Zum Testen verschiedener Modelle.
- Testset: Zum Evaluieren des fertigen Modells.
Was ist die Hypothese der logistischen Regression?
Die Hypothese der logistischen Regression nutzt die Sigmoid-Funktion:
( g(z) = \frac{1}{1 + e^{-z}} ).
Diese Funktion gibt Wahrscheinlichkeiten zurück und wird zur Klassifikation verwendet.
Was ist die Kostenfunktion der logistischen Regression?
Die Kostenfunktion basiert auf der Kreuzentropie:
( CE(h_{\theta}(x), y) = -y \log(h_{\theta}(x)) - (1-y) \log(1 - h_{\theta}(x)) ).
Die Funktion wird genutzt, um die Differenz zwischen den vorhergesagten und den tatsächlichen Werten zu berechnen.
Was ist Regularisierung?
Regularisierung hilft, Overfitting zu verhindern, indem sie die Größe der Parameter ( \theta ) reduziert. Dies geschieht durch Hinzufügen eines Regularisierungsterms zur Kostenfunktion:
( J(\theta) = \frac{1}{2m} \sum(h_{\theta}(x^{(i)}) - y^{(i)})^2 + \frac{\lambda}{2m} \sum \theta_j^2 ).
Was ist der ‘One vs. All’ Ansatz?
Beim ‘One vs. All’-Ansatz wird für jede Klasse ein Klassifizierer trainiert, der entscheidet, ob ein Beispiel zu dieser Klasse gehört oder nicht. Für ein neues Beispiel wird der Klassifizierer mit der höchsten Wahrscheinlichkeit gewählt.
Was ist die Softmax-Regression?
Die Softmax-Regression erweitert die logistische Regression auf mehrere Klassen. Jede Klasse erhält eine Wahrscheinlichkeit, die durch die Softmax-Funktion berechnet wird:
( \text{SoMa}(y_k) = \frac{e^{y_k}}{\sum_{i=1}^{K} e^{y_i}} ).
Wie ist die Geschichte neuronaler Netze?
- Inspiriert von der Funktionsweise des menschlichen Gehirns.
- Seit den 80er Jahren populär, mit einer Pause in den 90ern.
- Heute sind neuronale Netze eine der populärsten Klassen von Algorithmen im maschinellen Lernen.
Wie ist die Grundstruktur neuronaler Netze?
Neuronale Netze bestehen aus:
- Eingabeschicht (Input-Layer)
- Eine oder mehrere versteckte Schichten (Hidden-Layers)
- Ausgabeschicht (Output-Layer)
Sie bestehen aus vielen einfachen Neuronen, die in Schichten angeordnet sind.
Was ist Forward Propagation?
Forward Propagation bezeichnet die Berechnung der Aktivierungen in einem neuronalen Netz, indem die Eingabewerte durch das Netz propagiert werden, um die Vorhersage zu machen.
Es handelt sich um den Prozess der Vorwärtsausbreitung der Daten durch die Schichten des Netzes.
Was ist eine Aktivierungsfunktion?
Aktivierungsfunktionen bestimmen, ob ein Neuron aktiviert wird. Übliche Funktionen sind:
- Sigmoid-Funktion: ( g(z) = \frac{1}{1 + e^{-z}} )
- Softmax-Funktion: Verwendet für Multi-Class Klassifikation zur Ausgabe von Wahrscheinlichkeiten.
Was ist ein künstliches Neuron?
Ein künstliches Neuron simuliert die Funktion eines biologischen Neurons. Es berechnet eine gewichtete Summe der Eingaben und verwendet eine Aktivierungsfunktion, um das Ergebnis zu bestimmen.
Formel: ( h_{\theta}(x) = g(\theta^T x) ).
Was ist die Kostenfunktion für neuronale Netze?
Die Kostenfunktion für neuronale Netze lautet:
( J(Θ) = -\frac{1}{m} \sum_{i=1}^{m} \sum_{k=1}^{K} \left[ y_k^{(i)} \log(h_Θ(x^{(i)})k) \right] + \frac{\lambda}{2m} \sum{l=1}^{L-1} \sum_{i=1}^{s_l} \sum_{j=1}^{s_{l+1}} \left( Θ_{j,i}^{(l)} \right)^2 ).
Was ist der Backpropagation-Algorithmus?
Backpropagation ist ein Algorithmus, der den Fehler eines neuronalen Netzes rückwärts durch die Schichten propagiert, um die Gradienten der Kostenfunktion bezüglich der Gewichte zu berechnen.
Was ist Forward Propagation in neuronalen Netzen?
Forward Propagation bezeichnet den Prozess, bei dem die Eingabedaten durch das neuronale Netz weitergeleitet werden, um die Vorhersage ( h_Θ(x) ) zu berechnen.
Warum müssen die Gewichte zufällig initialisiert werden?
Wenn alle Gewichte auf 0 gesetzt werden, lernen die Neuronen in einer Schicht identische Funktionen. Daher werden die Gewichte zufällig im Intervall ( [-ε, ε] ) initialisiert, um symmetriebrechendes Lernen zu ermöglichen.
Welche Aktivierungsfunktionen werden in neuronalen Netzen verwendet?
Übliche Aktivierungsfunktionen sind:
- Sigmoid-Funktion: ( g(z) = \frac{1}{1 + e^{-z}} )
- ReLU (Rectified Linear Unit): ( g(z) = \max(0, z) )
- Tangens hyperbolicus (TanH): ( g(z) = \frac{e^z - e^{-z}}{e^z + e^{-z}} )
Was ist die Idee hinter Support Vector Machines (SVM)?
SVMs versuchen, eine hyperplane zu finden, die die Datenpunkte zweier Klassen mit einem maximalen Abstand (Margin) trennt.
Wie lautet die Kostenfunktion für Support Vector Machines?
Die Kostenfunktion für SVMs basiert auf dem Hinge-Loss:
( J(θ) = \frac{1}{m} \sum_{i=1}^{m} [y^{(i)} cost1(h_{θ}(x^{(i)})) + (1 - y^{(i)}) cost0(h_{θ}(x^{(i)})) ] + \frac{1}{2} \sum_{j=1}^{n} θ_j^2 ).
Wie funktioniert der K-means Algorithmus?
Der K-means Algorithmus teilt die Daten in K Cluster. Der Ablauf:
1. Initialisiere zufällig K Cluster-Zentren.
2. Ordne jedes Sample dem nächsten Zentrum zu.
3. Aktualisiere die Zentren als Mittelwert der zugewiesenen Samples.
4. Wiederhole bis zur Konvergenz.
Was ist der Gauß-Kernel in SVMs?
Der Gauß-Kernel misst die Ähnlichkeit zwischen zwei Punkten x und l mit:
( f(x, l) = \exp \left( - \frac{||x - l||^2}{2σ^2} \right) ).
Je näher die Punkte beieinander liegen, desto größer ist der Wert.