Lesson_5 K Means Clustering Flashcards by Hasan Vural

Welche Arten des maschinellen Lernens gibt es?

Überwachtes Lernen (Supervised Learning)
Unüberwachtes Lernen (Unsupervised Learning)
Reinforcement Learning

How well did you know this?

Not at all

Perfectly

Was ist die lineare Regression?

Eine Methode zur Vorhersage eines Zielwertes (abhängige Variable) anhand von unabhängigen Beobachtungen.

Vorhersagefunktion: ( h_{ heta}(x) = heta_0 + heta_1 \cdot x )

How well did you know this?

Not at all

Perfectly

Was ist der Mean Squared Error (MSE)?

Der MSE misst die durchschnittliche quadratische Abweichung der vorhergesagten Werte von den tatsächlichen Werten:

( MSE = \frac{1}{2m} \sum_{i=1}^{m} (h_{ heta}(x^{(i)}) - y^{(i)})^2 )

How well did you know this?

Not at all

Perfectly

Was ist der Gradient Descent-Algorithmus?

Ein iterativer Algorithmus, der den Gradienten der Kostenfunktion nutzt, um die Parameter ( \theta ) zu aktualisieren und die Kostenfunktion zu minimieren.

How well did you know this?

Not at all

Perfectly

Wie werden Daten im maschinellen Lernen aufgeteilt?

Trainingsset: Zum Erstellen des Modells.
Validationsset: Zum Testen verschiedener Modelle.
Testset: Zum Evaluieren des fertigen Modells.

How well did you know this?

Not at all

Perfectly

Was ist die Hypothese der logistischen Regression?

Die Hypothese der logistischen Regression nutzt die Sigmoid-Funktion:

( g(z) = \frac{1}{1 + e^{-z}} ).
Diese Funktion gibt Wahrscheinlichkeiten zurück und wird zur Klassifikation verwendet.

How well did you know this?

Not at all

Perfectly

Was ist die Kostenfunktion der logistischen Regression?

Die Kostenfunktion basiert auf der Kreuzentropie:

( CE(h_{\theta}(x), y) = -y \log(h_{\theta}(x)) - (1-y) \log(1 - h_{\theta}(x)) ).
Die Funktion wird genutzt, um die Differenz zwischen den vorhergesagten und den tatsächlichen Werten zu berechnen.

How well did you know this?

Not at all

Perfectly

Was ist Regularisierung?

Regularisierung hilft, Overfitting zu verhindern, indem sie die Größe der Parameter ( \theta ) reduziert. Dies geschieht durch Hinzufügen eines Regularisierungsterms zur Kostenfunktion:

( J(\theta) = \frac{1}{2m} \sum(h_{\theta}(x^{(i)}) - y^{(i)})^2 + \frac{\lambda}{2m} \sum \theta_j^2 ).

How well did you know this?

Not at all

Perfectly

Was ist der ‘One vs. All’ Ansatz?

Beim ‘One vs. All’-Ansatz wird für jede Klasse ein Klassifizierer trainiert, der entscheidet, ob ein Beispiel zu dieser Klasse gehört oder nicht. Für ein neues Beispiel wird der Klassifizierer mit der höchsten Wahrscheinlichkeit gewählt.

How well did you know this?

Not at all

Perfectly

Was ist die Softmax-Regression?

Die Softmax-Regression erweitert die logistische Regression auf mehrere Klassen. Jede Klasse erhält eine Wahrscheinlichkeit, die durch die Softmax-Funktion berechnet wird:

( \text{SoMa}(y_k) = \frac{e^{y_k}}{\sum_{i=1}^{K} e^{y_i}} ).

How well did you know this?

Not at all

Perfectly

Wie ist die Geschichte neuronaler Netze?

Inspiriert von der Funktionsweise des menschlichen Gehirns.
Seit den 80er Jahren populär, mit einer Pause in den 90ern.
Heute sind neuronale Netze eine der populärsten Klassen von Algorithmen im maschinellen Lernen.

How well did you know this?

Not at all

Perfectly

Wie ist die Grundstruktur neuronaler Netze?

Neuronale Netze bestehen aus:
- Eingabeschicht (Input-Layer)
- Eine oder mehrere versteckte Schichten (Hidden-Layers)
- Ausgabeschicht (Output-Layer)
Sie bestehen aus vielen einfachen Neuronen, die in Schichten angeordnet sind.

How well did you know this?

Not at all

Perfectly

Was ist Forward Propagation?

Forward Propagation bezeichnet die Berechnung der Aktivierungen in einem neuronalen Netz, indem die Eingabewerte durch das Netz propagiert werden, um die Vorhersage zu machen.
Es handelt sich um den Prozess der Vorwärtsausbreitung der Daten durch die Schichten des Netzes.

How well did you know this?

Not at all

Perfectly

Was ist eine Aktivierungsfunktion?

Aktivierungsfunktionen bestimmen, ob ein Neuron aktiviert wird. Übliche Funktionen sind:
- Sigmoid-Funktion: ( g(z) = \frac{1}{1 + e^{-z}} )
- Softmax-Funktion: Verwendet für Multi-Class Klassifikation zur Ausgabe von Wahrscheinlichkeiten.

How well did you know this?

Not at all

Perfectly

Was ist ein künstliches Neuron?

Ein künstliches Neuron simuliert die Funktion eines biologischen Neurons. Es berechnet eine gewichtete Summe der Eingaben und verwendet eine Aktivierungsfunktion, um das Ergebnis zu bestimmen.
Formel: ( h_{\theta}(x) = g(\theta^T x) ).

How well did you know this?

Not at all

Perfectly

Was ist die Kostenfunktion für neuronale Netze?

Study These Flashcards

Die Kostenfunktion für neuronale Netze lautet:

( J(Θ) = -\frac{1}{m} \sum_{i=1}^{m} \sum_{k=1}^{K} \left[ y_k^{(i)} \log(h_Θ(x^{(i)})k) \right] + \frac{\lambda}{2m} \sum{l=1}^{L-1} \sum_{i=1}^{s_l} \sum_{j=1}^{s_{l+1}} \left( Θ_{j,i}^{(l)} \right)^2 ).

Was ist der Backpropagation-Algorithmus?

Study These Flashcards

Backpropagation ist ein Algorithmus, der den Fehler eines neuronalen Netzes rückwärts durch die Schichten propagiert, um die Gradienten der Kostenfunktion bezüglich der Gewichte zu berechnen.

Was ist Forward Propagation in neuronalen Netzen?

Study These Flashcards

Forward Propagation bezeichnet den Prozess, bei dem die Eingabedaten durch das neuronale Netz weitergeleitet werden, um die Vorhersage ( h_Θ(x) ) zu berechnen.

Warum müssen die Gewichte zufällig initialisiert werden?

Study These Flashcards

Wenn alle Gewichte auf 0 gesetzt werden, lernen die Neuronen in einer Schicht identische Funktionen. Daher werden die Gewichte zufällig im Intervall ( [-ε, ε] ) initialisiert, um symmetriebrechendes Lernen zu ermöglichen.

Welche Aktivierungsfunktionen werden in neuronalen Netzen verwendet?

Study These Flashcards

Übliche Aktivierungsfunktionen sind:
- Sigmoid-Funktion: ( g(z) = \frac{1}{1 + e^{-z}} )
- ReLU (Rectified Linear Unit): ( g(z) = \max(0, z) )
- Tangens hyperbolicus (TanH): ( g(z) = \frac{e^z - e^{-z}}{e^z + e^{-z}} )

Was ist die Idee hinter Support Vector Machines (SVM)?

Study These Flashcards

SVMs versuchen, eine hyperplane zu finden, die die Datenpunkte zweier Klassen mit einem maximalen Abstand (Margin) trennt.

Wie lautet die Kostenfunktion für Support Vector Machines?

Study These Flashcards

Die Kostenfunktion für SVMs basiert auf dem Hinge-Loss:

( J(θ) = \frac{1}{m} \sum_{i=1}^{m} [y^{(i)} cost1(h_{θ}(x^{(i)})) + (1 - y^{(i)}) cost0(h_{θ}(x^{(i)})) ] + \frac{1}{2} \sum_{j=1}^{n} θ_j^2 ).

Wie funktioniert der K-means Algorithmus?

Study These Flashcards

Der K-means Algorithmus teilt die Daten in K Cluster. Der Ablauf:
1. Initialisiere zufällig K Cluster-Zentren.
2. Ordne jedes Sample dem nächsten Zentrum zu.
3. Aktualisiere die Zentren als Mittelwert der zugewiesenen Samples.
4. Wiederhole bis zur Konvergenz.

Was ist der Gauß-Kernel in SVMs?

Study These Flashcards

Der Gauß-Kernel misst die Ähnlichkeit zwischen zwei Punkten x und l mit:

( f(x, l) = \exp \left( - \frac{||x - l||^2}{2σ^2} \right) ).
Je näher die Punkte beieinander liegen, desto größer ist der Wert.

Warum ist Feature Scaling bei SVMs wichtig?

Feature Scaling ist entscheidend, da SVMs die Distanz zwischen Datenpunkten berechnen. Ohne Skalierung könnten einige Dimensionen überproportionalen Einfluss auf die Klassifizierung haben.

Lesson_5 K Means Clustering Flashcards

(25 cards)