expanded_flashcards_ml

(36 cards)

1
Q

k-średnich

A

Algorytm grupujący dane na podstawie odległości od centroidów. Wykorzystuje iteracyjny proces przypisywania punktów danych do najbliższego centroidu i aktualizowania pozycji centroidów aż do zbieżności.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Centroid

A

Środek klastra reprezentujący jego punkt centralny. W algorytmie k-średnich centroid jest obliczany jako średnia wartość wszystkich punktów przypisanych do danego klastra.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Metoda łokcia

A

Metoda stosowana do określenia optymalnej liczby klastrów w algorytmie k-średnich. Polega na analizie wykresu sumy odległości w klastrach w zależności od liczby klastrów, szukając punktu załamania przypominającego łokieć.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Rodzaje klastrowania

A

Metody klastrowania obejmują klastrowanie partycjonujące (np. k-średnich), hierarchiczne (np. aglomeracyjne), gęstościowe (np. DBSCAN) i metody oparte na siatkach.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Tworzenie klastrów

A

Proces polegający na grupowaniu danych na podstawie podobieństwa. Może być realizowany przez iteracyjne przypisywanie punktów do klastrów lub wykorzystanie modelowania probabilistycznego.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Metody asocjacyjne

A

Techniki eksploracji danych, które identyfikują związki między różnymi elementami w dużych zbiorach danych. Przykładem jest analiza koszyka zakupowego.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Zbieranie danych

A

Pierwszy etap cyklu życia projektu uczenia maszynowego, polegający na gromadzeniu danych z różnych źródeł, takich jak bazy danych, API czy dane strumieniowe.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Przetwarzanie danych

A

Etap przygotowania danych do analizy, obejmujący czyszczenie, wypełnianie brakujących wartości, usuwanie szumów oraz tworzenie nowych cech.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Modelowanie

A

Budowanie i trenowanie modelu na przygotowanych danych. Ten etap obejmuje wybór odpowiedniego algorytmu, dostrajanie hiperparametrów i ewaluację wyników.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Weryfikacja

A

Proces sprawdzania poprawności modelu na danych testowych. Obejmuje analizę metryk ewaluacyjnych i porównanie wyników z oczekiwaniami.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Wdrażanie

A

Ostatni etap, w którym model jest wprowadzany do użytku w systemach produkcyjnych, często z wykorzystaniem kontenerów lub mikroserwisów.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Monitorowanie

A

Proces śledzenia działania modelu w czasie rzeczywistym, obejmujący analizę wydajności i wykrywanie dryfu danych.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Regresja liniowa

A

Model przewidujący wartości ciągłe na podstawie zależności liniowej między zmienną niezależną a zależną. Jest to jeden z najprostszych algorytmów uczenia maszynowego.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Metoda malejącego gradientu

A

Algorytm optymalizacyjny minimalizujący funkcję kosztu poprzez iteracyjne aktualizowanie wag modelu zgodnie z kierunkiem najszybszego spadku funkcji kosztu.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Learning rate

A

Parametr kontrolujący wielkość kroku optymalizacyjnego w metodzie gradientu. Zbyt duża wartość może prowadzić do niestabilności, a zbyt mała do wolnej zbieżności.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Regresja wieloskładnikowa

A

Rozszerzenie regresji liniowej, w którym model przewiduje zmienną zależną na podstawie wielu cech wejściowych.

17
Q

Cecha

A

Indywidualna właściwość lub kolumna danych wykorzystywana jako wejście do modelu. Cechy mogą być numeryczne, kategoryczne lub tekstowe.

18
Q

Normalizacja vs standaryzacja

A

Normalizacja skaluje dane do przedziału 0–1, podczas gdy standaryzacja przekształca dane do rozkładu o średniej 0 i odchyleniu standardowym 1.

19
Q

Niedotrenowanie

A

Stan, w którym model nie jest w stanie uchwycić wystarczająco wzorców w danych treningowych, co prowadzi do niskiej dokładności zarówno na danych treningowych, jak i testowych.

20
Q

Przetrenowanie

A

Model zbyt dobrze dopasowuje się do danych treningowych, co skutkuje słabymi wynikami na danych testowych. Jest to jeden z kluczowych problemów w uczeniu maszynowym.

21
Q

Zapobieganie przetrenowaniu

A

Techniki takie jak regularyzacja, dropout, użycie większego zbioru danych oraz walidacja krzyżowa pomagają w zapobieganiu przetrenowaniu.

22
Q

Regularyzacja

A

Technika dodająca karę za złożoność modelu do funkcji kosztu, aby zapobiec przetrenowaniu. Może obejmować L1, L2 lub inne metody.

23
Q

Dropout

A

Metoda regularizacji w sieciach neuronowych, polegająca na losowym wyłączaniu części neuronów podczas treningu.

24
Q

Walidacja krzyżowa

A

Technika oceny modelu poprzez podzielenie danych na wiele podzbiorów i iteracyjne trenowanie i testowanie modelu na różnych zestawach danych.

25
Jednostka logistyczna
Neuron w sieci z funkcją aktywacji sigmoidalnej, używany w zadaniach klasyfikacyjnych do przewidywania prawdopodobieństwa przynależności do danej klasy.
26
Warstwa ukryta
Część sieci neuronowej znajdująca się między warstwą wejściową a wyjściową, przetwarzająca dane wejściowe poprzez transformacje nieliniowe.
27
Warstwa wyjściowa
Generuje końcowe przewidywania modelu, zależnie od problemu może używać funkcji aktywacji jak softmax, sigmoida lub liniowej.
28
Precyzja
Stosunek poprawnie przewidzianych pozytywnych wyników do wszystkich przewidywanych pozytywnych wyników. Jest użyteczna w problemach, gdzie fałszywe alarmy są kosztowne.
29
Czułość
Stosunek poprawnie przewidzianych pozytywnych przypadków do wszystkich rzeczywistych pozytywnych przypadków. Ważna w sytuacjach, gdzie kluczowe jest wykrycie wszystkich przypadków danej klasy.
30
F1 Score
Harmoniczna średnia precyzji i czułości, używana, gdy ważne jest zrównoważenie między tymi dwiema metrykami.
31
Macierz pomyłek
Tablica podsumowująca wyniki klasyfikacji, pokazująca liczby prawdziwych pozytywnych, fałszywych pozytywnych, prawdziwych negatywnych i fałszywych negatywnych przewidywań.
32
Dokładność
Odsetek poprawnych przewidywań w stosunku do wszystkich przewidywań. Nie zawsze jest miarodajna przy nierównomiernym rozkładzie klas.
33
ROC Curve
Krzywa oceny klasyfikatora, która przedstawia zależność między czułością a 1-specyficznością dla różnych progów decyzyjnych.
34
Maszyna wektorów wsparcia
Algorytm klasyfikacyjny, który znajduje hiperprzestrzeń maksymalizującą margines między różnymi klasami.
35
Hiperpłaszczyzna
Granica decyzyjna w przestrzeni cech, która oddziela klasy danych. W przypadku SVM jest to linia maksymalizująca odległość od najbliższych punktów obu klas.
36
Kernel Trick
Technika w SVM umożliwiająca transformację danych do przestrzeni o wyższej wymiarowości, aby rozdzielić klasy nieliniowo separowalne.