expanded_flashcards_ml
(36 cards)
k-średnich
Algorytm grupujący dane na podstawie odległości od centroidów. Wykorzystuje iteracyjny proces przypisywania punktów danych do najbliższego centroidu i aktualizowania pozycji centroidów aż do zbieżności.
Centroid
Środek klastra reprezentujący jego punkt centralny. W algorytmie k-średnich centroid jest obliczany jako średnia wartość wszystkich punktów przypisanych do danego klastra.
Metoda łokcia
Metoda stosowana do określenia optymalnej liczby klastrów w algorytmie k-średnich. Polega na analizie wykresu sumy odległości w klastrach w zależności od liczby klastrów, szukając punktu załamania przypominającego łokieć.
Rodzaje klastrowania
Metody klastrowania obejmują klastrowanie partycjonujące (np. k-średnich), hierarchiczne (np. aglomeracyjne), gęstościowe (np. DBSCAN) i metody oparte na siatkach.
Tworzenie klastrów
Proces polegający na grupowaniu danych na podstawie podobieństwa. Może być realizowany przez iteracyjne przypisywanie punktów do klastrów lub wykorzystanie modelowania probabilistycznego.
Metody asocjacyjne
Techniki eksploracji danych, które identyfikują związki między różnymi elementami w dużych zbiorach danych. Przykładem jest analiza koszyka zakupowego.
Zbieranie danych
Pierwszy etap cyklu życia projektu uczenia maszynowego, polegający na gromadzeniu danych z różnych źródeł, takich jak bazy danych, API czy dane strumieniowe.
Przetwarzanie danych
Etap przygotowania danych do analizy, obejmujący czyszczenie, wypełnianie brakujących wartości, usuwanie szumów oraz tworzenie nowych cech.
Modelowanie
Budowanie i trenowanie modelu na przygotowanych danych. Ten etap obejmuje wybór odpowiedniego algorytmu, dostrajanie hiperparametrów i ewaluację wyników.
Weryfikacja
Proces sprawdzania poprawności modelu na danych testowych. Obejmuje analizę metryk ewaluacyjnych i porównanie wyników z oczekiwaniami.
Wdrażanie
Ostatni etap, w którym model jest wprowadzany do użytku w systemach produkcyjnych, często z wykorzystaniem kontenerów lub mikroserwisów.
Monitorowanie
Proces śledzenia działania modelu w czasie rzeczywistym, obejmujący analizę wydajności i wykrywanie dryfu danych.
Regresja liniowa
Model przewidujący wartości ciągłe na podstawie zależności liniowej między zmienną niezależną a zależną. Jest to jeden z najprostszych algorytmów uczenia maszynowego.
Metoda malejącego gradientu
Algorytm optymalizacyjny minimalizujący funkcję kosztu poprzez iteracyjne aktualizowanie wag modelu zgodnie z kierunkiem najszybszego spadku funkcji kosztu.
Learning rate
Parametr kontrolujący wielkość kroku optymalizacyjnego w metodzie gradientu. Zbyt duża wartość może prowadzić do niestabilności, a zbyt mała do wolnej zbieżności.
Regresja wieloskładnikowa
Rozszerzenie regresji liniowej, w którym model przewiduje zmienną zależną na podstawie wielu cech wejściowych.
Cecha
Indywidualna właściwość lub kolumna danych wykorzystywana jako wejście do modelu. Cechy mogą być numeryczne, kategoryczne lub tekstowe.
Normalizacja vs standaryzacja
Normalizacja skaluje dane do przedziału 0–1, podczas gdy standaryzacja przekształca dane do rozkładu o średniej 0 i odchyleniu standardowym 1.
Niedotrenowanie
Stan, w którym model nie jest w stanie uchwycić wystarczająco wzorców w danych treningowych, co prowadzi do niskiej dokładności zarówno na danych treningowych, jak i testowych.
Przetrenowanie
Model zbyt dobrze dopasowuje się do danych treningowych, co skutkuje słabymi wynikami na danych testowych. Jest to jeden z kluczowych problemów w uczeniu maszynowym.
Zapobieganie przetrenowaniu
Techniki takie jak regularyzacja, dropout, użycie większego zbioru danych oraz walidacja krzyżowa pomagają w zapobieganiu przetrenowaniu.
Regularyzacja
Technika dodająca karę za złożoność modelu do funkcji kosztu, aby zapobiec przetrenowaniu. Może obejmować L1, L2 lub inne metody.
Dropout
Metoda regularizacji w sieciach neuronowych, polegająca na losowym wyłączaniu części neuronów podczas treningu.
Walidacja krzyżowa
Technika oceny modelu poprzez podzielenie danych na wiele podzbiorów i iteracyjne trenowanie i testowanie modelu na różnych zestawach danych.