Machine Learning Flashcards

Question

Pytanie: Jakie są różnice między uczeniem maszynowym a głębokim uczeniem?

Answer 1

Odpowiedź: Głębokie uczenie to podzbiór uczenia maszynowego, który korzysta z głębokich sieci neuronowych. Uczenie maszynowe może korzystać z różnorodnych algorytmów, niekoniecznie opartych na sieciach neuronowych.

Answer 2

**GAN** (Generative Adversarial Network, czyli Generatywna Sieć Adwersaryjna) to rodzaj algorytmu uczenia maszynowego zaprojektowanego do generowania nowych, wcześniej niewidzianych danych, które są podobne do pewnego zestawu danych treningowych. GAN został zaproponowany przez Iana Goodfellowa i jego współpracowników w 2014 roku. GAN składa się z dwóch sieci neuronowych, które są trenowane jednocześnie przez adwersaryjny proces: 1. **Generator**: Dąży do generowania danych. Bierze losowy szum jako wejście i generuje dane. 2. **Dyskryminator**: Dąży do rozróżniania między prawdziwymi danymi a danymi wygenerowanymi przez generator. **Proces treningu**: 1. Generator otrzymuje losowy szum i produkuje dane. 2. Dyskryminator ocenia, czy dane są prawdziwe (z prawdziwego zestawu danych) czy fałszywe (wygenerowane przez generator). 3. Błąd dyskryminatora jest następnie używany do trenowania generatora, aby poprawić jego zdolność do oszukiwania dyskryminatora. 4. Proces jest powtarzany wielokrotnie. Celem generatora jest oszukiwanie dyskryminatora, zmuszając go do klasyfikowania danych wygenerowanych jako prawdziwe. Celem dyskryminatora jest poprawne klasyfikowanie danych jako prawdziwe lub fałszywe. Gdy GAN jest odpowiednio wytrenowany, generator jest w stanie produkować dane, które są niemal nieodróżnialne od prawdziwych danych. **Zastosowania GAN**: - **Generowanie obrazów**: Tworzenie realistycznych obrazów, które wcześniej nie istniały (np. twarze ludzi). - **Sztuka i twórczość**: Generowanie muzyki, obrazów czy innych form sztuki. - **Super-rozdzielczość**: Poprawa jakości obrazów. - **Transfer stylu**: Przenoszenie stylu z jednego obrazu na inny. - **Generowanie danych**: Tworzenie syntetycznych zestawów danych dla treningu innych modeli. - **Symulacje i gry**: Generowanie realistycznych środowisk i postaci. GAN-y są potężnym narzędziem w dziedzinie uczenia maszynowego, ale mogą być trudne w treningu i wymagają starannego doboru architektury i parametrów.

Answer 3

Odpowiedź: Odpowiedź będzie zależała od doświadczenia kandydata. Może on opisać projekty związane z analizą tekstu, tłumaczeniem maszynowym, generowaniem tekstu itp.

Answer 4

Odpowiedź: Word embedding to technika przekształcania słów w wektory o stałej długości w taki sposób, że słowa o podobnym znaczeniu mają podobne wektory. Zalety to redukcja wymiarowości, uchwycenie kontekstualnych zależności między słowami i możliwość operacji na wektorach (np. król - mężczyzna + kobieta = królowa).

Answer 5

Odpowiedź: Do implementacji sieci neuronowych najczęściej używam TensorFlow (wraz z wysokopoziomowym API Keras) oraz PyTorch.

Answer 6

from keras.models import Sequential from keras.layers import Dense model = Sequential() model.add(Dense(32, input_dim=8, activation='relu')) model.add(Dense(16, activation='relu')) model.add(Dense(1, activation='sigmoid')) albo # model.add(Dense(units=10, activation='softmax')) Kompilacja modelu model.compile(optimizer='adam', loss='categorical_crossentropy', metrics=['accuracy']) Podsumowanie modelu model.summary() model.fit(... model.evaluate(... model.predict(

Answer 7

Odpowiedź: Można zastosować różne techniki, takie jak regularyzacja (L1, L2), dropout (w sieciach neuronowych) czy też zwiększenie ilości danych poprzez augmentację.

Answer 8

from sklearn.model_selection import train_test_split X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)

Answer 9

Odpowiedź: Dla klasyfikacji często używam categorical_crossentropy lub binary_crossentropy, a dla regresji mean_squared_error.

Answer 10

Odpowiedź: TensorFlow jest bardziej "statyczny" z predefiniowanym grafem obliczeń, podczas gdy PyTorch oferuje dynamiczny graf obliczeń, co jest bardziej intuicyjne i ułatwia debugowanie. TensorFlow ma silne wsparcie dla produkcji, podczas gdy PyTorch jest często preferowany w badaniach akademickich.

Answer 11

from keras.layers import Dropout model.add(Dropout(0.5))

Answer 12

from sklearn.preprocessing import StandardScaler scaler = StandardScaler() X_train_scaled = scaler.fit_transform(X_train) X_test_scaled = scaler.transform(X_test) W Pandas: df_normalized = (df - df.min()) / (df.max() - df.min()) df_standardized = (df - df.mean()) / df.std()

Answer 13

Odpowiedź: W obróbce obrazów często stosuje się obracanie, przesunięcie, zmianę skali, odbicie lustrzane, zmianę jasności i kontrastu czy też szum. Biblioteki takie jak ImageDataGenerator w Keras umożliwiają łatwą augmentację. Augmentacja danych to technika sztucznego zwiększania rozmiaru zestawu danych poprzez wprowadzenie niewielkich modyfikacji do oryginalnych danych. W kontekście przetwarzania obrazów, augmentacja jest często stosowana w celu zwiększenia różnorodności danych treningowych i zapobiegania nadmiernemu dopasowaniu (overfitting) w modelach głębokiego uczenia. Oto kilka popularnych technik augmentacji danych dla obrazów: 1. **Obrót (Rotation)**: - Obracanie obrazu o określony kąt. 2. **Przesunięcie (Translation)**: - Przesuwanie obrazu w poziomie lub pionie. 3. **Skalowanie (Scaling)**: - Zmiana rozmiaru obrazu, powiększanie lub pomniejszanie. 4. **Odbicie (Flip)**: - Odbijanie obrazu w poziomie lub pionie. 5. **Zmiana jasności i kontrastu**: - Modyfikacja jasności i kontrastu obrazu. 6. **Zniekształcenie (Warping)**: - Lekkie zniekształcenie obrazu. 7. **Zaszumienie (Noise Injection)**: - Dodawanie losowego szumu do obrazu. 8. **Zmiana odcienia (Hue and Saturation Adjustment)**: - Modyfikacja odcienia i nasycenia kolorów obrazu. 9. **Random Crop**: - Wycinanie losowego fragmentu obrazu. 10. **Zoom**: - Powiększanie lub pomniejszanie określonej części obrazu. 11. **Shear Transformation**: - Przesunięcie jednej części obrazu względem innej wzdłuż osi x lub y. 12. **Elastyczne deformacje (Elastic Transformations)**: - Symulacja fal w obrazie, co prowadzi do deformacji. 13. **Random Erase lub Cutout**: - Usuwanie losowego fragmentu obrazu i zastępowanie go jednolitym kolorem. 14. **Mixup i CutMix**: - Kombinowanie dwóch obrazów w różnych proporcjach lub wycinanie fragmentu jednego obrazu i wstawianie go

Answer 14

from sklearn.model_selection import cross_val_score scores = cross_val_score(model, X, y, cv=5) Walidacja krzyżowa to technika oceny modelu poprzez podział zestawu danych na kilka podzbiorów i przeprowadzenie wielokrotnego treningu i testowania modelu na różnych kombinacjach tych podzbiorów. Istnieją różne warianty walidacji krzyżowej, w tym k-krotna walidacja krzyżowa (k-fold) i stratyfikowana walidacja krzyżowa (stratified k-fold). Oto wyjaśnienie różnic między nimi: 1. **Zwykła walidacja krzyżowa (Holdout Cross-Validation)**: - Zestaw danych jest dzielony na dwa podzbiory: zestaw treningowy i zestaw testowy. - Model jest trenowany na zestawie treningowym i oceniany na zestawie testowym. - Jest to najprostsza forma walidacji krzyżowej i jest podatna na zmienność wyników w zależności od tego, jak dane są dzielone. 2. **K-krotna walidacja krzyżowa (K-Fold Cross-Validation)**: - Zestaw danych jest dzielony na `k` równych podzbiorów. - Model jest trenowany `k` razy, za każdym razem używając innego podzbioru jako zestawu testowego, a pozostałych `k-1` podzbiorów jako zestawu treningowego. - Wyniki są uśredniane, aby uzyskać końcową ocenę modelu. - Jest mniej podatna na zmienność w porównaniu z zwykłą walidacją krzyżową, ponieważ model jest oceniany na różnych podzbiorach danych. 3. **Stratyfikowana k-krotna walidacja krzyżowa (Stratified K-Fold Cross-Validation)**: - Podobnie jak w k-krotnej walidacji krzyżowej, zestaw danych jest dzielony na `k` podzbiorów. - Kluczową różnicą jest to, że podziały są dokonywane w taki sposób, aby każdy podzbiór miał tę samą proporcję klas co oryginalny zestaw danych. - Jest to szczególnie przydatne w przypadku niezrównoważonych zestawów danych, gdzie jedna klasa jest znacznie mniej reprezentowana niż inne. - Zapewnia, że każdy podzbiór zachowuje proporcje klas, co prowadzi do bardziej stabilnych i wiarygodnych ocen modelu. Podsumowując, podczas gdy zwykła walidacja krzyżowa dzieli dane tylko raz, k-krotna walidacja krzyżowa dzieli dane na `k` podzbiorów i przeprowadza trening i testowanie `k` razy. Stratyfikowana walidacja krzyżowa dodaje dodatkowy krok, aby zapewnić, że proporcje klas są zachowane w każdym podziale. Wybór odpowiedniej metody zależy od charakterystyki danych i wymagań projektu.

Answer 15

from keras.callbacks import ModelCheckpoint checkpoint = ModelCheckpoint('model-{epoch:03d}.h5', save_best_only=True, monitor='val_loss') model.fit(X_train, y_train, validation_data=(X_test, y_test), callbacks=[checkpoint])

Answer 16

Odpowiedź: W PyTorch można stosować regularyzację L1 i L2 poprzez dodanie odpowiednich składników do funkcji straty lub korzystając z parametrów weight_decay w optymalizatorach.

Answer 17

from sklearn.ensemble import RandomForestClassifier clf = RandomForestClassifier(n_estimators=100) clf.fit(X_train, y_train) predictions = clf.predict(X_test)

Answer 18

from keras.models import Sequential from keras.layers import Conv2D, MaxPooling2D, Flatten, Dense Inicjalizacja modelu sekwencyjnego model = Sequential() Dodanie warstwy konwolucyjnej model.add(Conv2D(filters=32, kernel_size=(3, 3), activation='relu', input_shape=(64, 64, 3))) # filters: liczba filtrów (jąder) konwolucyjnych # kernel_size: rozmiar jądra konwolucyjnego # activation: funkcja aktywacji # input_shape: kształt wejściowego obrazu (w tym przypadku obrazy 64x64 z 3 kanałami kolorów) Dodanie warstwy pooling (subsampling) model.add(MaxPooling2D(pool_size=(2, 2))) # pool_size: rozmiar okna pooling Dodanie kolejnej warstwy konwolucyjnej i pooling model.add(Conv2D(filters=64, kernel_size=(3, 3), activation='relu')) model.add(MaxPooling2D(pool_size=(2, 2))) Spłaszczenie - konwersja 2D macierzy do wektora model.add(Flatten()) Dodanie w pełni połączonej warstwy (Dense) model.add(Dense(units=128, activation='relu')) # units: liczba neuronów w warstwie Dodanie warstwy wyjściowej model.add(Dense(units=10, activation='softmax')) # units: liczba klas wyjściowych (np. 10 dla klasyfikacji obrazów z 10 kategoriami) # activation: funkcja aktywacji softmax dla wieloklasowej klasyfikacji Kompilacja modelu model.compile(optimizer='adam', loss='categorical_crossentropy', metrics=['accuracy']) # optimizer: optymalizator do aktualizacji wag # loss: funkcja straty # metrics: metryki do monitorowania podczas treningu Podsumowanie modelu model.summary()

Answer 19

Odpowiedź: SGD to prosty algorytm spadku gradientu, który aktualizuje każdy parametr w oparciu o gradient. Adam łączy zalety dwóch innych rozszerzeń SGD, AdaGrad i RMSProp. RMSprop to optymalizator, który dostosowuje tempo uczenia się dla każdego z parametrów.

Answer 20

numpy_array = tensor.cpu().detach().numpy() Tensor to matematyczny obiekt używany w dziedzinach takich jak fizyka i inżynieria, a także w uczeniu maszynowym i głębokim uczeniu. W kontekście uczenia maszynowego i głębokiego uczenia, tensor jest wielowymiarową tablicą lub listą. Można go postrzegać jako uogólnienie skalara, wektora i macierzy do wyższych wymiarów. Oto kilka przykładów dla lepszego zrozumienia: 1. **Skalar**: Jest to tensor zerowego rzędu. Przykład: liczba \( c = 5 \). 2. **Wektor**: Jest to tensor pierwszego rzędu. Przykład: \( v = [1, 2, 3] \). 3. **Macierz**: Jest to tensor drugiego rzędu. Przykład: \[ M = \begin{bmatrix} 1 & 2 \\ 3 & 4 \\ 5 & 6 \\ \end{bmatrix} \] 4. **3-wymiarowy Tensor**: Można go postrzegać jako stos macierzy. Przykład: \[ T = \begin{bmatrix} \begin{bmatrix} 1 & 2 \\ 3 & 4 \\ \end{bmatrix} , \begin{bmatrix} 5 & 6 \\ 7 & 8 \\ \end{bmatrix} \end{bmatrix} \] I tak dalej dla wyższych wymiarów. W kontekście bibliotek do głębokiego uczenia, takich jak TensorFlow czy PyTorch, tensor jest podstawowym obiektem używanym do przechowywania i manipulowania danymi. Te biblioteki oferują wiele operacji tensorowych, które są zoptymalizowane do działania na GPU, co przyspiesza obliczenia, szczególnie w przypadku dużych modeli głębokiego uczenia.

Answer 21

from sklearn.decomposition import PCA pca = PCA(n_components=2) X_reduced = pca.fit_transform(X) W scikit-learn istnieje wiele technik do redukcji wymiarowości danych. Redukcja wymiarowości jest często stosowana w celu zmniejszenia złożoności obliczeniowej, wizualizacji danych wielowymiarowych oraz walki z przekleństwem wymiarowości. Oto kilka popularnych technik redukcji wymiarowości dostępnych w scikit-learn:

Answer 22

from keras.callbacks import TensorBoard tensorboard = TensorBoard(log_dir='./logs') model.fit(X_train, y_train, validation_data=(X_test, y_test), callbacks=[tensorboard]) TensorBoard to narzędzie wizualizacji dostarczane z TensorFlow, które pozwala na monitorowanie postępów treningu, wizualizację metryk, architektury modelu, dystrybucji wag i wiele innych. Aby monitorować postępy treningu w Keras za pomocą TensorBoard, można postępować następująco: 1. **Instalacja TensorBoard**: Jeśli jeszcze nie masz zainstalowanego TensorBoard, możesz zainstalować go za pomocą pip: ``` pip install tensorboard ``` 2. **Ustawienie Callback dla TensorBoard**: W Keras musisz dodać `TensorBoard` jako callback podczas treningu modelu. ```python from keras.callbacks import TensorBoard Utwórz folder do przechowywania logów log_dir = "./logs" Ustaw callback tensorboard_callback = TensorBoard(log_dir=log_dir, histogram_freq=1, write_graph=True) Trenuj model z dodanym callbackiem model.fit(X_train, y_train, epochs=10, callbacks=[tensorboard_callback]) ``` 3. **Uruchomienie TensorBoard**: Po zakończeniu treningu możesz uruchomić TensorBoard z linii poleceń, wskazując folder z logami: ``` tensorboard --logdir=./logs ``` Następnie otwórz przeglądarkę i przejdź do adresu `http://localhost:6006/`, aby zobaczyć interfejs TensorBoard. 4. **Dodatkowe opcje**: - `histogram_freq`: Określa, jak często histogramy aktywacji/wag powinny być komputowane. Ustawienie `histogram_freq=1` oblicza histogramy po każdej epoce. - `write_graph`: Jeśli ustawione na `True`, wizualizuje graf modelu. - `write_images`: Jeśli ustawione na `True`, zapisuje wizualizacje wag modelu jako obrazy. Pamiętaj, że korzystanie z TensorBoard podczas treningu może nieco spowolnić proces, zwłaszcza jeśli zapisujesz dużo informacji po każdej epoce. Dlatego warto dostosować parametry callbacku do własnych potrzeb.

Answer 23

Zbiory train (treningowy), test (testowy) i validation (walidacyjny) to podzbiory zestawu danych używane w procesie tworzenia i oceny modeli uczenia maszynowego. Każdy z tych zbiorów pełni specyficzną rolę: 1. **Zbiór treningowy (Train Set)**: - Jest to podzbiór danych używany do trenowania modelu. - Na podstawie tego zbioru model aktualizuje swoje wagi i parametry w celu minimalizacji błędu. - Zawiera większość dostępnych danych (np. 60-80% całego zestawu). 2. **Zbiór walidacyjny (Validation Set)**: - Jest to podzbiór danych używany do oceny modelu podczas treningu, ale nie jest używany do bezpośredniego trenowania modelu. - Umożliwia dostosowywanie hiperparametrów modelu (np. współczynnik uczenia, architektura sieci) i wczesne zatrzymywanie treningu (early stopping) w celu zapobiegania nadmiernemu dopasowaniu. - Jest to "pośredni" zbiór, który pozwala na ocenę modelu na danych, które nie były używane do bezpośredniego treningu, ale przed przeprowadzeniem końcowej oceny na zbiorze testowym. 3. **Zbiór testowy (Test Set)**: - Jest to podzbiór danych używany do końcowej oceny modelu po zakończeniu procesu treningu. - Pozwala ocenić, jak dobrze model radzi sobie z niewidzianymi wcześniej danymi i przewidzieć, jak będzie działać w rzeczywistych warunkach. - Modelu nie powinno się dostosowywać ani modyfikować na podstawie wyników uzyskanych na zbiorze testowym. Podział danych na te trzy zbiory ma na celu zapewnienie, że model będzie dobrze generalizować na nowych, niewidzianych wcześniej danych. Jeśli model osiąga dobre wyniki na zbiorze treningowym, ale słabe na zbiorze walidacyjnym lub testowym, może to wskazywać na problem nadmiernego dopasowania (overfitting), co oznacza, że model zbyt dokładnie dopasował się do danych treningowych i nie radzi sobie dobrze z nowymi danymi.

Machine Learning Flashcards

(47 cards)