Deep Learning Flashcards
(39 cards)
Czym jest neck?
Neck, czyli “szyja”, to element architektury sieci neuronowej, który łączy główny model z głową. W złożonych modelach wykorzystywanych do analizy obrazów, neck często pełni rolę przekształcania cech ekstrahowanych przez “backbone” w formę bardziej odpowiednią dla finalnych predykcji.
Czym jest backbone?
Backbone, czyli “rdzeń”, to główna część sieci neuronowej odpowiedzialna za wykrywanie i ekstrakcję cech z obrazu. To zazwyczaj konwolucyjna struktura, często oparta na sieciach takich jak VGG, ResNet czy Inception, wykorzystywana do zapewnienia modelowi początkowych informacji o obrazie.
Czym jest head?
Head, czyli “głowa”, to ostatnia część sieci neuronowej, która przetwarza wyekstrahowane cechy w ostateczne wyniki. To w głowie znajdują się warstwy wyjściowe, które generują predykcje na podstawie cech przekształconych przez neck i backbone.
Czym jest CNN?
CNN (Convolutional Neural Network) to rodzaj sieci neuronowej specjalizujący się w przetwarzaniu obrazów poprzez wykorzystanie warstw konwolucyjnych. Te warstwy potrafią wyodrębniać hierarchiczne cechy z obrazu, umożliwiając modelom uczenie się istotnych wzorców.
Co to underfitting? Jak zaradzić mu?
Underfitting to sytuacja, w której model jest zbyt prosty i nie jest w stanie dobrze uchwycić złożoności danych treningowych ani generalizować na nowe dane. Można temu zaradzić poprzez zwiększenie złożoności modelu, dostarczenie bardziej zróżnicowanych danych treningowych lub poprawę procesu uczenia, na przykład poprzez dostosowanie hiperparametrów.
Co to overfitting? Jak zaradzić mu?
Overfitting to sytuacja, w której model jest zbyt dokładnie dopasowany do danych treningowych i nie generalizuje dobrze na nowe dane. Można mu zaradzić poprzez zastosowanie technik regularyzacji, takich jak dropout czy L2-norm, a także dostarczenie większej ilości różnorodnych danych treningowych.
Czym jest problem martwego neurona i gdzie występuje?
Problem martwego neurona występuje w przypadku funkcji aktywacji ReLU, gdzie dla ujemnych wejść gradient funkcji wynosi 0, co może prowadzić do zatrzymania uczenia dla tych neuronów. To zjawisko może wpływać na wydajność sieci, ale można mu zaradzić poprzez stosowanie wariantów ReLU, takich jak Leaky ReLU.
Wymień różnice pomiędzy R-CNN, Fast R-CNN, Faster R-CNN, SSD, YOLO
R-CNN: Wykrywanie w dwóch krokach, kosztowne obliczeniowo.
Fast R-CNN: Efektywniejsze wykrywanie, wspólne cechy dla regionów.
Faster R-CNN: Integracja wykrywania z siecią region proposal network (RPN), bardziej efektywne.
SSD: Wykrywanie w wielu skalach poprzez różne warstwy.
YOLO: Wykrywanie w czasie rzeczywistym, podział obrazu na siatkę.
Wymień funkcje straty
MSE (Mean Squared Error), Cross-Entropy, KL-Divergence, Hinge Loss.
Wymień funkcje aktywacji
ReLU, Sigmoid, Tanh, Leaky ReLU.
Jaki problem ma standardowa implementacja funckji aktywacji ReLU?
Dla ujemnych wejść gradient wynosi 0, co może prowadzić do martwych neuronów.
Czym jest softmax?
Softmax to funkcja normalizująca wyniki sieci na postaci rozkładu prawdopodobieństwa, używana głównie w zastosowaniach klasyfikacyjnych.
Jakiej funkcji straty użyjemy w przypadku multiclass classification?
Cross-Entropy Loss
Czym jest IoU?
IoU (Intersection over Union) to wskaźnik, który mierzy pokrycie między dwoma obszarami, często używany do oceny dokładności w zadaniach detekcji.
Czym są augmentacje i jakie znasz augmentacje?
Augmentacje to techniki zmiany danych treningowych w celu zwiększenia różnorodności. Przykłady to: obrót, odbicie lustrzane, zmiana jasności, przycinanie, zmiana kontrastu.
Jak radzić sobie z nierównymi zbiorami danych pomiędzy klasami?
Możemy zastosować techniki takie jak oversampling, undersampling, generowanie sztucznych przykładów (augmentacje) dla mniej licznych klas, lub użyć ważonych funkcji straty.
Jakie znasz hiperparametry modelu?
Przykłady to learning rate, liczba warstw, liczba neuronów, batch size, współczynnik regularyzacji, funkcje aktywacji.
Kiedy wybierzemy precision, a kiedy recall?
Precision jest wybierane, gdy zależy nam na minimalizacji fałszywych pozytywów. Recall jest wybierane, gdy zależy nam na minimalizacji fałszywych negatywów.
Czym jest F1 score?
F1 score to miara równowagi pomiędzy precision a recall, dobrze reprezentująca jakość klasyfikacji.
Dlaczego nie powinniśmy używać tylko warstwy Dense do rozpoznawania obiektów z obrazów
Warstwy Dense nie zachowują struktury przestrzennej obrazu. Warstwy konwolucyjne są bardziej odpowiednie, ponieważ ekstrahują lokalne wzorce.
Co charakteryzuje modele ResNet?
Modele ResNet wykorzystują skip connections, pozwalając na efektywniejsze uczenie głębokich sieci i przeciwdziałanie zanikającym gradientom.
Co oznacza końcowa liczba w architekturach ResNet (ResNet-50, ResNet-101 itd.)
To liczba warstw w modelu, 50 oznacza 50 warstw, 101 oznacza 101 warstw, a tak dalej.
Jak różni się ResNet od YOLO i kiedy wybierzemy jedno ponad drugie?
ResNet to model głębokiej klasyfikacji lub segmentacji. YOLO to model wykrywania obiektów w czasie rzeczywistym. Wybieramy w zależności od głównego zadania: klasyfikacja/segmentacja vs. wykrywanie.
Czym jest normalizacja danych?
Normalizacja to przekształcenie danych w taki sposób, żeby miały określony zakres, np. [0, 1] lub [-1, 1]. Jest przydatna, gdy chcesz zachować relatywne proporcje między wartościami. Jeśli zakres danych nie ma znaczenia, ale ważne są relacje między wartościami, normalizacja może być bardziej odpowiednia niż standaryzacja.