13.Megerősítéses tanulás Flashcards
(11 cards)
Hogyan szól a megerősítéses tanulás definíciója?
Egy ügynök egy környezetben döntéseket hoz, és jutalom alapján tanulja meg, mi a legjobb stratégia (policy
Írja le koncepcionális szinten a megerősítéses tanulás működését. Miként interaktál az ágens a környezetével?
Az ágens döntéseket hoz és ezekre vissza kap egy reward értéket a környezettől.
Mit értünk Marköv döntési folyamat alatt és mik az alapvető alkotó elemei?
- Állapottér
2.Akciótér
3.Átmeneti valószínűségek
4.Jutalom fgv
5.diszkont faktor
—Work Needed—-
Mit értünk policy függvény alatt a megerősítéses tanuláshoz kapcsolódóan?
Mit értünk value és quality függvény alatt a megerősítéses tanuláshoz kapcsolódóan?
Hogyan tudjuk összegezni a lépések után járó jutalmakat a megerősítéses tanulás visszacsatolásához?
Hogyan működik a gamma (γ) jutalmak összegzésekor?
Mit jelent a felderítés és kiaknázás a megerősítéses tanuláshoz kapcsolódóan?
Hogyan szabályozza az ε értéke a felderítés és kiaknázás közötti eloszlást?
Írja le a Bellman egyenlet lényegét és formalizálja is.
Hogyan használható a TD-tanulás a value és a quality függvények tanításához?