15. Flashcards
(9 cards)
Skatinimasis mokymas
Mokymosi tipas, kai agentas mokosi veikti aplinkoje, kad gautų kuo didesnį atlygį.
Agentas, aplinka, būsena, veiksmas, atlygis
Agentas veikia aplinkoje, kurioje yra tam tikroje būsenoje, atlieka veiksmus ir už juos gauna atlygį
Strategija
Apibrėžia, kaip agentas elgiasi esant tam tikrai būsenai, tai funkcija kuri parenka veiksmus
Markovo prielaida
Teigia, kad būsena visiškai apibūdina visą reikiamą informaciją apie praeitį, t.y. ateities prognozė priklauso tik nuo dabartinės būsenos
Vertės funkcija
Įvertina tikėtiną bendrą atlygį, kurį agentas gali gauti nuo tam tikros būsenos ar veiksmo
Strategijos įteracijų algoritmas
Iteratyviai tobulina strategija, atsisžvelgdamas į esamą vertės funkciją, kol randama optimali strategija
Verčių iteracijų algoritmas
Iteratyviai atnaujina vertės funkciją pagal Bellmano lygtį, kol pasiekiama konvergacija
Deep Q-Network neuroninis tinklas
Naudoja neuroninį tinklą, kad prognozuotų veiksmų vertes (Q reikšmes)
Kovergacija
Mokymosi proceso momentas, kai modelio nuostolio funkcija stabilizuojasi ir beveik nebesikeičia