15. Flashcards

(9 cards)

1
Q

Skatinimasis mokymas

A

Mokymosi tipas, kai agentas mokosi veikti aplinkoje, kad gautų kuo didesnį atlygį.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Agentas, aplinka, būsena, veiksmas, atlygis

A

Agentas veikia aplinkoje, kurioje yra tam tikroje būsenoje, atlieka veiksmus ir už juos gauna atlygį

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Strategija

A

Apibrėžia, kaip agentas elgiasi esant tam tikrai būsenai, tai funkcija kuri parenka veiksmus

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Markovo prielaida

A

Teigia, kad būsena visiškai apibūdina visą reikiamą informaciją apie praeitį, t.y. ateities prognozė priklauso tik nuo dabartinės būsenos

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Vertės funkcija

A

Įvertina tikėtiną bendrą atlygį, kurį agentas gali gauti nuo tam tikros būsenos ar veiksmo

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Strategijos įteracijų algoritmas

A

Iteratyviai tobulina strategija, atsisžvelgdamas į esamą vertės funkciją, kol randama optimali strategija

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Verčių iteracijų algoritmas

A

Iteratyviai atnaujina vertės funkciją pagal Bellmano lygtį, kol pasiekiama konvergacija

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Deep Q-Network neuroninis tinklas

A

Naudoja neuroninį tinklą, kad prognozuotų veiksmų vertes (Q reikšmes)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Kovergacija

A

Mokymosi proceso momentas, kai modelio nuostolio funkcija stabilizuojasi ir beveik nebesikeičia

How well did you know this?
1
Not at all
2
3
4
5
Perfectly