13.Megerősítéses tanulás Flashcards

Question 1

Q

Hogyan szól a megerősítéses tanulás definíciója?

Answer

A

Egy ügynök egy környezetben döntéseket hoz, és jutalom alapján tanulja meg, mi a legjobb stratégia (policy

Question 2

Q

Írja le koncepcionális szinten a megerősítéses tanulás működését. Miként interaktál az ágens a környezetével?

Answer

A

Az ágens döntéseket hoz és ezekre vissza kap egy reward értéket a környezettől.

Question 3

Q

Mit értünk Marköv döntési folyamat alatt és mik az alapvető alkotó elemei?

Answer

A

—Work Needed—-

Question 4

Q

Mit értünk policy függvény alatt a megerősítéses tanuláshoz kapcsolódóan?

Question 5

Q

Mit értünk value és quality függvény alatt a megerősítéses tanuláshoz kapcsolódóan?

Question 6

Q

Hogyan tudjuk összegezni a lépések után járó jutalmakat a megerősítéses tanulás visszacsatolásához?

Question 7

Q

Hogyan működik a gamma (γ) jutalmak összegzésekor?

Question 8

Q

Mit jelent a felderítés és kiaknázás a megerősítéses tanuláshoz kapcsolódóan?

Question 9

Q

Hogyan szabályozza az ε értéke a felderítés és kiaknázás közötti eloszlást?

Question 10

Q

Írja le a Bellman egyenlet lényegét és formalizálja is.

Question 11

Q

Hogyan használható a TD-tanulás a value és a quality függvények tanításához?

(11 cards)