13.Megerősítéses tanulás Flashcards

(11 cards)

1
Q

Hogyan szól a megerősítéses tanulás definíciója?

A

Egy ügynök egy környezetben döntéseket hoz, és jutalom alapján tanulja meg, mi a legjobb stratégia (policy

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Írja le koncepcionális szinten a megerősítéses tanulás működését. Miként interaktál az ágens a környezetével?

A

Az ágens döntéseket hoz és ezekre vissza kap egy reward értéket a környezettől.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Mit értünk Marköv döntési folyamat alatt és mik az alapvető alkotó elemei?

A
  1. Állapottér
    2.Akciótér
    3.Átmeneti valószínűségek
    4.Jutalom fgv
    5.diszkont faktor

—Work Needed—-

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Mit értünk policy függvény alatt a megerősítéses tanuláshoz kapcsolódóan?

A
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Mit értünk value és quality függvény alatt a megerősítéses tanuláshoz kapcsolódóan?

A
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Hogyan tudjuk összegezni a lépések után járó jutalmakat a megerősítéses tanulás visszacsatolásához?

A
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Hogyan működik a gamma (γ) jutalmak összegzésekor?

A
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Mit jelent a felderítés és kiaknázás a megerősítéses tanuláshoz kapcsolódóan?

A
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Hogyan szabályozza az ε értéke a felderítés és kiaknázás közötti eloszlást?

A
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Írja le a Bellman egyenlet lényegét és formalizálja is.

A
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Hogyan használható a TD-tanulás a value és a quality függvények tanításához?

A
How well did you know this?
1
Not at all
2
3
4
5
Perfectly