12. Flashcards
(7 cards)
Transformerių neuroniniai tinklai
Gilių neuroninių tinklų architektūra, pagrįsta dėmesio mechanizmais
Dėmesio sutelkimo transformacija
Mechanizmas leidžia modeliams suteikti skirtingą svarbą skirtingiems įvesties sekos elementams, atsižvelgiant į jų tarpusavio ryšius
Dėmesio sutelkimo sau transformacija
Leidžia kiekvienam įvesties sekos elementui įvertinti visus kitus elementus ir nuspręsti, kuri informaciją svarbiausia
Daugelio galvučių dėmesio sutelkimo transformacija
Tuo pačiu metu atliekamos kelios dėmesio operacijos su skirtingomis parametrų grupėmis
Operacijų skaičius reikalingas dėmesio sutelkimo transformacija
Sudėtingumas didėja kvadratiškai pagal sekos ilgį (O(n^2))
Pozicijos kodavimas
Būdas pridėti informaciją apie žodžio eiliškuma, kadangi transformeriai savaime nesupranta sekos tvarkos
Transformerių neuroninių tinklų architektūros
Sudarytos iš enkoderių ir dekoderių, kuriuose naudojami dėmesio mechanizmai ir feed-forward tinklai