11. Transformers - AI II Flashcards
(46 cards)
Vad är Transformers?
Transformers är en typ av neural nätverksarkitektur som revolutionerade Natural Language Processing (NLP) och många andra AI-applikationer. De introducerades i “Attention is All You Need” (2017) av Vaswani et al.
Tidigare användes RNNs (Recurrent Neural Networks) och LSTMs (Long Short-Term Memory) för språkmodellering, men de hade problem:
Lång träningstid
Svårt att hantera långa sammanhang
Parallellisering var begränsad
Transformers löste dessa problem genom själv-uppmärksamhet (Self-Attention) och parallell beräkning, vilket gjorde modeller som BERT och GPT möjliga.
Varför är Transformers så viktiga?
De kan förstå kontext bättre än RNNs – även om orden är långt ifrån varandra.
De tränar snabbare eftersom de inte behöver gå igenom ord ett i taget (till skillnad från RNNs).
De används i många moderna AI-modeller såsom:
GPT-4 (ChatGPT)
BERT (Google)
T5 (Text-to-Text Transfer Transformer)
ViT (Vision Transformer för bilder)
“Attention Is All You Need” - Grundläggande Förståelse
Denna slide visar framsidan av den berömda forskningsartikeln “Attention Is All You Need”, publicerad av Vaswani et al. 2017. Det är denna artikel som introducerade Transformers, en arkitektur som förändrade AI och NLP för alltid.
Vad handlar artikeln om?
Huvudpoängen i artikeln är att:
Tidigare modeller för sekvensbaserade problem använde Recurrent Neural Networks (RNNs) och Long Short-Term Memory (LSTMs).
Dessa metoder var långsamma och hade svårt att hantera långa texter eller sekvenser.
Transformers ersätter dessa genom att använda Självuppmärksamhet (Self-Attention) och Parallellisering, vilket gör dem snabbare och mer effektiva.
Viktiga bidrag från artikeln?
Transformer-arkitekturen introduceras
Istället för att bearbeta text sekventiellt som RNNs gör, kan Transformers bearbeta hela texten på en gång genom Self-Attention.
Self-Attention är nyckeln
Modellen lär sig vilka delar av texten som är viktiga genom att väga ordens betydelse i relation till andra ord.
Exempel: I meningen “The animal didn’t cross the street because it was too tired.” måste modellen förstå att “it” refererar till “the animal”.
Multi-Head Attention
Modellen kan ha flera uppmärksamhetsmekanismer som fokuserar på olika aspekter av texten samtidigt.
Parallellisering & Effektivitet
RNNs måste bearbeta text steg för steg, men Transformers kan behandla alla ord samtidigt, vilket ger snabbare träning.
Varför är detta så revolutionerande?
Tränar snabbare än RNNs/LSTMs.
Fångar kontext bättre genom självuppmärksamhet.
Används i alla moderna AI-modeller, t.ex. GPT-4, BERT, T5.
What are the main components of a Transformer model?
A Transformer consists of an encoder and a decoder, each made up of multiple layers containing self-attention mechanisms, feed-forward networks, layer normalization, and positional encoding.
What is the role of the encoder in a Transformer model?
The encoder processes the input sequence by applying self-attention and feed-forward layers to generate meaningful representations for the decoder.
What is the role of the decoder in a Transformer model?
The decoder generates the output sequence by attending to both the encoder’s outputs and previously generated tokens using masked self-attention.
What is Multi-Headed Self-Attention?
It is a mechanism that allows the model to focus on different parts of a sequence simultaneously, capturing multiple contextual relationships.
Why is Positional Encoding important in Transformers?
Since Transformers do not process words sequentially like RNNs, positional encoding provides information about word order to the model.
What is Layer Normalization and why is it used?
Layer normalization helps stabilize and speed up training by normalizing activations within each layer, preventing gradient issues.
What are some advantages of Transformers over RNNs?
Transformers enable parallelization, capture long-range dependencies effectively, and achieve state-of-the-art performance in NLP tasks.
Why is Masked Multi-Headed Self-Attention used in the decoder?
It prevents the model from attending to future tokens during training, ensuring autoregressive generation (word prediction step-by-step).
What is the difference between Self-Attention and Cross-Attention?
Self-attention allows the model to relate words within the same sequence, while cross-attention in the decoder helps it focus on relevant parts of the encoded input.
How does the Feed-Forward Network contribute to the Transformer model?
It applies additional transformations to enhance feature representations, improving model expressiveness and learning capacity.
Hur Transformers-modellen fungerar – Steg för steg
1. Inmatning och Embeddings
Textinput: Modellen tar emot en sekvens av ord, t.ex. meningen “Jag älskar AI!”.
Tokenisering: Varje ord delas upp i mindre delar som kallas tokens (t.ex. “Jag”, “älskar”, “AI”, “!”).
Embeddings: Varje token omvandlas till en vektor (en lista av siffror) som representerar ordets betydelse i ett fler-dimensionellt rum.
- Positional Encoding – Varje ord får en position
Eftersom en Transformer inte behandlar ord i en bestämd ordning som en Recurrent Neural Network (RNN), måste modellen få en uppfattning om var i sekvensen varje ord hör hemma.
Positional Encoding lägger till unika numeriska mönster till varje ords vektor, så att modellen kan förstå ordningen i meningen.
- Encoder – Bearbetar inmatningen
Transformers använder Encoders för att analysera den inmatade texten.
Varje Encoder-lager består av:
Multi-Headed Self-Attention
Vad? En mekanism där varje ord jämförs med alla andra ord i meningen.
Hur? Modellen beräknar “Hur mycket ska jag fokusera på varje ord i förhållande till andra?”
Varför? Detta gör att modellen kan förstå sammanhang och samband mellan ord i meningen.
Feed-Forward Network
Ett fullständigt anslutet nätverk som bearbetar informationen vidare och skapar djupare förståelse av texten.
Layer Normalization
Justerar och stabiliserar värdena för att förhindra överdrivna förändringar i dataflödet.
Flera encoders staplas på varandra (Nx “Layers”), vilket gör att modellen kan bygga en allt mer avancerad förståelse av texten.
- Decoder – Skapar utmatningen
Efter att encoders har bearbetat texten, används Decoders för att generera svaret (t.ex. en översättning, en sammanfattning, eller ett svar i en chattbot).
Varje Decoder-lager består av:
Masked Multi-Headed Self-Attention
Fungerar på samma sätt som Self-Attention i encodern, men är maskerad för att modellen inte ska kunna se framtida ord – detta är särskilt viktigt vid textgenerering (så att den skapar en mening ett ord i taget).
Multi-Headed Cross-Attention
Jämför informationen från encodern med den redan genererade texten för att skapa en relevant fortsättning.
Feed-Forward Network & Normalization
Bearbetar och förbättrar informationen innan nästa ord genereras.
Attention?
Attention är en mekanism som gör att modellen kan fokusera på viktiga delar av indata istället för att behandla all information lika. Det används för att hitta relationer mellan ord i en sekvens, även om de är långt ifrån varandra.
- Slutlig utmatning – Prediktion av ord
Till slut genererar decodern ett nytt ord baserat på vad den har bearbetat hittills.
Detta upprepas ord för ord tills hela svaret har genererats.
Ett Softmax-lager används för att välja det mest sannolika nästa ordet.
Slutligen får vi en mening, t.ex.:
Input: “Jag älskar AI!”
Output (om det vore en översättningsmodell): “I love AI!”
Cross-attention?
Cross-attention används i en dekoder för att koppla ihop information från inputsekvensen (encoder) med outputsekvensen (decoder).
Self-attention?
Self-attention låter modellen jämföra varje ord i en mening med alla andra ord i samma mening för att förstå sammanhanget.