10. NLP - AI II Flashcards
(82 cards)
Vad står NLP för?
Natural Language Processing
Vilka är de huvudsakliga utvecklingsfaserna inom NLP?
Regelbaserade metoder (1950–1980-tal)
Statistiska metoder & neurala nätverk (1980-tal–2000-tal)
Deep Learning & neurala nätverk (2000–2018)
Stora språkmodeller (LLMs) (2019–nu)
Vilka viktiga händelser skedde inom NLP på 1950–1980-talet? Vilken metod dominerade NLP under denna period?
Noam Chomsky publicerar “Syntactic Structures” (1957)
ALPAC-rapporten ifrågasätter maskinöversättningens potential (1966)
Vilken metod dominerade NLP under denna period?
Regelbaserade system
Statistiska metoder & neurala nätverk (1980–2000-tal) Vilka tekniker blev populära under denna period?
Återkommande neurala nätverk (RNNs) (1985)
Hidden Markov Models (HMMs) för taligenkänning (1989)
Long Short-Term Memory (LSTM) förbättrar RNNs (1997)
Deep Learning & neurala nätverk (2000–2018)
Vilka genombrott markerade denna period?
Word embeddings (Word2Vec) (2013)
Sekvens-till-sekvensinlärning & transformerarkitektur (2014)
Google publicerar “Attention Is All You Need” (2017)
Förtränade språkmodeller som BERT och GPT börjar utvecklas (2018)
Vad innebär maskinöversättning inom NLP? (Translation)
Automatiserad översättning av text utan mänsklig assistans.
Stora språkmodeller (LLMs) (2019–nu)
Vilka är några av de stora språkmodellerna som har utvecklats sedan 2019?
RoBERTa, DeBERTa, GPT-2 (2019)
GPT-3, T5, GPTNeo (2020–2021)
PaLM, BLOOM, ChatGPT (2022)
GPT-4, Claude, LLaMA, Bard (2023)
Vilka är några vanliga användningsområden för NLP?
Maskinöversättning
Text-till-tal (TTS)
Sentimentanalys
Chatbots
Ge exempel på några verktyg som används för maskinöversättning?
Google Translate
Microsoft Translate
DeepL
IBM Watson
Vilka olika typer av översättning kan NLP hantera?
Text-till-text (TTT)
Tal-till-tal (S2S)
Text-till-tal (TTS)
Tal-till-text (STT)
Vad är voice-cloning?
Teknik för att efterlikna en specifik persons röst med hjälp av NLP.
Vad är sentimentanalys inom NLP?
Att analysera text för att bestämma om innehållet är positivt, negativt eller neutralt.
Fungerar genom att identifiera och vikta positiva och negativa ord för att beräkna en övergripande sentimentpoäng.
Vad är syftet med text-till-tal (TTS)? Vilka exempel på TTS-system finns?
Att omvandla skriven text till tal
Siri
Alexa
Google Translate
OpenAI:s TTS
Vad är en chatbot? Ge exempel på en chatbot och vilka funktioner kan en chatbot ha?
En AI-driven applikation som kan interagera med användare via text eller tal
ChatGPT
Text-till-text interaktion
Användning av olika språkmodeller (LLMs) som GPT-3 och GPT-4
Minnesfunktioner för kontextförståelse
Möjlighet att beskriva visuella medier
Vad används NLP och stora språkmodeller till?
Generell chatt
Informationssökning
Tekniska och programmeringsrelaterade frågor
Kreativa syften, såsom poesi och fiktion
Hjälp med studier och uppgifter
Vad är tokenization?
Processen att dela upp text i mindre enheter (tokens) som kan vara ord, subord eller tecken
Vad är word embeddings?
Numeriska representationer av ord som fångar deras semantiska relationer i en flerdimensionell vektorrum
Vilka är några vanliga NLP-arkitekturer?
Sequence-to-sequence (seq2seq)
Encoder-decoder arkitekturer
Modeller som endast använder en encoder eller decoder
Varför behövs tokenization i NLP?
För att omvandla text till en form som maskiner kan bearbeta, genom att konvertera ord till siffror
Vilka fördelar och nackdelar har character-based tokenization?
Färre unika tokens behövs (bara alfabetet och specialtecken)
Kräver många tokens för att representera långa sekvenser
Svårt att fånga semantisk betydelse av enskilda tecken
Vilka typer av tokens kan användas?
Tecken (characters): Varje enskild bokstav eller symbol blir en token
Ord (words): Hela ord används som tokens
Subord (subwords): Ord delas upp i mindre delar för att hantera oregelbunden stavning och nya ord
Vilka fördelar och nackdelar har word-based tokenization?
Fångar hela ords betydelse direkt
Svårt att hantera out-of-vocabulary (OOV) ord
Vad är subword tokenization och varför används det?
En kompromiss mellan character och word tokenization
Kan hantera nya ord genom att känna igen vanliga morfologiska delar som suffix och prefix
Exempel: Ordet “fascination” kan delas upp i [“fas”, “cina”, “tion”]
Vad är syftet med word embeddings i NLP?
Word embeddings används för att representera ord som numeriska vektorer, vilket gör det möjligt för maskininlärningsmodeller att förstå semantiska relationer mellan ord.