TIG 122 - Maskininlärning och dataanalys Flashcards

(153 cards)

1
Q

Deep Learning

A

Ai modeller bestående av flera lager
Efterliknar den mänskliga hjärnans funktion
För att kunna analysera mer komplexitet

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

SLP - Singel layer perceptron

A

Ett input lager och en output neuron
Hanterar linjära problem- t.ex klassificerings uppgifter

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

MLP - Multi - layer perceptron

A

Minst 3 lager - in-put, hidden och out-put
Använder backpropagation

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

DNN - Deep neural network

A

Flera hidden layers
Hanterar komplexa problem med en stor mängd data
Varje lager har en egen funktion

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Forward propagation

A

Datan rör sig framåt genom närverket, lager för lager

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Loss function

A

Skillanden mellan den beräknade out-put och den faktiska
Används för att mäta nätverkets prestanda/ tränings framgång

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Backpropagation

A
  1. Nätverket kalkylerar skillnaden mellan outputen och den förväntade outputen - loss function
  2. Nätverket arbetar sig bakåt och justerar vikterna längs vägen utifrån loss function
  3. Upprepas till outputen nått målet
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

CNN - Convolutional neural network

A
  • Analyserar visuell data (bilder och videor)
  • Applicerar filter som tar sig genom bilden för att identifiera mönster
  • Bildigenkänning, ansiktsigenkänning, medicinsk bildanalys, självkörande fordon
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

XAI methods

A

Metoder som gör det möjligt att förstå och förklara hur ai-modeller fattar sina beslut
Framförallt viktig i när ai t.ex används inom vården

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Nämn 3 olika XAI metoder

A
  1. Post - hoc metod - försöker förklara modellens beslut i efterhand baserat på t.ex spelteorin
  2. Intrinnsiska metoder - Modellen har en inbyggd form av förklaring system som själv tolkar och återberättar funktioner och resultat
  3. Visualiseringsmetoder - använder visuella representationer för att tolka och förstå
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Object detectors

A

Finns i CNN modeller
Lokaliserar och klassificerar objekt i bilder och videos

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Transformers

A

NPL - nartulig språkbehandling
-bearbetar data parallellt
använder attention

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Symbolisk/Klassisk AI

A

Använder symboler för representation av information
Utför logiska operationer
Top- down system
Människan definierar regler och matar in data
får ut ett svar

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

ANN - Articiella neurala nätverk

A
  • Inspirerad av hjärnans funktioner ¨
  • Bearbetar datan genom aktiveringsfuntkioner
  • Kan lära sig från data och hitta mönster i data
  • Modellen listar själv ut reglerna - matar in svar och data
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

MINIST

A

Databas - består av handskrivna siffror mellan (0-9)
Används för att träna och testa modeller
60 000 tränings bilder och 10 000 testbilder

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Träningsalgoritmer

A
  1. Om output är korrekt ändra ingenting
  2. Om output är 1 men skulle vara 0 - sänk vikten
  3. Om output är 0 men skulle vara 1 - hög vikten
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
17
Q

Vilka är de mest populära ramverken för att bygga och träna neurala nätverk?

A

PYT ROC - Meta
TensorFlow - Google

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
18
Q

Google Colab

A

Kodmiljö, använder Jupiter nootbook
Använder GPU och TPU

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
19
Q

GPU - graphics processing unit

A
  • Används för att utföra beräkningar inom maskininlärning och deep learning
  • Optimerad för parallella beräkningar
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
20
Q

TPU - Tensor processing unit

A
  • Specialbyggd för AI i Tensor Flow
  • Hanterar tensor-beräkningar (matriser)
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
21
Q

Keras

A
  • Ett gränssnitt som gör det möjligt för flera olika delar av en modell att kommunicera med varandra
  • Definieras vad som kan göras men inte hur de kan göras
  • Besitter t.ex funktioner för hur en modell ska tränas
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
22
Q

Sequential

A
  • En struktur för att bygga neurala närverk
  • Där ett lager är kopplat till nästa osv
  • Enkelt och linjärt
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
23
Q

Vektor

A

Matriser som används för att lagra numerisk data
Används ofta för att t.ex beskriva egenskaper hos ett objekt

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
24
Q

Array

A

Funktionen hos numpy
Data struktur som lagrar en samling av element
Alla element i en array har samma datatyp
Kan bestå av flera dimensioner

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
25
Tensor
En matematisk struktur Lagrar vikter och bias i neurala nätverk Representerar och bearbetar data
26
Tensors uppbyggnad
0D tensor: Ett enda tal (skalar). 1D tensor: En vektor (en lista av tal). 2D tensor: En matris (en tabell med rader och kolumner). 3D tensor: En "matris av matriser" (t.ex. en kub av data).
27
NumPy 2D-tensor
Vanligt inom maskininlärning Representerar input datan och vikterna i modellen Enkel representation av data
28
Vektorrymd
Ett utrymme där vektorer kan placeras Används för att beräkna avstånd och likheter mellan data punkter
29
NumPy shape
Ger information om hur många rader, kolumner och dimensioner en array har Ger information om hur många element en array har
30
Preprocessing av data
Om datan behöver processas innan den används i nätverket för att omvandla till ett mer effektivt format
31
Normalisering av data
Justerar värden i datasetet så det ligger inom ett viss intervall Kan på så sätt behandlas mer effektivt i modellen
32
Aktiveringsfunktion
En funktion som avgör värdet på datan för att få skicka vidare information eller inte
33
Softmax
Aktiveringsfunktion Framställer ett sannolikhetsvärde för varje möjlig output och den med störst sannolikhet blir sedan den slutgiltiga outputen
34
ReLU
Aktiveringsfunktion ¨ Används ofta i dolda lager Introducerar icke-linjäritet Omvandlar alla negativa värden till 0 och låter alla positiva vara oförändrade Lär sig komplexa mönster i datan
35
Vad gör man när man kompilerar ett nätverk?
Färdigställer det för träning Specificerar viktiga inställningar - 3 parametrar
36
Vilka är de parametrar som specificeras under kompilering?
1. Loss function - t.ex definierar om nätverkets sanna värden 2. Optimizer - Styr hur vikterna förändras under träning 3. Matrics - Undersöker hur bra modellen presenterar på träning
37
model.fit ()
Inbyggd funktion i keras som baserat på träningsdata justerar modellens vikter
38
Epochs
Epoker är gångerna man kör igenom träningsdata genom modellen
39
Validation_split
Gör att en viss andel av träningsdatan sparas undan för att istället kunna använda under validering Modellen kan då testas på data den tidigare inte exponerats för vilket övervakar generaliseringsförmågan
40
Evolvuering av nätverk
Använder evolutions algoritmer för att att automatiskt skapa, justera och förbättra arkitekturen hos ANN - Syftet är att hitta den bästa strukturen utifrån specifika problem - t.ex hur många lager nätverket ska
41
Vektor - matematisk building
Representation av data i from av siffror för beräkningar
42
Dot product (skalär)
En viktad summa Dimension 0 En matematisk operation mellan två vektorer. Använda för att beräkna ett mått på likheten mellan två vektorer
43
Hur får man fram en dot procuct (skalär) av vektorer?
Två vektorer som är lika långa multiplicerar koordinaten med respektive koordinat i den andra vektorn Sedan adderar alla produkter med varandra t.ex - w1*x1 + w2*x2
44
Matrices
2 dimentionell datastruktur Rader presenterar någon from av egenskap Kolumner presenterar en annan form av egenskap Definierar all data ihop
45
Tensor (array)
Förvarar data Organiserar olika typer av data i flera dimensioner
46
Data sets
En samling data av samma typ som man organiserar
47
image data set
En samling bilder som används för att träna maskininlärnings modeller för att utföra uppgifter som bildklassificering, objektigenkänning osv
48
Vilken aktiveringsfunktion är bra att ha kopplat med MNISt dataset?
Softmax
49
Träningsprocessen hos ett ANN
Partial derivatas
50
Tangentlinje / tangent line
En linje som rör vid kurvan vid en viss punkt
51
Slope/lutning
Lutningen hos tangent line i de olika punkterna
52
Hur slope räknas ut
y = kx +m k = lutningen Väljer 2 punkter på linjen dividerar skillnaden i x -led mot skillnaden i y/x = k Räknar ut linjens lutning men får då hur mycket kurvan lutar i just den punkten
53
Derivatan
Lutningen hos tangent linjen c = f(c) Talar om hur mycket det lutar i en punkt på kurvan
54
Träning loop av ett neuralt nätverk
1. väljer ut ett antal data punkter man ska träna sitt nätverk på (information från indata) 2. För varje input testar man då och får en output 3. Räknar sedan ut loss function för varje data punkt 4. Algoritmen gardient decent används sedan genom att räkna ut derivatan och avgör sedan hur vi ska förändra vikterna för att få ett mindre loss
55
Gradient descent
Optimerings algoritm som räknar ut derivatan (lutningen) av loss function med avseende av vikterna = gradienten (lutningen) Gradienten talar om hur mycket loss function förändras om vikterna ändras Gör ofta små förändringar i taget och uppdaterar vikterna i rätt riktning för att minska loss Går igenom alla punkter i datan
56
Dataset
Samling av data som mats in i modellen
57
Trainingsdataset
Används för träning av modellen ' Justerar modellens interna parametrar genom att minimera loss function - 70%
58
Valideringsdataset
Används för att justera hyperparamtrar (inställningar som inte lärs av modellen) t.ex inlärningshastigheet, antal lager osv Kontrollerar modellens prestanda och generaliserbarhet - 15%
59
Testdataset
Används efter träning för att utvärdera modellens generaliserbarhet på osedd data - 15%
60
Mean squared error
Mått som används för att uppskatta hur bra en modell presterar mäter genomsnittet av loss function
61
Generaliserbarhet
Modellens förmåga att prestera bra på ny data den inte tidigare har expanderats för Modellen lär sig hitta mönster i träningsdatan som den sedan kan applicera på ny data
62
Hur når man generaliserbarhet?
1. Använd lagom komplex data 2. Avsluta träningen när prestandan på valideringsdatan slutar förbättras 3. Öka variationen i träningsdatan
63
Optimering
Processen som sker när man minimerar loss founction Handlar om att hitta en punkt där loss function är tillräckligt låg i träningsdatan
64
Vad händer om man tar optimeringen för långt?
Det kan leda till overfitting
65
Overfitting
Modellen har lärt sig träningsdatan för bra Betyder att modellen inte har lärt sig hitta mönster hos träningsdatan utan istället lärt sig detaljer och saker som är unikt för träningsdatan (memorerar istället för att förstå "reglerna")
66
Hur kommer modellen presentera när den är overfittad?
Modellen kommer presetera bra på träningsdatan men kommer misslyckas med data som den tidiagre inte har exponerats för
67
Hur förhindrar man overfitting?
1. Skapa variation i träningsdatan 2. Öka mängden träningsdata
68
Underfitting
Modellen är för enkel eller otränad för att identifiera underliggande mönster i datan Presterar dåligt på både träninngsdata och osedd data
69
Varför sker underfitting?
1. Modellen är för simpel, finns inte tillräckligt med parametrar som kan fånga komplexitet i datan 2. Träningen har avbrutits för tidigt
70
Robust fit
Bar generaliserbarhet Påverkas inte av enstaka extremvärden
71
Noise/ Brus
Slumpmässiga fel eller irrelevanta variationer i datan som inte återspeglar de mönster vi vill att modellen ska lära sig
72
Hur kan brus vara bra?
1. Brus kan göra att modellen tvingas hitt mönster 2. Slumpmässiga förändringar i datan får modellen att fokusera på mönster och ej enstaka detaljer
73
Interpolering
Metod för maskininlärning Skapar nya datapunkter mellan två eller flera redan existerande punkter Med syfte att fylla i luckor eller skapa smidiga övergångar mellan redan kända punkter Skapar mer träningsdata
74
K - fold cross - validation
Räknar ut loss function metod för en mer pålitlig utvärdering av en modell
75
Representerbarhet
Viktigt att alla dataset speglar den verkliga datan som modellen kommer att stöta på i praktiken
76
Tidsaspekter
Viktigt att alla dataset spegalr verkliga förhållanden, då förändringar sker
77
Överflödighet
Undvika identiska datapunkter i treänings och test data då modellen kan ha memorerat
78
Stochastic Gradient Descent
Optimeringsalgoritm Fungerar på samma sätt som GD, men istället för att gå igenom alla punkter i datan uppdaterar den endast enskilda och slumpmässiga punkter. Bra för att hantera stora dataset
79
ADAM - Adaptive Moment Estimation
Optimeringsalgoritm Kommer ihåg tidigare gradienter Använder medelvärden av gradienter baserat på historik kräver ofta justering av hyperparametrar Olika dtapunkter jämförs inte med varandra utan kan lära sig i sin takt
80
Learning rate (inlärningshastighet)
Hyperparemeter Styr hur stora steg optimeraren ska ta i justering av modellens vikter under träning Kan vara bra att göra små förändringar för att inte missa viktiga steg, men kan gå långsamt
81
Batch size
Hur många exempel av träningsdatan modellen bearbetar innan vikterna uppdateras under träning
82
Confusion matrix
Tabell som används för att utvärdera prestandan hos en klassificeringsmodell Jämför loss fuction och visar hur många exempel som är korrekta och hur många som blev fel
83
Linjärt separerbar
Perceptron En rak linje kan separera data punkter
84
Icke -linjärt separerbart
En rak linje kan inte separera datapunkterna korrekt Behövs något mer komplext med fler lager och neuroner
85
Credit Assignment Problem
Kan uppstå i träning av MLP Svårigheter med att identifiera vilka vikter eller parametrar som är ansvariga för felaktiga resultat
86
Hur löser man Credit Assignment Porblem?
Använder backpropagation
87
Den biologiska inspirationen av CNN Visuella cortex
Hierarkiskt upplägg där mer komplex mönster uppfattas av senare lager Olika neuroner är specialiserade på att känna igen olika typer av visuell information
88
LeNet - 5
En av de första CNN - 80-90 talet Kombinationen av hierarkisk bearbetning och backpropagation Fullt ansluta lager 5 lager
89
AlexNet
2012 det stora genombrottet för CNN djupare nätverk = 8 lager
90
Vad används CNN främst till?
Bildigenkänning, bildklassificering och objektidentifiering
91
Hur ser kopplingarna mellan neuronerna ut i ett CNN?
Varje neuron är kopplad till ett receptivt fält i nästa lager, dvs en lokal region av neuroner
92
Vilka lager finns i ett CNN?
1. Konvolutionslager / Convolutional layer 2. ReLU - lager 3. Pooling - lager 4. Fullt anslutet lager
93
Konvolutionslager / Convolutional layer
Extraherar egenskaper i indatan genom filter och feautermaps
94
ReLU - lager
Introducerar icke-linjäritet i modellen Vilket innebär att alla negativa värden sätts till 0
95
Pooling - lager
Minskar dimensionerna hos feature maps, behåller de framträdande egenskaperna, vilket gör modellen mindre känslig för små förändringar t.ex filtreras brus bort
96
Fullt anslutet lager
Alla neuroner mellan två nätverk är kopplade till varandra, Kombinerar alla egenskaper/features och fattar ett slutgiltigt beslut som sedan skickas genom aktiveringesfunktionen
97
Sigmoid aktiveringsfunktion
Sannolikhets funktion Ger ett värde mellan 0-1 för aktivering av värdet Klassificerar ett värde/ skalär i taget
98
Softmax aktiveringsfuktion
Sannolikhets funktion¨ Ger ett värde mellan 0-1 för aktivering Klassificerar en hel vektor samtidigt/ flera värden
99
CNN filter
Filtret flyttas steg för steg över input bilden Varje element i bilden multipliceras med motsvarande pixelvärde Summan blir sedan en siffra som placeras i lagrets feauture map
100
Hur många vikter har ett filter som är 3x3?
9 vikter
101
Feature maps i CNN
Representerar vad/hur mycket ett filter har hittat i form av egenskaper/ mönster i olika delar av bilden indelad i delar av bilden vilket motsvarar neuroner
102
Exempel på filter till feature map i CNN 5x5 bild: 3x3 filter: 1 2 3 0 1 1 0 -1 4 5 6 1 2 1 0 -1 7 8 9 2 3 1 0 -1 1 2 3 4 5 6 7 8 9 0
3x3 Feture map Uträkningen: 1 2 3 1*1 + 2*0 + 3* (-1) + 4 5 6 4*1 + 5*0 + 6* (-1) + 7 8 9 7*1 + 8*0 + 9 * (-1) = 1 = summan i den första rutan i feature mapen, sedan hoppar den så många stride den har vilket innebär steg filtret ska ta
103
Max pooling
Minskar dimensionerna hos fetaure map för att hjälpa modellen med spatial Invariance Väljer det största värdet i varje del av pooling mapen
104
Spatial Invariance
Gör att nätverket i träning inte fastnar i var något befinner sig i bilden, utan kan fånga en mer generaliserad bild och känna igen egenskaper oberoende av storlek, placering eller vridning i bilden
105
CNN och Visual cortex
Visual cortex fungerar på samma sätt: Olika delar processar olika saker i form av nivåer t.ex v1 processar minsta egenskaperna i bilden v2- processar färg osv
106
Shallow CNN
Ytlig modell 1 lager , lagret har 5 filter vilket innebär 5 feture maps
107
Objektdetekting
klassificering av objekt i bilder eller videos
108
Detektera objekt
Algoritmen skannar bilden och identifierar var objekten finns genom att placera bounding boxes runt varje upptäckt objekt
109
Hur definieras bounding boxes?
Koordinaterna i övre vänstra hörnet samt nedre högra hörnet
110
Klassificera objekt
Efter lokalisering, tilldelar modellen varje bounding box en etikett, baserat på vad den tror finns i boxsen vi sannolikhets funktion
111
R-CNN modell
Letar efter intressanta områden för att sedan i nästa steg klassificera de - tvåstegs modell Regioner föreslås, varje region beräknas och skickas genom ett CNN för att undersöka egenskaper i regionen Mycket noggrann men också mycket långsam
112
SSD (Singel shot ditectors) modell
Identifierar både var och vad objektet är i bara ett steg Kan fånga objekt i olika storlekar då den består av flera feature maps som kan fokusera på olika skalor av objekt Använder default boxex, som alltså är förbestämda boxar som placeras ut över bilden 1. om det finns ett objekt i boxen klassificera 2. Behöver boxen justeras för att passa objektet
113
Vilka två typer av förluster kombineras i träning för SSD?
1. Localization loss - justerar boxarnas position 2. Confidence loss - Förbättring av klassificering av objekt
114
YOLO modell
Bilden delas in i ett rutnät, där varje cell i rutnätet förutspår ett visst antal bounding boxes Genererar alltså många överlappande boxar, som sedan används för att använda de mest sannolika snabb, men tenderar att missa små objekt
115
Sensorer
Radar, kameror oh ljudsensorer för att "se" och känna igen omgivningen
116
Styrsystem (actuators)
Kontrollerar gas, broms och styrning baserat på beslutsfattande av datorn
117
Datorer (ECU- Electronic Control Units)
Processorer som bearbetar data från sensorer genom algoritmer och fattar beslut
118
Level 0 - autonoma system
Ingen automation Människan är fullt ansvarig för körning av bilen
119
Level 1
Förarassistans Stöttning i from av styrning och bromsning
120
Level 2
- Delvis automation Föraren måste vara aktiv och redo att ta över körningen
121
Level 3
- Begränsad automation Föraren måste vara beredd att ta över körningen om systemet ber om det
122
Level 4
- Hög automation ODD (operativ design domän) - Bilen fungerar autonomt inom en förutbestämd miljö
123
Level 5
- Full automation ej nått hit ännu
124
Varför är SAE nivåerna bra inom autonoma fordon?
Skapar en gemensam standard för att beskriva autonomi
125
DMS ( Driver Monitoring System)
Säkerhetssystem som övervakar förarens beteende och uppmärksamhet Används i bilar med nivå 2-3 Kameror riktade mot förarens ansikte för att spåra ögonrörelser, huvud position, blinkningar och ansiktsuttryck
126
CMS (Camera Monitoring system)
ersätter backspeglar med kameror och digitala skärmar Täcker fler vinklar och kan anpassas till olika ljusförhållanden samt tar mindre plats Systemet kan ge varningar för andra fordon eller fotgängare
127
GSR (General Safety Regulation)
EU:s allmänna uppsättning av regeler och krv som syftar till att öka säkerhten för vägtrafikanter
128
Tokenization
Första steget i NPL Delar upp text i mindre enheter tokens (meningar)
129
Word embeddings
Tekniker för att representera ord i numeriska vektorer Där ord med likdanande semantisk betydelse hamnar nära varandra i modellens minne
130
Transformer strukturen består av 2 huvud delar vilka är dessa?
Encoder - Skapar en kontextuell representation av input Decoder - Använder den tidigare skapade representationen för att generera utdata
131
Attention is all you need
NPL fick sitt stora genombrott 2017 Kan processa ord parallellt
132
Positional encoding
I och med att transformerna processar ord parallellt, modellen information om ordens position i sekvensen En unik vektor läggs därför till i varje word embedding baserat på dess position i sekvensen
133
På vilket sätt skapas en unik representation för varje ord i en transformer?
Varje word embedding baseras på både position och innehåll
134
One - hot encoding
Varje ord representeras av en binär vektor där platsen ordet finns i sekvensen representeras av 1 och resten med 0
135
Hur vet modellen att ord liknar varandra semantiskt?
Word embeddings ger orden representationer av vektorer, där ord som liknar varandras får likdanande vektorer
136
Multi - headed self - attention (Encoder)
1. Varje ord i sekvensen jämförs med resterande ord i modellen för att avgöra ordets betydelse i meningen 2. Modellen räknar sedan ut hur mycket uppmärksamhet/ attention varje ord ska ge de andra orden i sekvensen och omvandlas sedan nya representationer för varje ord 3. De nya representationerna bygger på Query - vad söker vi efter, key- vad har varje ord att erbjuda och Value - vad är själva innehållet 4. De nya vektorerna multipliceras sedan med inlärda vikt matriser 5. Softmax används sedan för att skapa en sannolikhet för varje representation
137
Vad bygger de nya representationerna/vektorerna på i Multi -headed self-attention ?
Query - Vad vi söker efter Key - vad varje ord har att erbjuda Value - Vad själva innehållet är
138
Varför multi - headed attention?
Flera paralella attention huvuden används för att fokusera på olika aspekter av meningen t.ex syntax, semantik, kontext osv
139
Masked multi - headed self-attention (decoder)
Masken sätter alla framtida attention-vikter till 0 för att modellen inte ska veta vad som kommer som nästa ord utan den ska träna på att förutspå mönstret
140
Multi - headed Cross- attention (decoder)
De tidigare representationerna som gjorts i encodern placeras in. Hämtar information i form av K och V från den tidigare representationen, medans Q alltså vad vi söker efter är information den plockar från sig själv Kopplar ihop hela sekvenser och skapar representationer från olika sekvenser tillsammans
141
Feed - forward nätverk i transformer
Finns efter varje attention block Finns två fullt anslutna lager och ReLU funktion Bearbetar varje token baserat på attention för att sedan kunna lära sig mönster
142
Layer Normalization
Följer en norm efter varje feed-forward och attention i transformerna för att stabilisera träningen
143
Tokens genererar som vektorer
Kommer alltså i nummer och softmax genererar sedan de ordet som med stört sannolikhet ska genereras efter utifrån representationerna från attention lagrarna
144
Explainable Ai (XAI)
Handlar om att göra ai begripligt och transparant för människor Målet är att kunna förklara varför den fattat ett beslut
145
Comprehensibility - XAI
Handlar om hur väl modellen presenterar sin logisk på ett sätt människan förstår
146
Interpretability - XAI
Handlar om hur vida modellen fattar beslut som make sense i det specifika området
147
Model Explainers
Hur modellen förklaras a) Intrinsic Explainability (Inbyggd förklarbarhet) b) Post-hoc Explainability (Förklaringar efteråt)
148
Different Types of Explanations
Hur förklaringen presenteras för användaren a) Visual Explanations (För slutanvändare b) Mathematical/Computational Explanations (För utvecklare c) Language-Based Explanations (För slutanvändare
149
Intrinsic Explainability (Inbyggd förklarbarhet)
Modellen är designad för att vara självförklarande Kräver ingen extra analys för att förstå beslutet Använder t.ex beslutsträd
150
Post-hoc Explainability (Förklaringar efteråt)
Komplexa modeller där beslutet inte är direkt tolkningsbart Kräver en analys efter att modellen fattat ett beslut Deep Learning modeller
151
Layerwise-Relevance propagaation (LRP)
En metod för att förklara hur neurala nätverk fattar beslut Post -hoc används efter modellen har tränats Specifik för neurala nätverk - model specifik kollar på hela modellen Lokal - förklarar individuella förutsägelser
152
SHAP
Post hoc Lokal och global model - agnostisk
153
Deep Dream
Post hoc model -specifik global