5. Grunderna i Maskininlärning - AI II Flashcards

Question

Vad är overfitting (överanpassning)?

Answer 1

Overfitting sker när en modell lär sig för mycket detaljer och även memoriserar brus och irrelevanta mönster i träningsdatan. Det gör att den presterar bra på träningsdatan men dåligt på ny data. Exempel: En bildklassificeringsmodell tränas på hundar, men eftersom träningsdatan råkar ha många bilder av hundar på gräs, lär den sig att gräs betyder "hund". När den testas på en hund på asfalt misslyckas den.

Answer 2

När modellen är för komplex jämfört med mängden träningsdata, vilket gör att den börjar memorera istället för att förstå verkliga mönster. Tecken på overfitting: Modellens noggrannhet är hög på träningsdatan men låg på testdatan. Träningsfelet minskar, men valideringsfelet slutar förbättras eller ökar.

Answer 3

Modellen anpassar sig för mycket till träningsdatan och fångar även irrelevanta detaljer som inte hjälper den att förstå verkliga samband. Orsaker till overfitting: För komplex modell (för många parametrar/lager). För lite träningsdata, så modellen lär sig slumpmässiga detaljer istället för generella mönster. För lång träningstid, så modellen finjusteras för mycket efter träningsdatan.

Answer 4

Underfitting sker när en modell är för enkel och inte lär sig mönstren i datan ordentligt. Den blir då dålig på att göra förutsägelser både på träningsdata och ny data. Exempel: Om vi tränar en bildigenkänningsmodell men den bara använder färg för att identifiera objekt, misslyckas den när bilderna har annan belysning eller färg.

Answer 5

När modellen inte är tillräckligt komplex eller har få träningssteg, vilket gör att den inte kan hitta viktiga mönster i datan. Tecken på underfitting: Låg noggrannhet både på träningsdata och testdata. Modellen lär sig långsamt eller gör stora fel även på enkla exempel.

Answer 6

Underfitting händer när modellen inte "lärt sig" tillräckligt mycket från träningsdatan. Detta kan bero på: Orsaker till underfitting: Modellen är för enkel (exempelvis ett litet neuralt nätverk för ett komplext problem). För få träningssteg – modellen har inte haft tid att lära sig. För lite data eller brusig data, vilket gör det svårt att hitta verkliga mönster.

Answer 7

Det är den optimala punkten där en modell har lärt sig tillräckligt från träningsdatan utan att bli för specialiserad på den. Tre möjliga scenarier: Underfitting – Modellen är för simpel och lär sig inte tillräckligt. Bra anpassning (Robust fit) – Modellen har en bra balans mellan inlärning och generalisering. Overfitting – Modellen är för komplex och lär sig även irrelevanta detaljer. Exempel: Om en modell förutspår huspriser och är underfitted, tar den knappt hänsyn till viktiga faktorer som storlek och läge. Om den är overfitted, lär den sig slumpmässiga mönster som inte är användbara på nya hus.

Answer 8

Underfitting (vänster på grafen): Både tränings- och valideringsförlusten är hög → modellen har inte lärt sig bra. Robust fit (mitten på grafen): Valideringsförlusten är låg, och träningsförlusten är inte extremt låg → bra generalisering. Overfitting (höger på grafen): Träningsförlusten är extremt låg, men valideringsförlusten ökar → modellen har memorerat träningsdatan men fungerar dåligt på ny data.

Answer 9

Overfitting sker när en modell optimeras för mycket på träningsdatan och börjar memorera unika detaljer istället för att förstå generella mönster. Tecken på overfitting: Modellen presterar perfekt på träningsdata, men dåligt på testdata. Den har lärt sig detaljer som bara finns i träningsdatan, men som inte hjälper den att förstå ny data. Exempel: Om en modell ska känna igen katter, men råkar lära sig att alla kattbilder i träningsdatan har blå bakgrund, kommer den ha svårt att känna igen katter på en röd bakgrund.

Answer 10

Använd mer data → modellen lär sig bredare mönster. Reguljärisering (t.ex. dropout, L1/L2) → förhindrar modellen från att bli för detaljerad. Tidigare stoppning (early stopping) → stoppa träningen innan modellen börjar memorera detaljer. Dataaugmentation → skapa fler varianter av träningsdatan för att göra modellen mer robust.

Answer 11

Den visar skillnaden mellan en bra modell (som generaliserar) och en överanpassad modell (som bara fungerar på träningsdata). En bra modell (grön linje): Hittar en logisk och enkel gräns mellan klasserna. Fungerar bra på både tränings- och testdata. En overfitted modell (röd linje): Hittar för detaljerade mönster i träningsdatan. Fungerar dåligt på ny, osedd data eftersom den har memorerat istället för att förstå.

Answer 12

Brus är irrelevanta eller slumpmässiga variationer i data som kan göra det svårare för en modell att hitta de verkliga mönstren. Exempel på brus i olika typer av data: Bilddata: Små störningar som ljusförändringar, rotationer eller slumpmässiga pixlar (t.ex. "salt & peppar-brus"). Ljuddata: Bakgrundsljud som stör röstigenkänning. Textdata: Stavfel eller slumpmässiga ord som inte påverkar meningen.

Answer 13

Bra om det är representativt: Kan hjälpa en modell att bli mer robust och bättre på att generalisera. Exempel: Att lägga till variationer som ljusförändringar i bilddata gör modellen bättre på att känna igen objekt i olika ljusförhållanden. Dåligt om det inte är relevant: Kan förvirra modellen och göra det svårt att hitta rätt mönster. Exempel: Om data innehåller slumpmässiga fel kan modellen lära sig dessa istället för de verkliga sambanden.

Answer 14

Att lägga till kontrollerat brus (mer varians) i träningsdata kan hjälpa en modell att bli mer generaliserbar. Tekniker för att lägga till brus: Dataaugmentation – lägga till små variationer i träningsdata (t.ex. rotera bilder eller ändra ljusstyrka). Dropout i neurala nätverk – slumpmässigt ta bort vissa neuroner under träningen för att göra modellen mer robust. Justering av träningsdata – t.ex. genom att lägga till syntetiskt brus i ljudfiler för att förbättra taligenkänning.

Answer 15

Manifold-hypotesen säger att all naturlig data (bilder, text, ljud) finns på en låg-dimensionell yta (manifold) inom det högdimensionella utrymme där den lagras. Vad betyder det? Även om data kan lagras i många dimensioner, finns den oftast på en mycket mindre underliggande struktur. En maskininlärningsmodell behöver bara lära sig den relevanta ytan, inte hela det högdimensionella rummet. Exempel: Bilder av ansikten kan lagras i miljontals pixlar, men variationer mellan ansikten följer en enkel underliggande struktur (t.ex. ögonens position, huvudets lutning, ljussättning).

Answer 16

Maskininlärningsmodeller behöver inte förstå allt – bara de viktiga mönstren i datan. Latent manifolds – modeller lär sig en intern representation av data på en enklare yta. Smidig interpolation – man kan skapa en jämn övergång mellan olika indata, och alla punkter på vägen ligger fortfarande på manifolden. Exempel: I bildgenerering (som GANs) kan man röra sig mellan två ansikten i latentutrymmet, och varje mellanbild är fortfarande ett realistiskt ansikte.

Answer 17

Bilden visar ett exempel på manifold-hypotesen, där data ligger på en lågdimensionell yta i ett högdimensionellt utrymme. Vad betyder detta? Data verkar ligga som en böjd yta (manifold) i ett större 3D-utrymme. Inlärning handlar om att förstå denna underliggande yta, istället för att hantera hela det högdimensionella rummet. Varför är detta viktigt? Modeller kan generalisera bättre genom att förstå manifolden istället för att memorera specifika punkter. Tekniker som autoencoders och GANs bygger på att hitta och använda denna underliggande struktur.

Answer 18

Interpolering innebär att skapa en jämn övergång mellan två datapunkter i ett latentutrymme, så att varje mellanliggande punkt också tillhör samma datafördelning. Exempel: I en bildgenereringsmodell (t.ex. GANs) kan man interpolera mellan två ansikten och skapa nya, realistiska mellanbilder. I textgenerering kan en modell skapa en jämn övergång mellan två meningar.

Answer 19

Den visar skillnaden mellan gles sampling (sparse sampling) och tät sampling (dense sampling) i latentutrymmet. Vad betyder det? Gles sampling (vänster) → Modellen har lärt sig för få punkter och interpoleringen blir felaktig. Tät sampling (höger) → Modellen har lärt sig en bra approximation av latentutrymmet, vilket leder till bättre interpolering och generalisering. Varför är detta viktigt? Om en modell har för få träningspunkter, kan den göra fel när den försöker skapa nya datapunkter mellan dem. En bra täckning av latentutrymmet gör modellen mer robust och generaliserbar.

Answer 20

Den visar en visualisering av latentutrymmet där liknande datapunkter (fjärilar med samma egenskaper) ligger nära varandra. Vad betyder detta? Fjärilarna är grupperade efter liknande färger och former, vilket visar att modellen har förstått mönster i datan. Det visar hur en modell kan organisera data i ett låg-dimensionellt utrymme (manifold). Varför är detta viktigt? En bra representation av data i latentutrymmet gör att modellen kan interpolera och skapa nya, meningsfulla exempel. Detta används i deep learning för generativa modeller, bildkompression, och klusteranalys.

Answer 21

Träningsdataset → Används för att lära modellen genom att justera dess parametrar. Valideringsdataset → Används för att justera hyperparametrar och övervaka modellens prestanda under träningen. Testdataset → Används för att utvärdera modellens förmåga att generalisera på helt ny, osedd data. Sammanfattning: Träningsdatan lär modellen. Valideringsdatan hjälper till att finjustera den. Testdatan avgör om den faktiskt fungerar på ny data.

Answer 22

Holdout validation innebär att man delar upp datan i två delar: Träningsdataset (ofta 80%) – används för att lära modellen. Validerings-/testdataset (ofta 20%) – används för att utvärdera modellen. Fördelar: Enkel att implementera. Fungerar bra när man har mycket data. Nackdelar: Om datasetet är litet kan resultatet variera mycket beroende på hur datan delas upp.

Answer 23

K-fold cross-validation innebär att hela datasetet används för både träning och validering genom att dela in det i flera delar (folds). Hur fungerar det? Datasetet delas upp i K delar (t.ex. 5 eller 10). Modellen tränas på K-1 delar och testas på den sista delen. Processen upprepas K gånger, så att varje del används som validering en gång. Det slutliga resultatet är medelvärdet av alla valideringsresultat. Fördelar: Ger bättre uppskattning av modellens prestanda eftersom den testas på flera olika datasetuppdelningar. Minskar risken att råka använda en dålig datasetuppdelning. Nackdelar: Kräver mer beräkningstid eftersom modellen tränas flera gånger.

Answer 24

Holdout validation → Bra om datasetet är stort och man vill ha en snabb utvärdering. K-fold cross-validation → Bättre för mindre dataset där varje datapunkt är viktig och man vill undvika slumpmässiga variationer.

Answer 25

Representerbarhet betyder att träningsdatan måste återspegla verkliga scenarion för att modellen ska fungera korrekt på ny data. Exempel: Om en bildigenkänningsmodell bara tränas på röda bilar, kanske den har svårt att känna igen blå eller vita bilar. En sjukdomsdetekteringsmodell som bara tränas på unga patienter kanske inte fungerar lika bra på äldre patienter. Varför är detta viktigt? Om datan inte är representativ riskerar modellen att prestera dåligt på verkliga problem.

Answer 26

Datan kan förändras över tid, vilket kan göra att en modell blir irrelevant om den tränas på gammal information. Exempel: En modell som förutspår bostadspriser tränad på data från 2010 kanske inte fungerar bra 2025, eftersom marknaden har förändrats. En spamfilter-modell från 2018 kanske inte känner igen de senaste phishing-metoderna som används 2025. Lösning: Använd färsk data när det är möjligt. Periodisk omträning av modellen för att hålla den uppdaterad.

Answer 27

Om datasetet innehåller dubbletter, kan modellen lättare memorera istället för att lära sig generella mönster, vilket ger en falskt hög prestanda. Exempel: Om samma bild förekommer flera gånger i träningsdatan, kan modellen verka bättre än den egentligen är. Om en textklassificeringsmodell har många identiska meningar i träningen, riskerar den att överanpassa sig till dessa. Lösning: Använd duplicate removal-tekniker, t.ex. dhash för att hitta liknande bilder. Filtrera bort identiska eller nästan identiska datapunkter för att förbättra modellens generaliseringsförmåga.

Answer 28

Learning rate bestämmer hur stora steg modellen tar när den uppdaterar sina vikter. Vad händer vid olika learning rates? För hög learning rate → Modellen hoppar över optimala lösningar och blir instabil. För låg learning rate → Träningen går långsamt och modellen kan fastna i lokala minima. Bra learning rate → Snabb och stabil konvergens mot en bra lösning. Lösning: Testa olika learning rates med learning rate scheduling (att minska den under träningen). Använd tekniker som Adam-optimizer, som automatiskt justerar stegen.

Answer 29

Finjustering innebär att optimera modellens prestanda genom att justera olika hyperparametrar och använda bättre träningsdata. Exempel på finjustering: Använda bättre datapunkter → Fokusera på kvalitetsdata istället för kvantitet. Öka modellkapaciteten → Lägg till fler lager/neuron om modellen är för enkel. Justera optimizer → Välja en bättre algoritm för att justera modellens vikter. Ändra batchstorlek → Större batchar kan ge snabbare träning, men mindre batchar kan ge bättre generalisering.

Answer 30

Batchstorleken bestämmer hur många datapunkter som bearbetas innan modellens vikter uppdateras. Olika batchstorlekar: Stor batchstorlek (t.ex. 128+) → Snabbare träning, men risk för dålig generalisering. Liten batchstorlek (t.ex. 16-32) → Långsammare träning, men modellen blir mer robust och generaliserar bättre. Lösning: Testa mini-batch gradient descent (kombination av stora och små batchar). Anpassa batchstorleken efter datasetets storlek och tillgänglig beräkningskraft.

Answer 31

Gradient Descent är en optimeringsalgoritm som justerar modellens parametrar för att minimera förlusten genom att beräkna gradienten av förlustfunktionen. Hur fungerar det? Modellen beräknar gradienten (lutningen) av förlustfunktionen. Vikterna uppdateras stegvis i riktning mot det globala minimumet. Processen upprepas tills modellen når en optimal lösning. Problem: Kräver hela datasetet för varje uppdatering → långsamt på stora dataset. Kan fastna i lokala minima.

Answer 32

SGD är en snabbare variant av Gradient Descent som uppdaterar vikterna efter varje datapunkt istället för att använda hela datasetet. Fördelar: Snabbare på stora dataset. Kan hoppa ur lokala minima och hitta bättre lösningar. Nackdelar: Kan vara bullrig (osäkra uppdateringar). Tar ojämna steg mot lösningen. Lösning: Mini-batch SGD → Kombination av vanliga GD och SGD för stabilitet och hastighet. Momentum → Hjälper till att jämna ut stegen.

Answer 33

ADAM är en avancerad optimeringsalgoritm som kombinerar momentum och anpassad learning rate för att förbättra konvergens och stabilitet. Varför ADAM? Snabbare konvergens än GD/SGD. Anpassar steglängden för varje parameter dynamiskt. Robust vid träning av djupa nätverk. Nyckelparametrar: Momentum (Beta1/Beta2) → Styr hur mycket tidigare gradienter påverkar uppdateringar. Weight Decay → Förhindrar överfitting genom att straffa stora vikter. Epsilon → Förhindrar division med noll. När ska ADAM användas? För icke-stationära problem där gradienterna förändras snabbt. När snabb konvergens och stabilitet behövs.

Answer 34

Gradient Descent (GD): En optimeringsalgoritm som uppdaterar modellens parametrar genom att beräkna gradienten av förlustfunktionen över hela träningsdatan. Det är stabilt men långsamt. Stochastic Gradient Descent (SGD): En variant av gradientnedstigning som uppdaterar parametrarna baserat på gradienten från enskilda eller små batchar av träningsdata. Det gör träningen snabbare men bullrigare. Bild: Jämförelse mellan SGD och GD - SGD gör snabba, hoppiga uppdateringar medan GD tar jämna steg mot minimipunkten.

Answer 35

Learning Rate – Bestämmer steglängden vid uppdatering av parametrar. För hög riskerar instabilitet, för låg gör inlärningen långsam. Batch Size – Påverkar stabilitet och hastighet; större batcher ger stabilare gradienter. Momentum – Bevarar tidigare gradientinformation, typiskt värde mellan 0.8–0.99. Beta1/Beta2 (ADAM) – Kontrollerar momentum och varians, används för stabilare inlärning. Weight Decay – Regularisering för att motverka överfitting. Epsilon (ADAM) – Förhindrar division med noll, vanligtvis satt till 1e−7 Bild: Visar hur gradient descent kan fastna i ett lokalt minimum och hur momentum hjälper modellen att hitta det globala minimumet.

Answer 36

En batch är en mindre uppsättning data från datasetet som används under träningen av en modell.

Answer 37

Batch size avgör hur många prover som matas in i modellen samtidigt under en enda träningsiteration.

Answer 38

Iteration: En genomgång av en enda batch genom modellen. Epoch: En fullständig genomgång av hela datasetet genom modellen.

Answer 39

Liten batch size: Kan orsaka underfitting men förbättra generalisering. Optimerad batch size: Balanserar inlärning och generalisering. Stor batch size: Kan leda till overfitting och dålig generalisering.

Answer 40

Om batch size minskas bör även learning rate minskas enligt formeln: New Learning Rate = Old Learning Rate × New Batch Size Old Batch Size

Answer 41

En liten batch size leder till en mer skakig optimeringsbana, vilket kan hjälpa modellen att undvika lokala minima men också göra träningen långsammare.

Answer 42

En stor batch size kan resultera i att modellen fastnar i skarpa minima och generaliserar sämre.

Answer 43

En balanserad batch size möjliggör en stabil träningsbana och effektiv konvergens mot ett bra minimum.

Answer 44

Samla in och använd mer data.

Answer 45

Förenkla modellen (eller testa en mer komplex modell vid behov). Justera batch size och learning rate.

Answer 46

Lägga till mer data. Generera syntetisk data. Introducera noise. Rotera och transformera data.

Answer 47

Testdata innehåller ny data som inte använts i träning/optimering av modellen och bör representera samma typ av data som modellen kommer att användas för.

Answer 48

För liten batch size kan förbättra generalisering men göra träningen långsammare, medan för stor batch size kan minska generaliseringsförmågan och leda till överträning.

Answer 49

Att maskininlärning kräver systematisk experimentering och justering av hyperparametrar för att förbättra modellens prestanda.

Answer 50

De illustrerar olika experiment med varierande hyperparametrar, vilket påverkar träningsförlust och valideringsförlust.

Answer 51

För att identifiera överträning, underträning och optimala hyperparametrar som ger bäst generalisering.

Answer 52

Att modellen överanpassar sig till träningsdata och har låg generaliseringsförmåga.

Answer 53

Träningsförlust (blå linje) minskar något men förblir låg. Valideringsförlust (orange linje) är konstant hög och minskar knappt. Tolkning: Underfitting – modellen lär sig inte tillräckligt från datan. Möjliga orsaker: Modellen är för enkel och saknar kapacitet. För låg learning rate, vilket gör inlärningen långsam. För lite data eller brist på variation i datasetet. Möjliga lösningar: Öka modellens komplexitet. Öka learning rate. Samla in mer och mer varierad träningsdata.

Answer 54

Att analysera inlärningskurvor för att förstå hur en maskininlärningsmodell presterar och identifiera problem som överträning, underträning eller dålig konvergens.

Answer 55

Både träningsförlust (blå linje) och valideringsförlust (orange linje) minskar gradvis. Kurvorna är parallella och närmar sig varandra vid slutet av träningen. Tolkning: Modellen tränar stabilt och generaliserar bra. Ingen tydlig överträning eller underträning. Möjligtvis kan fler epochs hjälpa till att förbättra modellen ytterligare.

Answer 56

Träningsförlust (blå linje) och valideringsförlust (orange linje) minskar snabbt i början. Efter en viss punkt planar båda ut och blir relativt stabila. Valideringsförlusten är något högre än träningsförlusten men följer en liknande trend. Tolkning: Bra generalisering – modellen tränar effektivt och har en bra balans mellan träning och validering. Inga tydliga tecken på överträning eller underträning. Modellen kan eventuellt förbättras ytterligare genom finjustering av hyperparametrar, men den är redan i ett bra läge.

Answer 57

Träningsförlust (blå linje) minskar snabbt i början men planar sedan ut. Valideringsförlust (orange linje) är mycket lägre än träningsförlusten och förblir stabil. Tolkning: Överträning (overfitting) – modellen presterar bra på träningsdatan men har svårt att generalisera till ny data. Valideringsförlusten är låg men kan tyda på att modellen har lärt sig specifika mönster i träningsdatan snarare än att generalisera. Möjliga lösningar: Använd regularisering (Dropout, L2) för att minska överträning. Samla in mer varierad träningsdata. Tidig stoppning för att förhindra att modellen överanpassar sig.

Answer 58

Träningsförlust (blå linje) minskar och stabiliseras. Valideringsförlust (orange linje) är mycket instabil och fluktuerar kraftigt. Tolkning: Instabil träning, vilket kan bero på: För hög learning rate, vilket gör att modellen hoppar runt och inte konvergerar ordentligt. För liten batch size, vilket orsakar hög varians i uppdateringarna. Brist på generaliseringsförmåga i modellen. Möjliga lösningar: Minska learning rate för att få stabilare inlärning. Öka batch size för att jämna ut gradientuppdateringarna. Använd regularisering (Dropout, L2) för att minska överträning och förbättra stabiliteten.

Answer 59

Träningsförlust (blå linje) minskar kontinuerligt och stabiliseras på en låg nivå. Valideringsförlust (orange linje) minskar i början men börjar sedan öka och stabiliseras på en högre nivå än träningsförlusten. Tolkning: Överträning (overfitting) – modellen lär sig träningsdatan väl men presterar sämre på valideringsdata. Valideringsförlusten ökar efter en viss punkt, vilket indikerar att modellen börjar memorera träningsdata istället för att generalisera. Möjliga lösningar: Tidig stoppning (early stopping) för att avbryta träningen innan valideringsförlusten börjar öka. Använd regulariseringstekniker som Dropout eller L2-norm för att minska överträning. Öka mängden träningsdata för att förbättra generaliseringsförmågan.

Answer 60

Underfitting (vänster sida): Modellen har hög förlust på både tränings- och valideringsdata eftersom den inte har lärt sig tillräckligt. Robust fit (mitten): Optimal balans där både tränings- och valideringsförlust är låg, vilket betyder att modellen generaliserar bra. Overfitting (höger sida): Träningsförlusten är mycket låg medan valideringsförlusten ökar, vilket betyder att modellen har överanpassat sig till träningsdata och presterar dåligt på ny data. Slutsats: Målet är att hitta en robust fit, där modellen har låg förlust både på tränings- och valideringsdata utan att överanpassa sig. Detta kan uppnås genom att justera modellens kapacitet, regularisering och träningsstrategier.

Answer 61

Overfitting och underfitting – Balansen mellan att överanpassa eller lära sig för lite från data. Optimering – Justering av modellens parametrar för att minimera förlust. Generaliserbarhet – Modellens förmåga att prestera bra på ny, osedd data. Train, test, och validation dataset – Hur data delas upp för att träna och utvärdera modellen.

Answer 62

Modellkomplexitet – Hur avancerad en modell är och dess kapacitet att fånga mönster. Optimeringsmetod – Algoritmer som används för att uppdatera modellens parametrar (ex. SGD, Adam). Loss function – Funktion som mäter hur bra en modell presterar genom att beräkna fel.

Answer 63

Att hitta en balans där modellen lär sig tillräckligt från träningsdatan för att förstå mönster, men inte så mycket att den överanpassar sig och presterar dåligt på ny data.

Answer 64

För att modellen ska kunna lära sig rätt mönster och generalisera till ny data. Träningen bör övervakas noggrant genom analys av inlärningskurvor.

Answer 65

Train dataset: Används för att träna modellen. Validation dataset: Används för att finjustera hyperparametrar och upptäcka overfitting. Test dataset: Används för att utvärdera modellens slutliga prestanda på ny, osedd data.

Answer 66

Modellen bör vara tillräckligt stor/djup för att fånga mönster i data. Den får dock inte vara för stor, då den riskerar att memorera träningsdata och överträna.

Answer 67

Enligt manifoldhypotesen kan datapunkter uttryckas längs en relativt enkel, välstrukturerad yta i modellens inre representationsutrymme. Detta innebär att modellen interpolerar mellan kända datapunkter för att göra förutsägelser.

5. Grunderna i Maskininlärning - AI II Flashcards

(91 cards)