full_exam_23 Flashcards

NB! GPT genererte svar! (18 cards)

1
Q

Hva er hovedmålet med dyplæring? Velg alternativet som er korrekt og mest presist.

A. Å løse komplekse problemer ved hjelp av datamaskiner

B. Å simulere menneskelig intelligens ved hjelp av kunstige nevrale nettverk

C. Å lære å løse en oppgave ved å konstruere hierarkiske oppgave spesifikke representasjoner av data

D. Å tilpasse en lineær regresjonsmodell ved hjelp av gradient descent

E. Å rense og organisere data

F. Å visualisere data

A

C. Å lære å løse en oppgave ved å konstruere hierarkiske oppgave­spesifikke representasjoner av data.

Forklaring:
Dyplæring handler ikke bare om å “simulere intelligens” eller “løse komplekse problemer” generelt, men om å la modellen automatisk lære flere nivåer av data­representasjon – fra lavnivå trekk (f.eks. kanter i et bilde) til høynivå konsepter (f.eks. objekter) – slik at den blir svært god på en gitt oppgave uten manuell utforming av funksjoner. Dette hierarkiske læringsprinsippet er kjernen i dyplæring.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Hva er læringsoverføring “transfer learning” i dyplæring? Velg alternativet som er korrekt og mest presist

A. Å overføre data mellom to forskjellige maskinlæringsmodeller

B. Å bruke utdata fra ett nevralt nettverk som input til et annet

C. Å kopiere parametre fra et nevralt nettverk til et annet

A

C. Å kopiere parametre fra et nevralt nettverk til et annet.

Forklaring:
Transfer learning går ut på å ta vektene (parametrene) fra et nettverk som allerede er trent på én oppgave (ofte med stort datasett), og bruke disse som utgangspunkt i et nytt nettverk for en beslektet oppgave. Dette sparer både tid og data, siden man gjenbruker allerede lært representasjon.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Hvilke av følgende er lossfunksjoner som brukes i klassifiseringsoppgaver

  1. Gjennomsnittlig kvadratisk avvik (Mean Squared Error)
  2. Kryssentropi-loss (Cross Entropy loss)
  3. Kryssvalidering
A
  1. Kryssentropi-loss (Cross Entropy loss).

Mean Squared Error brukes primært for regresjonsproblemer.

Kryssvalidering er en evaluerings-/valideringsteknikk, ikke en loss-funksjon.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Hvilke av følgende er teknikker brukes til å forhindre “overfitting” overtilpasning i dyplæringsmodeller? Merk at flere av
svaralternativene kan være korrekte.

  1. L1 regularisering
  2. Dropout
  3. Øke antall lag i modellene
  4. Weight Decay
A

De riktige teknikkene er 1, 2 og 4:

L1-regularisering
Legger til en straff (penalty) på absoluttverdien av vektene, noe som kan føre til sparsity og redusert overtilpasning.

Dropout
Fjerner (setter til null) tilfeldig utvalgte enheter i treningen, hvilket tvinger nettverket til å ikke bli avhengig av enkeltnevroner.

Weight Decay (L2-regularisering)
Legger til en straff på kvadratet av vektene, som demper vekst av store vektverdier og bidrar til bedre generalisering.

Å øke antall lag (3) øker tvert imot modellens kompleksitet og kan forverre overfitting-problematikken.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Hva er hovedfunksjonen til et konvolusjonslag i et konvolusjonelt nevralt nettverkCNN?

A. Å lære romlige egenskaper ved å anvende filtre på inndata til laget

B. Å redusere dimensjonene til inndata til laget

C. Å konvertere inndata til laget til en sannsynlighetsfordeling

D. Å beregne avviket mellom predikerte og faktiske verdier

A

A. Å lære romlige egenskaper ved å anvende filtre på inndata til laget

Forklaring:
Et konvolusjonslag er kjernen i et CNN og har som hovedoppgave å ekstrahere romlige trekk fra inngangsdata (f.eks. bilder) ved å anvende et sett av lærebare filtre (kernels). Hvert filter glir (convolves) over bildet, beregner prikkproduktet mellom filtervektene og et lokalt bildeområde, og genererer dermed et feature map som fremhever bestemte mønstre som kanter, teksturer eller andre visuelle trekk
GeeksforGeeks
Wikipedia
.

Filter (kernel): En liten matrise (f.eks. 3×3 eller 5×5) som lærer å oppdage spesifikke mønstre.

Glidning (stride) og padding: Bestemmer hvordan og hvor ofte filteret anvendes over inndataene, som igjen påvirker størrelsen på output-kartet.

Output: Et sett med feature maps—én per filter—that gir en hierarkisk, romlig representasjon av inputbildets relevante egenskaper.

Hvorfor ikke de andre alternativene?

B. Redusere dimensjoner: Selv om et konvolusjonslag kan minke romlig størrelse via stride eller uten padding, er dette en bieffekt, ikke hovedfunksjonen.

C. Konvertere til sannsynlighetsfordeling: Det er softmax-/sigmoid-funksjoner i output-laget som gjør dette, ikke konvolusjonslagene.

D. Beregne avvik: Det er tapsfunksjonen (loss) sammen med backpropagation som håndterer feilmåling, ikke konvolusjonslagene.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Hva er hovedårsaken til at en anvender dataaugmentering i dyplæring?

  1. For å forbedre kvaliteten på treningsdata
  2. For å forhindre overfitting ved å øke variasjonen i treningsdata
  3. For å redusere størrelsen på treningsdata og gjøre trening raskere
  4. For å konvertere data til et format som er kompatibelt med den kunstige nevrale nettverket en bruker
A
  1. For å forhindre overfitting ved å øke variasjonen i treningsdata.

Forklaring:
Dataaugmentering skaper kunstige variasjoner av eksisterende treningseksempler (for eksempel rotering, skalering, støy) uten å samle inn mer data. Dette tvinger modellen til å generalisere bedre og reduserer risikoen for at den overtilpasser seg spesifikke mønstre i det opprinnelige datasettet.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Hva er hyperparametre “hyper parameters” i kontekst av dyplæring?

  1. Forhåndsbestemte vekter og bias-er (parametre) som er faste gjennom hele treningsprosessen
  2. Justerbare parametre som påvirker læringsprosessen og modell-arkitekturen
  3. Input data som brukes til å trene modellen
  4. Prediksjoner fra en modell
A
  1. Justerbare parametre som påvirker læringsprosessen og modell-arkitekturen.

Forklaring:
Hyperparametre er innstillinger du definerer før treningen starter, som for eksempel læringsrate, antall lag, batch-størrelse, antall epoker og regulariseringskoeffisienter. De styrer hvordan og hvor raskt modellen lærer, samt modellens struktur, men oppdateres ikke under selve treningsprosessen (i motsetning til vekter og bias).

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Hva er en metrikk? Hvordan er dette forskjellig fra en lossfunksjon?

A

En metrikk er en målestokk du bruker for å evaluere hvor godt en modell presterer på en gitt oppgave. Eksempler på metrikker i klassifisering er:

Nøyaktighet (Accuracy): Andel korrekte prediksjoner

Presisjon (Precision) og Recall: Spesielt viktig ved skjev datasett

F1-score: Kombinerer presisjon og recall

I regresjon ser man gjerne på:

MAE (Mean Absolute Error)

RMSE (Root Mean Squared Error)

En loss-funksjon (kostnadsfunksjon) derimot er den differensierbare funksjonen som modellen optimerer under trening. Den måler “hvor galt” modellen gjør det for hvert trenings­eksempel, og brukes til å beregne gradienter i backpropagation. Eksempler:

Cross Entropy Loss – vanlig i klassifisering

MSE (Mean Squared Error) – vanlig i regresjon

Huber Loss, KL-divergens, osv.

Kort oppsummert:

Loss er det interne “kompasset” modellen følger for å lære.

Metrikk er det eksterne “termometeret” du leser av for å vurdere hvor godt læringen faktisk fungerer i praksis.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Forklar kort de syv stegene en bruker for å trene et nevralt nettverk:
[kan du lime inn bildet her Ketil]

A

Init – Initialiser alle parametere (vekter og bias) i nettverket, vanligvis med små tilfeldige verdier.

Predict (Forward pass) – Gi et batch inndata gjennom nettverket og beregn prediksjonene (aktiviseringer i hvert lag).

Loss – Sammenlign prediksjonene med de sanne målene og beregn en taps­verdi (f.eks. kryssentropi eller MSE).

Gradient (Backpropagation) – Beregn gradientene av tapet med hensyn på hver parameter via kjede­regelen (“backward pass”).

Step (Oppdatering) – Bruk en optimisator (f.eks. SGD, Adam) til å justere parametrene i retning motsatt gradient, med valgt læringsrate.

Stop-kriterium – Sjekk om treningen skal avsluttes (f.eks. etter et visst antall epoker, når tapet er lavt nok, eller ved tidlig stopp).

Repeat – Hvis ikke stop-kriteriet er nådd, gå tilbake til steg 2 med neste batch/epoke.

Når stop­kriteriet er møtt, avsluttes treningsløkken og modellen er ferdig trent.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Hva er hensikten med aktiveringsfunksjoner “activation functions” i et nevralt nettverk?

A

Hensikten med aktiveringsfunksjoner i et nevralt nettverk er å introdusere ikke‐linearitet og dermed la modellen lære komplekse, ikke‐lineære sammenhenger i data. Uten aktivering ville flere lag bare tilsvare én enkel lineær transformasjon. Mer konkret:

Bryter lineæritet: Hvert lag blir mer enn bare en vektet sum + bias, og nettet kan komposere hierarkiske trekk.

Styrer nevronets “utslag”: Funksjonen avgjør hvorvidt (og hvor sterkt) et gitt nevron «skyter» signal videre.

Begrenser utdata: Mange aktiveringer (f.eks. sigmoid eller tanh) pakker output inn i veldefinerte intervaller, noe som kan være nyttig i output‐laget.

Gir differensierbarhet: De fleste aktiveringsfunksjoner er glatte nok til at man kan ta gradienter gjennom dem i backpropagation.

Typiske valg er ReLU (rask, unngår metning for positive verdier), sigmoid/tanh (særlig i output‐lag for binær/multi‐klass) eller mer avanserte varianter som Leaky ReLU, ELU, GELU osv.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Forklar konseptet “embeddings” i kontekst av naturlig språkprosessering NLP)

A

I NLP bruker vi embeddings for å representere diskrete tekst­enheter (ord, subord, tegn) som kontinuerlige vektorer i et fler­dimen­sjonalt rom. Hovedpoengene er:

Fra én‐varm til lav‐dimensjon
− Istedenfor å kode hvert ord som en svært stor énhots‐vektor (der alle komponenter er 0 unntatt én), lærer vi en tettpakket vektor på for eksempel 50–1 024 dimensjoner.
− Dette reduserer beregnings‐ og lagringskostnaden betraktelig.

Fanger semantikk og syntaks
− Ord som opptrer i lignende kontekster får nær­liggende vektorer. For eksempel vil “kongelig” og “monark” ligge nær hverandre, mens “bil” ligger et annet sted i rommet.
− Relasjoner kan modelleres ved vektor‐aritmetikk, f.eks. v(“Konge”) − v(“Mann”) + v(“Dame”) ≈ v(“Dronning”).

Statisk vs. kontekstuelt

Statisk (Word2Vec, GloVe): Hvert ord har én fast embedding uavhengig av setnings­kontekst.

Kontekstuelt (ELMo, BERT, GPT): Embedding-en for et ord avhenger av hele setningen, så “bank” i “elvbank” vs. “finansbank” får ulike representasjoner.

Innlæring

Kan læres uper­våket via målfunksjoner som predikerer omgivende ord (skip-gram, CBOW) eller statistiske sammen­henger (GloVe).

Kan finjusteres sovervåket som første steg i en modell (f.eks. i en sekvens‐til‐sekvens-arkitektur).

Bruksområder

Som inngang til nevrale språk­modeller, NER, sentimentanalyse, maskin­oversettelse osv.

For lik­hets­søk (f.eks. finne ord eller dokumenter med beslektet mening).

For visualisering av ordrom ved å redusere til 2–3dim (t-SNE, PCA).

Ved å bruke embeddings får modeller en mye rikere og mer fleksibel representasjon enn tradisjonelle frekvensbaserte metoder, noe som har vært en nøkkelfaktor i gjennombruddet for moderne, nevrale NLP-systemer.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Forklar kort hvordan bildebaserte modeller kan være relevante også for andre typer data enn bilder. Gi et eksempel.

A

Bilde­modeller (spesielt CNN-er) er ikke avhengige på at input er «bilder» per se, men på at dataene har en rutenett-struktur (grid) med lokalt sammenhengende mønstre. Derfor kan de brukes på alle data som kan representeres som 2D- eller 3D-arrayer.

Eksempel: Lydsignaler kan omformes til 2D-spectrogrammer (tid vs. frekvens), hvor hver piksel angir energi. Et CNN trent på slike spectrogrammer kan da klassifisere talekommander, musikk­sjanger eller hjerte­lyder på samme måte som det gjenkjenner objekter i bilder.

Her er noen flere eksempler på hvordan “image-modeller” (i praksis spesielt CNN-arkitekturer) kan gjenbrukes for andre dataformer:

1D-CNN på tidsserier
– Data: Temperaturmålinger, aksjekurser, elle­nakke­sensorer osv.
– Metode: Behandle hver tidsserie som en én-dimensjonal “signal-bilde” (v × 1) og bruk 1D-filtere for å plukke opp lokale mønstre (f.eks. plutselige hopp eller periodisitet). Brukes mye i prognoser og feildeteksjon i maskineri.

CNN på tekst via sekvens-vinduer
– Data: Setninger kodet som sekvenser av ord- eller tegn-embeddings (L × d).
– Metode: Se på embedding-matrisen som et “bilde” med én akse for tid (ordrekkefølge) og én for embedding-dimensjon. Bruk små 2D-filtere (f.eks. 3 × d) for å gjenkjenne fraser og n-gram-mønstre før videre klassifisering av sentiment, emne etc.

3D-CNN på volumetriske data
– Data: Medisinske volum (CT/MR), 3D-tomografi, video (ramme × H × W).
– Metode: Bruk 3D-filtere som glir i dybde, høyde og bredde for å fange sammenheng i volumet—f.eks. tumor­struktur i et MR-bilde eller bevegelsesmønster i video.

Spektrogrammer for lydanalyse
– Data: Rå lyd­signal → spektrogram (tid × frekvens).
– Metode: CNN-et behandler dette som et bilde for klasser som talekommander, musikk­genre eller maskin­overvåking (detektere fei­llyder).

Bildelignende representasjon av grafer og nettverk
– Data: Grafer (node-og-kant-strukturer) → adjacency-matrise eller Laplacian.
– Metode: Enkelte forskere har vist at 2D-CNN på disse matriser kan fange opp lokale subgraf-mønstre, selv om Graph Convolution Networks er mer vanlig.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Når vi skal lage valideringsdata er det alltid en god idé å bruke tilfeldig uttrekk av data `RandomSplitter)

Sant eller usant

A

Usant.

Å bruke RandomSplitter er ikke alltid ideelt. For eksempel:

Tidsserier eller sekvensdata krever at trenings- og valideringssett holder på kronologi (bruk heller TimeSplitter).

Grupperte data (f.eks. flere observasjoner per pasient eller kunde) kan lekke informasjon mellom sett hvis du splitter tilfeldig (bruk GroupSplitter).

Skjeve klasser kan gi ubalanserte valideringssett (bruk StratifiedSplitter).

Dermed bør valgsplitteren alltid tilpasses datatypen og oppgaven – ikke bare et tilfeldig uttrekk.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Hva er “feedback loops” og på hvilken måte kan disse skape problemer for maskinlæringsbaserte system?

A

Feedback loops oppstår når modellens prediksjoner påvirker fremtidige data den trenes på. Dette kan forsterke skjevheter, gjøre modellen mindre nøyaktig over tid, og føre til urettferdige eller feilaktige beslutninger.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Hva er bildesegmentering “image segmentation”? Mer enn ett alternativ kan være korrekt.

  1. Metode for å dele inn bildet i betydningsfulle regioner basert på likhet
  2. Metode for å forbedre bilde kontrast
  3. Metode for å redusere bilde støy
A
  1. Metode for å dele inn bildet i betydningsfulle regioner basert på likhet
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Hva er en språkmodell language model i kontekst av dyplæring?

  1. En modell som tilordner en vektor av tall til hvert ord i en setning
  2. En modell som predikerer ord tatt ut av setninger eksempel: neste ord fra en passasje tekst
  3. Modeller som brukes til å sammenligne ulike språks grammatiske struktur
A
  1. En modell som predikerer ord tatt ut av setninger eksempel: neste ord fra en passasje tekst
17
Q

Hvorfor er det utfordrende å forstå og tolke hvordan en dyplæringsmodell kommer frem til en gitt prediksjon?

A

Fordi dyplæringsmodeller har mange lag og komplekse matematiske koblinger som gjør det vanskelig å se hvilke deler av inputen som påvirker prediksjonen og hvordan. De fungerer ofte som en “black box” uten tydelig forklaring.

18
Q

Gi en teknisk forklaring på et begrep eller en idé fra DAT255 som ikke er dekket av de øvrige eksamensspørsmålene.
Du står fritt til å velge noe du selv finner interessant eller viktig.