full_exam_23 Flashcards

Question 1

Q

Hva er hovedmålet med dyplæring? Velg alternativet som er korrekt og mest presist.

A. Å løse komplekse problemer ved hjelp av datamaskiner

B. Å simulere menneskelig intelligens ved hjelp av kunstige nevrale nettverk

C. Å lære å løse en oppgave ved å konstruere hierarkiske oppgave spesifikke representasjoner av data

D. Å tilpasse en lineær regresjonsmodell ved hjelp av gradient descent

E. Å rense og organisere data

F. Å visualisere data

Answer

A

C. Å lære å løse en oppgave ved å konstruere hierarkiske oppgavespesifikke representasjoner av data.

Forklaring:
Dyplæring handler ikke bare om å “simulere intelligens” eller “løse komplekse problemer” generelt, men om å la modellen automatisk lære flere nivåer av datarepresentasjon – fra lavnivå trekk (f.eks. kanter i et bilde) til høynivå konsepter (f.eks. objekter) – slik at den blir svært god på en gitt oppgave uten manuell utforming av funksjoner. Dette hierarkiske læringsprinsippet er kjernen i dyplæring.

Question 2

Q

Hva er læringsoverføring “transfer learning” i dyplæring? Velg alternativet som er korrekt og mest presist

A. Å overføre data mellom to forskjellige maskinlæringsmodeller

B. Å bruke utdata fra ett nevralt nettverk som input til et annet

C. Å kopiere parametre fra et nevralt nettverk til et annet

Answer

A

C. Å kopiere parametre fra et nevralt nettverk til et annet.

Forklaring:
Transfer learning går ut på å ta vektene (parametrene) fra et nettverk som allerede er trent på én oppgave (ofte med stort datasett), og bruke disse som utgangspunkt i et nytt nettverk for en beslektet oppgave. Dette sparer både tid og data, siden man gjenbruker allerede lært representasjon.

Question 3

Q

Hvilke av følgende er lossfunksjoner som brukes i klassifiseringsoppgaver

Gjennomsnittlig kvadratisk avvik (Mean Squared Error)
Kryssentropi-loss (Cross Entropy loss)
Kryssvalidering

Answer

A

Kryssentropi-loss (Cross Entropy loss).

Mean Squared Error brukes primært for regresjonsproblemer.

Kryssvalidering er en evaluerings-/valideringsteknikk, ikke en loss-funksjon.

Question 4

Q

Hvilke av følgende er teknikker brukes til å forhindre “overfitting” overtilpasning i dyplæringsmodeller? Merk at flere av
svaralternativene kan være korrekte.

L1 regularisering
Dropout
Øke antall lag i modellene
Weight Decay

Answer

A

De riktige teknikkene er 1, 2 og 4:

L1-regularisering
Legger til en straff (penalty) på absoluttverdien av vektene, noe som kan føre til sparsity og redusert overtilpasning.

Dropout
Fjerner (setter til null) tilfeldig utvalgte enheter i treningen, hvilket tvinger nettverket til å ikke bli avhengig av enkeltnevroner.

Weight Decay (L2-regularisering)
Legger til en straff på kvadratet av vektene, som demper vekst av store vektverdier og bidrar til bedre generalisering.

Å øke antall lag (3) øker tvert imot modellens kompleksitet og kan forverre overfitting-problematikken.

Question 5

Q

Hva er hovedfunksjonen til et konvolusjonslag i et konvolusjonelt nevralt nettverkCNN?

A. Å lære romlige egenskaper ved å anvende filtre på inndata til laget

B. Å redusere dimensjonene til inndata til laget

C. Å konvertere inndata til laget til en sannsynlighetsfordeling

D. Å beregne avviket mellom predikerte og faktiske verdier

Answer

A

A. Å lære romlige egenskaper ved å anvende filtre på inndata til laget

Forklaring:
Et konvolusjonslag er kjernen i et CNN og har som hovedoppgave å ekstrahere romlige trekk fra inngangsdata (f.eks. bilder) ved å anvende et sett av lærebare filtre (kernels). Hvert filter glir (convolves) over bildet, beregner prikkproduktet mellom filtervektene og et lokalt bildeområde, og genererer dermed et feature map som fremhever bestemte mønstre som kanter, teksturer eller andre visuelle trekk
GeeksforGeeks
Wikipedia
.

Filter (kernel): En liten matrise (f.eks. 3×3 eller 5×5) som lærer å oppdage spesifikke mønstre.

Glidning (stride) og padding: Bestemmer hvordan og hvor ofte filteret anvendes over inndataene, som igjen påvirker størrelsen på output-kartet.

Output: Et sett med feature maps—én per filter—that gir en hierarkisk, romlig representasjon av inputbildets relevante egenskaper.

Hvorfor ikke de andre alternativene?

B. Redusere dimensjoner: Selv om et konvolusjonslag kan minke romlig størrelse via stride eller uten padding, er dette en bieffekt, ikke hovedfunksjonen.

C. Konvertere til sannsynlighetsfordeling: Det er softmax-/sigmoid-funksjoner i output-laget som gjør dette, ikke konvolusjonslagene.

D. Beregne avvik: Det er tapsfunksjonen (loss) sammen med backpropagation som håndterer feilmåling, ikke konvolusjonslagene.

Question 6

Q

Hva er hovedårsaken til at en anvender dataaugmentering i dyplæring?

For å forbedre kvaliteten på treningsdata
For å forhindre overfitting ved å øke variasjonen i treningsdata
For å redusere størrelsen på treningsdata og gjøre trening raskere
For å konvertere data til et format som er kompatibelt med den kunstige nevrale nettverket en bruker

Answer

A

For å forhindre overfitting ved å øke variasjonen i treningsdata.

Forklaring:
Dataaugmentering skaper kunstige variasjoner av eksisterende treningseksempler (for eksempel rotering, skalering, støy) uten å samle inn mer data. Dette tvinger modellen til å generalisere bedre og reduserer risikoen for at den overtilpasser seg spesifikke mønstre i det opprinnelige datasettet.

Question 7

Q

Hva er hyperparametre “hyper parameters” i kontekst av dyplæring?

Forhåndsbestemte vekter og bias-er (parametre) som er faste gjennom hele treningsprosessen
Justerbare parametre som påvirker læringsprosessen og modell-arkitekturen
Input data som brukes til å trene modellen
Prediksjoner fra en modell

Answer

A

Justerbare parametre som påvirker læringsprosessen og modell-arkitekturen.

Forklaring:
Hyperparametre er innstillinger du definerer før treningen starter, som for eksempel læringsrate, antall lag, batch-størrelse, antall epoker og regulariseringskoeffisienter. De styrer hvordan og hvor raskt modellen lærer, samt modellens struktur, men oppdateres ikke under selve treningsprosessen (i motsetning til vekter og bias).

Question 8

Q

Hva er en metrikk? Hvordan er dette forskjellig fra en lossfunksjon?

Answer

A

En metrikk er en målestokk du bruker for å evaluere hvor godt en modell presterer på en gitt oppgave. Eksempler på metrikker i klassifisering er:

Nøyaktighet (Accuracy): Andel korrekte prediksjoner

Presisjon (Precision) og Recall: Spesielt viktig ved skjev datasett

F1-score: Kombinerer presisjon og recall

I regresjon ser man gjerne på:

MAE (Mean Absolute Error)

RMSE (Root Mean Squared Error)

En loss-funksjon (kostnadsfunksjon) derimot er den differensierbare funksjonen som modellen optimerer under trening. Den måler “hvor galt” modellen gjør det for hvert treningseksempel, og brukes til å beregne gradienter i backpropagation. Eksempler:

Cross Entropy Loss – vanlig i klassifisering

MSE (Mean Squared Error) – vanlig i regresjon

Huber Loss, KL-divergens, osv.

Kort oppsummert:

Loss er det interne “kompasset” modellen følger for å lære.

Metrikk er det eksterne “termometeret” du leser av for å vurdere hvor godt læringen faktisk fungerer i praksis.

Question 9

Q

Forklar kort de syv stegene en bruker for å trene et nevralt nettverk:
[kan du lime inn bildet her Ketil]

Answer

A

Init – Initialiser alle parametere (vekter og bias) i nettverket, vanligvis med små tilfeldige verdier.

Predict (Forward pass) – Gi et batch inndata gjennom nettverket og beregn prediksjonene (aktiviseringer i hvert lag).

Loss – Sammenlign prediksjonene med de sanne målene og beregn en tapsverdi (f.eks. kryssentropi eller MSE).

Gradient (Backpropagation) – Beregn gradientene av tapet med hensyn på hver parameter via kjederegelen (“backward pass”).

Step (Oppdatering) – Bruk en optimisator (f.eks. SGD, Adam) til å justere parametrene i retning motsatt gradient, med valgt læringsrate.

Stop-kriterium – Sjekk om treningen skal avsluttes (f.eks. etter et visst antall epoker, når tapet er lavt nok, eller ved tidlig stopp).

Repeat – Hvis ikke stop-kriteriet er nådd, gå tilbake til steg 2 med neste batch/epoke.

Når stopkriteriet er møtt, avsluttes treningsløkken og modellen er ferdig trent.

Question 10

Q

Hva er hensikten med aktiveringsfunksjoner “activation functions” i et nevralt nettverk?

Answer

A

Hensikten med aktiveringsfunksjoner i et nevralt nettverk er å introdusere ikke‐linearitet og dermed la modellen lære komplekse, ikke‐lineære sammenhenger i data. Uten aktivering ville flere lag bare tilsvare én enkel lineær transformasjon. Mer konkret:

Bryter lineæritet: Hvert lag blir mer enn bare en vektet sum + bias, og nettet kan komposere hierarkiske trekk.

Styrer nevronets “utslag”: Funksjonen avgjør hvorvidt (og hvor sterkt) et gitt nevron «skyter» signal videre.

Begrenser utdata: Mange aktiveringer (f.eks. sigmoid eller tanh) pakker output inn i veldefinerte intervaller, noe som kan være nyttig i output‐laget.

Gir differensierbarhet: De fleste aktiveringsfunksjoner er glatte nok til at man kan ta gradienter gjennom dem i backpropagation.

Typiske valg er ReLU (rask, unngår metning for positive verdier), sigmoid/tanh (særlig i output‐lag for binær/multi‐klass) eller mer avanserte varianter som Leaky ReLU, ELU, GELU osv.

Question 11

Q

Forklar konseptet “embeddings” i kontekst av naturlig språkprosessering NLP)

Answer

A

I NLP bruker vi embeddings for å representere diskrete tekstenheter (ord, subord, tegn) som kontinuerlige vektorer i et flerdimensjonalt rom. Hovedpoengene er:

Fra én‐varm til lav‐dimensjon
− Istedenfor å kode hvert ord som en svært stor énhots‐vektor (der alle komponenter er 0 unntatt én), lærer vi en tettpakket vektor på for eksempel 50–1 024 dimensjoner.
− Dette reduserer beregnings‐ og lagringskostnaden betraktelig.

Fanger semantikk og syntaks
− Ord som opptrer i lignende kontekster får nærliggende vektorer. For eksempel vil “kongelig” og “monark” ligge nær hverandre, mens “bil” ligger et annet sted i rommet.
− Relasjoner kan modelleres ved vektor‐aritmetikk, f.eks. v(“Konge”) − v(“Mann”) + v(“Dame”) ≈ v(“Dronning”).

Statisk vs. kontekstuelt

Statisk (Word2Vec, GloVe): Hvert ord har én fast embedding uavhengig av setningskontekst.

Kontekstuelt (ELMo, BERT, GPT): Embedding-en for et ord avhenger av hele setningen, så “bank” i “elvbank” vs. “finansbank” får ulike representasjoner.

Innlæring

Kan læres upervåket via målfunksjoner som predikerer omgivende ord (skip-gram, CBOW) eller statistiske sammenhenger (GloVe).

Kan finjusteres sovervåket som første steg i en modell (f.eks. i en sekvens‐til‐sekvens-arkitektur).

Bruksområder

Som inngang til nevrale språkmodeller, NER, sentimentanalyse, maskinoversettelse osv.

For likhetssøk (f.eks. finne ord eller dokumenter med beslektet mening).

For visualisering av ordrom ved å redusere til 2–3dim (t-SNE, PCA).

Ved å bruke embeddings får modeller en mye rikere og mer fleksibel representasjon enn tradisjonelle frekvensbaserte metoder, noe som har vært en nøkkelfaktor i gjennombruddet for moderne, nevrale NLP-systemer.

Question 12

Q

Forklar kort hvordan bildebaserte modeller kan være relevante også for andre typer data enn bilder. Gi et eksempel.

Answer

A

Bildemodeller (spesielt CNN-er) er ikke avhengige på at input er «bilder» per se, men på at dataene har en rutenett-struktur (grid) med lokalt sammenhengende mønstre. Derfor kan de brukes på alle data som kan representeres som 2D- eller 3D-arrayer.

Eksempel: Lydsignaler kan omformes til 2D-spectrogrammer (tid vs. frekvens), hvor hver piksel angir energi. Et CNN trent på slike spectrogrammer kan da klassifisere talekommander, musikksjanger eller hjertelyder på samme måte som det gjenkjenner objekter i bilder.

Her er noen flere eksempler på hvordan “image-modeller” (i praksis spesielt CNN-arkitekturer) kan gjenbrukes for andre dataformer:

1D-CNN på tidsserier
– Data: Temperaturmålinger, aksjekurser, ellenakkesensorer osv.
– Metode: Behandle hver tidsserie som en én-dimensjonal “signal-bilde” (v × 1) og bruk 1D-filtere for å plukke opp lokale mønstre (f.eks. plutselige hopp eller periodisitet). Brukes mye i prognoser og feildeteksjon i maskineri.

CNN på tekst via sekvens-vinduer
– Data: Setninger kodet som sekvenser av ord- eller tegn-embeddings (L × d).
– Metode: Se på embedding-matrisen som et “bilde” med én akse for tid (ordrekkefølge) og én for embedding-dimensjon. Bruk små 2D-filtere (f.eks. 3 × d) for å gjenkjenne fraser og n-gram-mønstre før videre klassifisering av sentiment, emne etc.

3D-CNN på volumetriske data
– Data: Medisinske volum (CT/MR), 3D-tomografi, video (ramme × H × W).
– Metode: Bruk 3D-filtere som glir i dybde, høyde og bredde for å fange sammenheng i volumet—f.eks. tumorstruktur i et MR-bilde eller bevegelsesmønster i video.

Spektrogrammer for lydanalyse
– Data: Rå lydsignal → spektrogram (tid × frekvens).
– Metode: CNN-et behandler dette som et bilde for klasser som talekommander, musikkgenre eller maskinovervåking (detektere feillyder).

Bildelignende representasjon av grafer og nettverk
– Data: Grafer (node-og-kant-strukturer) → adjacency-matrise eller Laplacian.
– Metode: Enkelte forskere har vist at 2D-CNN på disse matriser kan fange opp lokale subgraf-mønstre, selv om Graph Convolution Networks er mer vanlig.

Question 13

Q

Når vi skal lage valideringsdata er det alltid en god idé å bruke tilfeldig uttrekk av data `RandomSplitter)

Sant eller usant

Answer

A

Usant.

Å bruke RandomSplitter er ikke alltid ideelt. For eksempel:

Tidsserier eller sekvensdata krever at trenings- og valideringssett holder på kronologi (bruk heller TimeSplitter).

Grupperte data (f.eks. flere observasjoner per pasient eller kunde) kan lekke informasjon mellom sett hvis du splitter tilfeldig (bruk GroupSplitter).

Skjeve klasser kan gi ubalanserte valideringssett (bruk StratifiedSplitter).

Dermed bør valgsplitteren alltid tilpasses datatypen og oppgaven – ikke bare et tilfeldig uttrekk.

Question 14

Q

Hva er “feedback loops” og på hvilken måte kan disse skape problemer for maskinlæringsbaserte system?

Answer

A

Feedback loops oppstår når modellens prediksjoner påvirker fremtidige data den trenes på. Dette kan forsterke skjevheter, gjøre modellen mindre nøyaktig over tid, og føre til urettferdige eller feilaktige beslutninger.

Question 15

Q

Hva er bildesegmentering “image segmentation”? Mer enn ett alternativ kan være korrekt.

Metode for å dele inn bildet i betydningsfulle regioner basert på likhet
Metode for å forbedre bilde kontrast
Metode for å redusere bilde støy

Answer

A

Metode for å dele inn bildet i betydningsfulle regioner basert på likhet

Question 16

Q

Hva er en språkmodell language model i kontekst av dyplæring?

En modell som tilordner en vektor av tall til hvert ord i en setning
En modell som predikerer ord tatt ut av setninger eksempel: neste ord fra en passasje tekst
Modeller som brukes til å sammenligne ulike språks grammatiske struktur

Answer

Study These Flashcards

A

En modell som predikerer ord tatt ut av setninger eksempel: neste ord fra en passasje tekst

Question 17

Q

Hvorfor er det utfordrende å forstå og tolke hvordan en dyplæringsmodell kommer frem til en gitt prediksjon?

Answer

Study These Flashcards

A

Fordi dyplæringsmodeller har mange lag og komplekse matematiske koblinger som gjør det vanskelig å se hvilke deler av inputen som påvirker prediksjonen og hvordan. De fungerer ofte som en “black box” uten tydelig forklaring.

Question 18

Q

Gi en teknisk forklaring på et begrep eller en idé fra DAT255 som ikke er dekket av de øvrige eksamensspørsmålene.
Du står fritt til å velge noe du selv finner interessant eller viktig.

Answer

Study These Flashcards

A

full_exam_23 Flashcards

NB! GPT genererte svar! (18 cards)