Racunarski vid - Masina skripta Flashcards

Question

25. Na koji način je moguće iskoristiti SVM kad podaci nisu linearno separabilni?

Answer 1

Ukoliko originalni prostor sadrži podatke koji nisu linearno separabilni, možemo da izvršimo mapiranje na višedimenzioni prostor (pri čemu su nove dimenzije izvedene iz postojećih) u kojem podaci jesu linearno separabilni. Funkcija Fi predstavlja mapiranje između orignialnog i novog, višedimenzionalnog prostora. Da ne bismo eksplicitno računali funkciju transformacije prostora, koristi se kernel funkcija kako bi se obezbedila nelinearna granica u originalnom prostoru. Primeri kernel funkcije su: - Linearna - - daje linearnu granicu - Gausova RBF - - daje beskonačno dimenzioni prostor pa se površ koja razdvaja tačke može zakriviti - Presek histograma - - daje opseg od 0 (histogrami koji nemaju presek) do 1 (isti histogrami) SLIKA

Answer 2

Ulazna slika se deli na ćelije i na nivou svake ćelije se na osnovu gradijenata piksela određuje histogram gradijenata po orijentaciji (HOG) tj. za svaki gladijent se određuje u koji od opsega orijentacija spada i njegova amplituda se dodaje na odgovarajuću stavku u histogramu. Slika sada predstavlja matricu histograma. Njenom linearizacijom dobija se vektor amplituda. Nad odgovarajućim trening skupom ovakvih vektora trenira se linearni SVM koji pokušava na što optimalniji način da definiše graničnu liniju koja razdvaja skup vektora koji predstavljaju osobu i onih koji ne predstavljaju osobu.

Answer 3

Ako se pitanje odnosi na pretragu sličnih slika onda je odgovor kao za 28. Ako se odnosi na prepoznavanje instanci tj. klasifikaciju slika na osnovu vreće vizuelnih reči onda: Za ulaznu sliku nalaze se svi fičeri koje ona sadrži. Ti fičeri mapiraju se na prostor fičera koji je klasterizovan tako da centar svakog klastera predstavlja vizuelnu reč koja služi da opiše čitav klaster. Proverom pripadnosti fičera klasterima tj. vizuelnim rečima, slika se konvertuje u histogram pojavljivanja vizuelnih reči tj. u vreću vizuelnih reči. Taj histogram zapravo predstavlja fičer vektor koji opisuje sliku pa se problem klasifikacije slike svodi na problem klasifikacije fičer vektora. Tj. mogu da se koriste metode poput SVM ili boosting-a. SLIKA

Answer 4

Za svaku sliku koju želimo da sačuvamo/indeksiramo pomoću inverznog indeksa nalazimo fičere koji se na njoj nalaze. Te fičere mapiramo na prostor fičera u kojem određujemo klastere. Centar svakog klastera predstavlja „vizuelnu reč“ i koristi se kao reprezentacija čitavog tog klastera fičera. Nalaženjem kom klasteru tj. kojoj vizuelnoj reči pripadaju svi fičeri neke slike, ta slike biva konvertovana u skup vizuelnih reči. Za svaku vizuelnu reč nađenu u slici dodaje se referenca na tu sliku. Na taj način se gradi struktura u kojoj imamo spisak vizuelnih reči i za svaku od njih reference na sve slike u kojima se ta vizuelna reč javlja. Kada želimo da na osnovu neke nove slike pretražimo ovi inverznu strukturu kako bismo dobili njoj slične slike, iz originalne slike se na isti način nalaze vizuelne reči koje sadrži. Zatim se na osnovu tih vizuelnih reči nalaze sve slike koje ih sadrže, nakon čega se vrši rangiranje nađenih slika po tome po koliko se vizuelnih reči poklapaju. Na taj način dobija se spisak sličnih slika od one sa najvećim poklapanjem.

Answer 5

Veštački neuron predstavlja jednostavni procesni element koji obavlja relativno jednostavnu matematičku funkciju (aktivacioni funkciju a). Sadrži ulaze x1, ... xn koji na funkciju utiču težinama wi1, ... win (u kojima se zapravo akvizira znanje), na izlaz još utiče i tetai koji predstavlja prag okidanja (bias). ReLU aktivaciona funkcija predstavlja funkciju f(x) = max(0,x). Ova funkcija je najčešće u upotrebi jer je dosta jednostavna pa se izuzetno brzo izračunava, a u praksi se pokazalo da daje dobre rezultate.

Answer 6

Overfitting predstavlja problem kada se funkcija savršeno uklapa u trening podatke ali ne generalizuje model dobro za nepoznati skup podataka. Ovo se dešava usled korišćenja mreže prevelikog kapaciteta, sa prevelikim brojem neurona. Za izbegavanje overfitting-a, čak i kada se koristi mreža sa isuviše velikim brojem neurona, koriste se tehinike regularizacije. Regularizacija se vodi idejom da treba izbegavati velike težine jer kod njih male promene u ulazu vode velikim promenama u izlazu. Kako bi se to postiglo, povećava se cena koju nose velike težine. Na taj način, pojava velikih težina će znatno uticati na povećanje greške pa će se model truditi da minimizuje takva odstupanja. Metodi regularizacije su glasanje i dropout. - Glasanje – S obzirom na to da treniranje uvek kreće od nasumičnih vrednosti, svaki put dobijamo različiti model. Ideja je utrenirati više različitih modela koji će onda da glasaju za izlaze. - Dropout – Ideja je da u svakom koraku obučavanja odaberemo nasumičan skup neurona koje ćemo isključiti iz mreže. Na taj način obavezujemo neurone narednog sloja da nauče da se oslanjaju na sve neurone podjednako (odnosno da ne favorizuju rezultate nijednog zasebnog neuroa) jer ne znaju koji će neuroni u kom trenutku biti isključeni iz mreže. Ova tehnika koristi se samo u fazi obučavanja i daje slične rezultate kao glasanje ali predstavlja jeftinije rešenje.

Answer 7

Duboke konvolucione neuronske mreže su vrlo efikasne zato što je moguće paralelizovati ih korišćenjem GPU, čime se znatno povećava brzina izračunavanja. Takođe, njihova konfiguracija je vrlo jednostavna, što znatno olakšava testiranje različitih struktura mreža. Ovo je naročito bitno jer je potrebno napraviti mrežu koja prepoznaje na hiljade različitih klasa uzoraka, a veza između strukture mreže i uzoraka koje ona prepoznaje nije uvek očigledna.

Answer 8

Konvoluciona neuronska mreža predstavlja višeslojnu veštačku neuronsku mrežu koja se sastoji od jednog ili više konvolucionih slojeva. Svaki konvolucioni sloj ponaša se kao ekstraktor fičera iz ulazne slike – sa slike koju dobija na ulazu izvlači fiksan broj fičera fiksnih dimenzija, pri čemu svaki fičer predstavlja jedan 2D sloj u 3D rezultatu koji konvolucioni sloj generiše. Iza konvolucionih slojeva najčešće se nalaze pooling slojevi koji služe za smanjenje prostorne dimenzije slike, odnosno od slike prave neku vrstu mape. Rezolucija slike se u ovim slojevima smanjuje, najčešće duplo, i na taj način se slika prevodi u skup informacija o sadržaju – znamo šta se nalazi na slici, a nije nam važno gde na slici se to nalazi. Pooling slojevi omogućavaju invarijantnost na pomeranje i distorziju. Mreža koja se sastoji od konvolucionih i pooling slojeva na izlazu generisaće skup fičera sa malom prostornom, a velikom dimenzijom fičera, koji opisuju sadržinu ulazne slike. Kako bi se na osnovu njih donela odluka pripadnosti klasi, na izlazni kraj čitave konvolucione neuronske mreže stavlja se potpuno povezana slojevita neuronska mreža koja vrši klasifikaciju, odnosno povezuje sve izlaze iz poslednjeg konvolucionog/poolig sloja sa izlaznim neuronima koji reprezntuju klase. U tim neuronima najčešće se koristi softmax funkcija koja obezbeđuje da na izlazu iz čitave mreže imamo verovatnoće pripadanja svakoj od klasa.

Answer 9

Konvolucioni sloj kod konvolucionih neuronskih mreža predstavlja ekstraktor fičera. Na ulaznoj slici prepoznaje i izvlači fičere koji su značajni i karakteristični. Generiše 3D izlaz, pri čemu svaki od 2D slojeva tog izlaza predstavlja odziv na jedan od fičera. Parametri konvolucionog sloja su dimenzija ulazne slike (imageSize), dimenzija popune koja se dodaje kao okvir na sliku (padding), veličina kernela koji se koristi za ekstrakciju fičera (kernelSize) i pomeraj sa kojim se kernel primenjuje na sliku (stride). Veličina izlaza po prve 2 dimenzije raluna se po sledećoj formuli: Dok je veličina po 3. dimenziji jednaka broju fičera koji se detektuje u tom sloju. Da bi se dobio odziv na jedan fičer slika se najpe uokviruje padding brojem nula sa sve 4 strane (čime se kontroliše da li će ili ne doći do smanjenja veličine izlaza), zatim se obilazi od gorenjeg levog do donjeg desnog ugla. Od piksela koji se trenutno obilazi posmatra se matrica veličine kernelSize x kernelSize i nad njom se vrši funkcija redukcije shodno odgovarajućem fičeru čime se generiše jedna izlazna vrednost. Zatim se vrši pomeranje za stride piksela udesno i ponavlja izračunvanje, sve tako dokle god ima piksela za obilazak tako da oblast koju zahvatamo kernel matricom ne izlazi van granica slike. Zatim se vrši povratak na 0. px po x osi i spuštanje za stride piksela po y osi i ponavalja se postupak dokle je to moguće pod istim uslovima kao za kretanje po x osi. SLIKA

Answer 10

Pooling sloj kod konvolucionih neuronskih mreža predstavlja sloj u kojem se vrši redukcija prostornih dimenzija, pri čemu se ne utiče na dimenziju fičera. Na ovaj način slika se prevodi u neku vrstu mape, odnosno izvlače se informacije o njenoj sadržini jer nam je od interesa samo šta se na slici nalazi, a ne i gde se nalazi. Pooling sloj obezbeđuje invarijantnost na pomeranje i distorzije. Parametri pooling sloja su veličina ulazne slike (imageSize), veličina kernel matrice na nivou koje se vrši izračunavanje (kernelSize) i pomeraj sa kojim se kreće po slici po x i y osi (stride). Prve dve dimenzije izlaza mogu da se dobiju po formuli: (imageSize - kernelSize) / stide + 1 Dok treća dimenzija ostaje nepromenjena. Razlikujemo dva različita tipa pooling slojeva – average pool ili max pool. Tip sloja određuje funkciju (average ili max) kojom se vrši redukcija vrednosti iz matrice kernela na rezultujuću vredsnost. Ulazna slika obilazi se od gornjeg levog ka donjem desnom uglu, od početnog piksela posmatra se matrica veličine kernelSize x kernelSize i nad njenim vrednostima primenjuje se odgovarajuća funkcija (average ili max, zavisno od tipa pooling sloja) čime se dobija izlazna vrednost. Zatim se vrši pomeranje za stride piksela po x osi i ponavlja izračunavanje. Taj postupak se ponavlja sve dok je moguće kretati se po x osi tako da kernel matrica ne ispada van opsega slike. Zatim se vrši povratak na 0. px po x osi i spuštanje za stride piksela po y osi. Kretanje se nastavlja i po y osi pod istim uslovima kao za kretanje po x osi.

Answer 11

3D tačka, sa koordinatama X, Y, Z, iz prostora kamere (3D prostora čiji se centar, tj. tačka 0,0,0, nalazi u centru kamere) može se mapirati na 2D tačku, sa koordinatama U, V, u prostoru slike (2D prostoru koji odgovara ravni slike i u kojem se centar slike nalazi na koordinatama u0, v0) uz pomoć sledećih formula koje opisuju perspektivnu projekciju. f predstavlja fokalnu dužinu kamere tj. udaljenost centra kamere od ravni slike.

Answer 12

Pinhole model kamere predstavlja model kod kojeg se podrazumeva da kamera sadrži mali otvor, koji se nalazi u optičkom centru kamere i koji je dovoljno mali da kroz njega prolazi samo po jedan i tačno jedan zrak od svake tačke realnog objekta. Ti zraci se sakupljaju na ravni slike, koja se nalazi sa suprotne strane kamere u odnosu na realan objekat, i formiraju 2D obrnutu sliku realnog objekta. Koordinatni sistem iw, jw, kw, sa centrom u Ow predstavlja svetski koordinatni sistem i opisuje 3D prostor u kojem se nalazi realan objekat. Koordinatni sistem i, j, k sa centrom u O predstavlja koordinatni sistem kamere i opisuje 3D prostor kamere, sa centrom u centru kamere. Dok π’ predstavlja ravan na kojoj se formira slika. f’ predstavlja fokalnu dužinu kamere, tj. udaljenost centra kamere od ravni slike. Mapiranje 3D tačke iz realnog sveta u 2D prostor slike po pinhole modelu kamere opisano je sa: Matrica [R t], dimenzija 3x4, predstavlja spoljašnju (extrinsic) matricu kamere i opisuje kako se svetski koordinatni sistem (opšti koordinatni sistem koji ne zavisi od kamere) preslikava na koordinatni sistem kamere. Ova matrica se stalno menja sa pomeranjem kamere. R komponenta predstavlja rotacionu matricu, a t komponenta translacioni vektor. Matrica K, dimenzija 3x3, predstavlja unutrašnju (intrinsic) matricu koja predstavlja matricu projekcije tj. opisuje transformaciju iz 3D prostora kamere u 2D prostor slike. Ova matrica se određuje samo jednom jer ne zavisi od međusobnog položaja kamere i spoljnog sveta. Intrinsic matrica zavisi od fokalne dužine kamere po x (fx) i po y (fy), od položaja centra slike u prostoru slike – u0, v0 su koordinate C’ u prostoru slike, i od s koji predstavlja model iskošenja (ako i i j nisu pod 90 stepeni onda je s različito od 0). Extrinsic matrica zavisi od translacionog vektora t (tx, ty, tz) koji opisuje pomeraj centra svetskog koordinatnog sistema u odnosu na centar kamere po x, y i z osi i od rotacione matrice R (opisane sa r11 do r33) koja opisuje rotaciju po x, y i z osi svetskog koordinatnog sistema u odnosu na koordinatni sistem kamere.

Answer 13

Kako bi 3D svet mogao da se prikaže u 2D prostoru slike koristi se projektivna transformacija. Prlikom projekivne transformacije sve linije iz 3D sveta koje nisu paralelne sa ravni slike gube atribut paralelnosti. Usled projektovanja dubine, kako dimenzija Z teži ka beskonačnosti, tako tako dimenzije U i V teže jednoj tački na slici koja predstavlja tačku nestajanja (vanishing point). Sve tačke nestajanja jedne slike nalaze se na istoj pravoj – liniji nestajanja tj. horizontu.

Answer 14

Kalibraciona matrica kamere ima 11 stepeni slobode. Za njihovo određivanje potrebna je po jedna jednačina, što znači da nam je potrebno 5 i po parova tačaka da bismo ih odredili (tj. 5 parova tačaka i za jednu tačku veza samo po u ili v). Za svaki skup od 5 i po tačaka možemo da odredimo jednu matricu kamere (svih 11 stepeni slobode). Ukoliko imamo više parova njihovim grupisanjem u skupove od 5 i po parova, dobijamo više različitih rešenja za M. Kako bismo odredili najoptimalnije moguće M za broj parova veći od 5 i po, koristi se metod minimizacije srednje kvadratne greške. Odnosno traži se matrica M takva da je suma rastojanja njene primene na 3D tačku od 2D para te tačke minimalna. Takva matrica na najbolji način modeluje dati skup.

Answer 15

Afina transformacija je kombinacija translacije, rotacije, skaliranja i smicanja. Ima 6 stepeni slobode pa je za njeno određivanje potrebno imati 3 para tačaka. Pri primeni afine transformacije očuvavaju se paralelne linije i prave linije ostaju prave, dok se površine, dužine i uglovi ne očuvavaju. SLIKA

Answer 16

Homografija je kombinacija translacije, rotacije, skaliranja, smicanja i projektivnog krivljenja (što znači da svaki „ćošak“ slike može nezavisno da se „razvuče“). Ima 8 stepeni slobode pa je za njeno određivanje potrebno 4 parova tačaka. Pri primeni hoomgrafije očuvavaju se jedino prave linije dok se površine, dužine, uglovi i paralelne linije ne očuvavaju. SLIKA

Answer 17

Osnova je linija OO’ koja povezuje centre kamera stereo sistema. Epipolovi (e i e’) su preseci osnove sa ravnima slika i predstavljaju projekcije centra druge kamere. Epipolarna ravan (OXO’) je ravan koja sadrži tačku X i osnovu. A epipolarne linije (l i l’) se nalaze u preseku epipolarne ravni i ravni slika. SLIKA

Answer 18

Epipol je tačka preseka osnove (linije koja spaja centre kamera stereo sistema) i ravni slike. Predstavlja projekciju centra druge kamere stereo sistema. Takođe predstavlja tačku preseka svih epipolarnih linija. Pri pomeraju paralelnom sa ravni slike (upravno na osu kamere) epipolovi se nalaze u beskonačnosti. Dok se pri pomeraju duž ose kamere epipol nalazi na samoj slici. SLIKA

Answer 19

Esencijalna matrica E je matrica dimenzija 3x3 koja povezuje parove normalizovanih homogenih koordinata u slikama. Sadrži informacije o relativnom položaju i orijentaciji kamera, odnosno relativnu rotaciju i translaciju između kamera, tj. njihove extrinsic parametre. Dok fundimentalna matrica F obezbeđuje vezu između nekalibrisanih kamera (kada intrisnic matrice kamera nisu poznate). Matrica F je takođe dimenzija 3x3 ali je rang matrice 2 (jedna kolona je linearna kombinacija druge dve). Veza između E i F je sledeća: Gde K i K’ predstavljaju intrisnic matrice kamera stereo sistema. FORMULA

Answer 20

Ukoliko pretpostavimo da su kamere koje čine stereo sistem kalibrisane i da su njihove optičke ose paralelne, onda na osnovu položaja tačke na slikama koje generišu kamere možemo da odredimo dubinu te tačke u 3D prostoru tj. njeno rastojanje od kamera. Na osnovu trouglova (OL, P, OR) i (PL, P, PR) možemo da zakjlučimo: SLIKA

Answer 21

Za nalaženje uparenih piksela na stereo slikama koristi se epipolarno ograničenje koje nalaže da se na osnovu položaja projekcije tačke na jednoj od slika može odrediti linija na drugoj slici na kojoj se sigurno nalazi projekcija te site tačke. Ta linija se zove epipolarna linija. Za slučaj kalibrisanih kamera, ovo ograničenje može da se opiše sa: , gde je E esencijalna matrica i , Tj. 𝑥̂ je zrak koji iz centra kamere prolazi kroz projekciju tačke X na ravni slike (x) i ide ka tački X. Za slučaj nekalibrisanih kamera, ograničenje se opisuje sa: , pri čemu je .

Answer 22

Pretpostavke sa kojima je izveden Lukas-Kanade algoritam su: - U nekom prozoru oko centralnog piksela se i drugi pikseli kreću na isti način – ograničenje prostorne koherencije - Pomeraj koji piksel napravi između dva frejma je mali (manji od 1px) - Boja piksela (tj. njegov osvetljaj) je konstantna Međutim, ove pretpostavke nisu uvek tačne. Npr. konstantni osvetljaj nije uvek zadovoljen. Ovaj problem može da se prevaziđe praćenjem fičera koji su invarijantni na promene u osvetljenju, poput SIFT-a. Takođe, pomeraj između dva frejma za neke objekte je često veći od 1px. Ovo vodi problemu alijasinga – ukoliko je pomeraj preveliki, pogrešno će se naći najbliži sličan sused piksela i dobićemo privid kretanja koje zapravo ne postoji. Kako bi se ovo prevazišlo koristi se tehnika grube ka finoj proceni. Ova tehnika bazira se na ideji da pomeraj može da se svede na subpiksel vrednost ukoliko se smanji rezolucija. Zato se kreira Gausova piramida slika koja se generiše tako što se ista slika zamuti Gausovim filterom pa zatim smanji duplo i proces se ponavlja dok se ne dođe do neke minimalne veličine. Zatim se kreće obrada od najmanje slike i na njoj se odrede pomeraji. Zatim se ti pomeraji dupliraju i primene na veću sliku i tako u njoj otklone veći pomeraji pa se zatim u toj slici nalaze pomeraji koji su za nju <1px i oni dodaju na već izračunate. Proces se nastavlja do najveće slike (originalna rezolucija). SLIKA

Answer 23

Problem aperture uzrokovan je time što nekada ne vidimo čitav objekat i njegovo kretanje već samo jedan njegov deo što rezultuje time da možemo da dođemo do pogrešnih pretpostavki o tome kako se objekat zapravo kreće. SLIKA

Answer 24

Prilikom izvođenja formule za određivanje pomeraja piksela između trenutaka t i t+1 kod Lukas-Kanade metoda za određivanje optičkog toka, dolazi se do zaključka da matrica ATA (koja sadrži sume proizvoda izvoda slike za određeni prozor piksela po x i po y) treba da bude invertujuća. Da bi taj uslov bio zadovoljen moraju da budu ispunjeni isti uslovi za sopstvene vrednosti 1 i 2 matrce ATA, kao uslovi koji se koriste da bi se odabrao dobar fičer za praćenje kod Harisovog detektora uglova. Odnosno 1 i 2 treba da budu veće od nekog predefinisanog praga i treba da budu međusobno uporedive tj. da ne važi da je jedna vrednost znatno veća od druge.

Answer 25

Kinect obezbeđuje informacije o dubini svakog piksela tako što pored kamere poseduje i projektor koji projektuje neki pseudo-slučjani patern u infra-crvenom spektru na prostor koji snima kamera. Kamera snima klasičnu RGB sliku, ali ima i IC senzor koji pokuplja i projektovane informacije. Na osnovu obrasca rasipanja projekovanih infra-crvenih zraka na objekte koji se snimaju kamerom, moguće je određivanje dubine na kojoj se nalazi svaki piksel tj. krairanje RGBD (dubinske) slike koja za svaki piksel sadrži informaciju o boji i udaljenosti od kamere.

Answer 26

Mean shift algoritam predstavlja algoritam za segmentaciju na osnovu boja, odnosno algoritam koji na osnovu skupa već klasifikovanih tačaka nalazi centre klastera za svaku klasu. Za svaku tačku iz skupa, centar prozora se najpre postavi na tu tačku (veličina prozora se definiše pre početka algoritma i predstavlja njegov bitan parametar). Za prozor se određuje centar mase tj. srednja vrednost tačaka koje upadaju u prozor, pa se prozor pomera tako da se centar mase poklopi sa centrom položaja. Zatim se ponovo računa centar mase i postupak se ponavlja sve dok se ne dođe u situaciju da se novi centar mase poklapa sa centrom položaja. Tada se smatra da je centar klastera nađen. Za sve tačke koje vode istom centru klastera smatra se da pripadaju istom klasteru. Kod Kinecta, ovaj algoritam se koristi da na osnovu već klasifikovanih piksela odredi položaj zglobova. Dakle, na osnovu dubinske slike vrši se klasifikacija piksela na osnovu pripadnosti delovima tela. Tako klasifikovani pikseli ulaze u Mean shift algoritam kako bi se za svaki zglob (deo tela) odredila njegova tačna lokacija (koja će zapravo biti centar klastera te klase).

Racunarski vid - Masina skripta Flashcards

(51 cards)