Teoria Flashcards

Question

Rispetto a K-means l’approccio di clustering EM con Gaussian mixture quali maggiori flessibilità consente?

Answer 1

Il principale vantaggio che si ha è che si possono individuare anche cluster di forma ellissoidale che invece K-means non riesce ad individuare.

Answer 2

- Nascita e anni d’oro (1940-1974): primi calcolatori e predizioni ottimistiche - Primo inverno (1974-1980): risultati non all’altezza, riduzione finanziamenti. Problemi: dataset piccoli, scarsa capacità computazionale. - Nuova primavera (1980-1987): calcolatori di Quinta generazione - Secondo inverno (1987-1993): flop dei calcolatori di Quinta generazione, riduzione finanziamenti. Risultati in campi specifici - Tempi moderni (1993-2011): hardware più potente - Deep Learning (2011-oggi): CNN

Answer 3

Un decision boundary o decision surface (superficie decisionale) è una zona di confine tra regioni che il classificatore associa a classi diverse. Sul boundary la classificazione è ambigua. Le superfici decisionali possono assumere forme diverse. Nel caso specifico si tratta di due iperboli. In generale: - Se le 2 matrici di covarianza sono uguali tra loro: la superficie decisionale è un iper-piano. - Se le 2 matrici di covarianza sono arbitrarie: la superficie decisionale è un iper-quadratica.

Answer 4

I criteri di clustering descrivono cosa si vuol ottenere specificando il grado di ottimalità di ogni soluzione ammissibile. Si basano su 2 osservazioni: - Pattern della stessa classe devono essere più simili tra loro di pattern appartenenti a classi diverse - I cluster sono costituiti da nuvole di punti ad alta densità separate da zone a bassa densità - minimizzazione della distanza dai centroidi: si cerca di minimizzare la somma dei quadrati delle distanze dei punti dai centroidi. - minimizzazione distanze intra-classe

Answer 5

- Per apprendimento supervisionato si intende l’utilizzo di un training set in cui i pattern sono tutti etichettati e quindi sono note le classi dei pattern (classificazione e regressione). - Nell’apprendimento non supervisionato le classi non sono note, quindi il training set non è etichettato (clustering).

Answer 6

L’obiettivo è trovare la funzione che fa da mapping tra la variabile indipendente x (scalare o vettore, in entrambi i casi è considerata esatta) e la variabile dipendente y (i cui valori sono numerici e continui, ed è affetta da errore), cioè trovare f(x) -> y.

Answer 7

- 𝜇 controlla il centro dell’ellissoide - Ʃ ne determina la rotazione (elementi NON diagonali della matrice) rispetto agli assi cartesiani e l’allungamento (elementi diagonali della matrice) sui due assi dell’ellisse.

Answer 8

L’indipendenza (o diversità) è normalmente ottenuta: - Utilizzando feature diverse (non correlate o poco correlate) - Utilizzando algoritmi diversi per l’estrazione delle feature - Utilizzando diversi algoritmi di classificazione - Addestrando lo stesso algoritmo di classificazione su porzioni diverse del training set (bagging) - Insistendo con l’addestramento sugli errori commessi dai predecessori (boosting)

Answer 9

- In MLP i neuroni sono fully-connected mentre in CNN no, se non negli ultimi livelli. - Processing locale: i neuroni sono connessi solo localmente a quelli del livello precedente e ognuno di essi esegue un’elaborazione locale. Diminuisce così il numero di connessioni. - Pesi condivisi: i pesi sono condivisi a gruppi. Più neuroni dello stesso livello eseguono la stessa operazione su porzioni diverse dell’input. Diminuisce così il numero dei pesi. - Alternanza tra livelli di feature extraction e pooling.

Answer 10

|| y – X*Beta||^2 - Y: vettore contenente uno scalare per ogni pattern - X: matrice rettangolare in cui ogni riga è un pattern del TS - Beta: vettore dei termini noti

Answer 11

- Con iperparametri si indicano dei parametri necessari agli algoritmi che vanno definiti prima dell’apprendimento vero e proprio (e dei parametri dell’apprendimento). - Sono iperparametri il numero di neuroni in una rete neurale o il numero di vicini k in un classificatore k-NN. - Per ottimizzare gli iperparametri si scelgono dei loro valori ragionevoli e si esegue l’addestramento; si prendono poi gli iperparametri che hanno fornito le prestazioni migliori.

Answer 12

- One-against-one: in questo approccio vengono utilizzati solo classificatori binari. Prese s classi vengono addestrati s(s-1)/2 classificatori, uno per ogni coppia di classi. Ogni pattern viene classificato da ogni classificatore e viene assegnato a quella che ha ricevuto più voti. - One-against-all: addestra s classificatori in cui per ognuno è determinata la superficie di separazione tra i pattern di una classe k e quelli di tutte le altre classi. Il pattern viene assegnato alla classe per cui è massima la distanza dalla superficie decisionale.

Answer 13

- Nel clustering esclusivo un pattern può appartenere ad un solo cluster; - in quello soft invece viene assegnato ad ogni pattern una probabilità di appartenenza ai vari cluster. Il vantaggio che ha quest’ultima versione è che gestisce meglio pattern sul bordo dei cluster ed eventuali outliers.

Answer 14

Q(s,a): i 2 input sono lo stato s e l’azione a. La funzione indica l’ottimalità dell’azione se eseguita quando ci si trova nello stato s. Q deve essere massimizzata per poter eseguire la miglior azione a durante lo stato s affinché si abbia la ricompensa più alta (future reward).

Answer 15

- Nell’approccio parametrico si fanno ipotesi sulla forma delle distribuzioni (si suppone che le forme siano note) e si apprendono i parametri fondamentali dal TS. Classificatore: Bayes. - Nell’approccio non parametrico si apprendono le distribuzioni dal TS. Classificatore: parzen-window

Answer 16

SVM ricerca l’iperpiano (o nel caso non lineare la superficie complesse) di separazione in grado di separare le classi con il maggior margine possibile. Il margine è la distanza minima tra i vettori di una classe e l’iperpiano di separazione trovato.

Answer 17

Può essere definita come la somma dei quadrati degli errori diviso 2. (1/2 * Ʃ(ti-zi)^2) in cui t indica il valore desiderato e z quello prodotto dalla rete). La dipendenza dai pesi è implicita in z.

Answer 18

- K-means: minimizza la distanza dai centroidi. Si parte da una soluzione base e si arriva iterativamente alla soluzione. Ad ogni iterazione si assegnano i pattern al cluster il cui centro è più vicino e poi si ricalcola il centroide. Si ripete tutto fino a che non si raggiunge stabilità. - Fuzzy K-Means: la differenza rispetto a K-means è che assegna ad ogni pattern un grado di appartenenza ai cluster (la probabilità) - EM: consente di individuare anche cluster ellissoidali che invece K-means fatica a identificare.

Answer 19

- AdaBoost è un algoritmo di boosting che quindi si concentra sui pattern erroneamente classificati durante l’addestramento. Per far ciò, crea un multiclassificatore strong a partire da più classificatori weak. - Si parte classificando i pattern con alcuni classificatori, effettuata la classificazione, si verifica la sua correttezza; ai pattern che sono stati classificati erroneamente viene assegnato un peso maggiore rispetto a quelli classificati correttamente. In base ai pesi viene scelto un nuovo classificatore da aggiungere a quelli già presenti che sia efficacie sui pattern critici (quelli erroneamente classificati) e si ripete il tutto.

Answer 20

p(Wi|x) = p(x|Wi)*P(Wi)/p(x) - p(Wi|x): probabilità a posteriori - p(x|Wi): densità di probabilità condizionale, cioè la probabilità che data la classe Wi il prossimo pattern sia x - P(Wi): probabilità a priori, cioè la probabilità che, a prescindere da quale sia il prossimo pattern x, la classe sia Wi - p(x): densità di probabilità assoluta, cioè la probabilità che il prossimo pattern da classificare sia x

Answer 21

- Pattern numerici: valori relativi a caratteristiche misurabili. Età, altezza, peso - Pattern categorici: valori relativi a caratteristiche qualitative o alla presenza/assenza di una caratteristica. Sesso, colore degli occhi o dei capelli - Sequenze: pattern sequenziali con relazione spaziali o temporale. Frase, video, stream audio

Answer 22

- Si parte dall’ipotesi che i pattern siano stati generati da un mix di distribuzioni: ogni classe ha generato i pattern a partire da una propria distribuzione, ma alla fine i pattern appaiono come generati da un’unica distribuzione multi-modale. EM cerca di risalire, partendo dai pattern del TS, ai parametri di queste distribuzioni che li hanno generati. - A tal fine si ipotizza nota la forma delle distribuzioni e si assume, per semplicità, che esse siano tutte dello stesso tipo. Il caso più frequente è quello di mix di 𝑠 distribuzioni multinormali (gaussiane), di cui si vogliono stimare i parametri di definizione (𝑠 vettori medi + 𝑠 matrici di covarianza + 𝑠 coefficienti $\alpha$)

Answer 23

- Fusione a livello di decisione: - majority vote rule (classe maggiormente votata) - borda count (classifica delle classi, per ogni posizione viene assegnato un punteggio, la classe con il punteggio più alto è quella scelta) - Fusione a livello di confidenza: - somma (somma delle confidenze e scelta della massima), - prodotto (prodotto delle confidenze e scelta della massima), - massimo (viene scelta la massima confidenza ottenuta da ogni classe e si sceglie la massima delle massime) - minimo (viene scelta la minima confidenza ottenuta da ogni classe e si sceglie la massima delle minime).

Answer 24

- Il transfer learning è un’alternativa al training da zero di una CNN quando cambia il problema da risolvere; le tecniche utilizzabili sono 2: - Fine tuning: si parte da una rete addestrata su un problema simile, si sostituisce il livello di output con un nuovo livello di output softmax, si mantengono tutti i pesi a parte quelli tra il penultimo e l’ultimo livello che vengono inizializzati random e si effettuano nuove iterazioni di addestramento; - Riutilizzo delle features: si parte da una rete addestrata senza effettuare fine tuning. Si estraggono le feature generate dai livelli intermedi durante il forward e si addestra un classificatore esterno con esse sui nuovi pattern

Answer 25

- Training set: insieme dei pattern su cui viene effettuato l’addestramento trovando i valori ottimi dei parametri. - Validation set: insieme dei pattern tramite i quali vengono definiti gli iperparametri. - Test set: insieme dei pattern su cui si valutano le prestazioni finali. - Se possibile si usano set disgiunti (quando i pattern sono numerosi) altrimenti bisogna ricorrere a tecniche come la k-fold cross validation che consentono di utilizzare stessi pattern opportunamente combinati sia per il training che per il validation set.

Answer 26

- Nella regressione si cerca una funzione mapping tra i valori di x e y, cioè f(x) -> y - I valori di x sono considerati esatti e può essere uno scalare o un vettore; è la variabile indipendente. - I valori di y sono numerici e continui, e sono considerati affetti da errore; è la variabile dipendente (che si ottiene tramite la funzione f e la variabile x)

Answer 27

- Pattern linearmente separabili sono pattern per cui esiste un iperpiano in grado di separarli - Pattern non linearmente separabili sono pattern per cui NON esiste un iperpiano in grado di separarli per cui ci saranno degli errori di classificazione.

Answer 28

- Per convergenza di un algoritmo si intende che: - l’accuratezza ha un andamento crescente (blu) - la loss decrescente (rosso).

Answer 29

- La funziona obiettivo indica il comportamento di un algoritmo ed ha in input il TS e dei parametri; l’addestramento serve per trovare il valore ottimo di questi parametri per massimizzarla. - La loss function indica la perdita o l’errore che deve essere minimizzata.

Answer 30

- Nell’approccio online i pattern sono presentati sequenzialmente e i pesi vengono aggiornati dopo ogni presentazione; - con i mini-batch invece l’aggiornamento del peso avviene solo dopo che tutti i pattern di un mini-batch sono stati processati.

Answer 31

- Relu è definita come max(0,net) - La sigmoide ha il problema del vanishing gradient, cioè la derivata assume spesso valori minori di 1 e il prodotto di molti termini minori di 1 porta il gradiente a ridursi parecchio. La funzione risolve il problema perché la derivata assume valore 0 solo per valori di net negativi o nulli, e assume valore 1 per valori positivi, quindi non annulla il gradiente.

Answer 32

- L’obiettivo rimane sempre quello di cercare l’iperpiano che separa le classi massimizzando il margine ma minimizzando anche il numero di pattern che valicano il margine stesso (e che quindi saranno erroneamente classificati). - Per far questo vengono aggiunte ai vincoli delle variabili di slack positive che li rilassano (esse assumono valore 0 per i pattern separabili ed entrano in gioco solo per quelli non separabili).

Answer 33

Il vettore di output desiderato t è un vettore lungo s (numero delle classi) le cui componenti sono tutte =-1 tranne quella relativa alla classe di appartenenza che è = 1; dato l’output della rete z (anch’esso è un vettore lungo s) si effettua la somma dei quadrati degli errori, cioè la sommatoria delle differenze al quadrato tra i valori di t e di z (Ʃ (ti – zi)^2) e si trova quindi l’errore.

Answer 34

- indichiamo con 𝑝(𝐱|𝑤𝑖) la densità di probabilità condizionale (o condizionata) di 𝐱 data 𝑤𝑖, ovvero la densità di probabilità che il prossimo pattern sia 𝐱, sotto l’ipotesi che la sua classe di appartenenza sia 𝑤i. - indichiamo con 𝑃(𝑤𝑖) la probabilità a priori di 𝑤𝑖 ovvero la probabilità, indipendentemente dall’osservazione, che il prossimo pattern da classificare sia di classe wi.

Answer 35

- Big Data: disponibilità di dataset etichettati di grandi dimensioni - Gpu computing: il training di modelli complessi (profondi e con molti pesi e connessioni) richiede elevate potenze computazionali. - Vanishing Gradient: la retro propagazione del gradiente (fondamentale per backpropagation) è problematica su reti profonde se si utilizza la sigmoide come funzione di attivazione.

Answer 36

net_i = sum_{j=1..d}{ w_{ji} x in_j + w_{0i} } out_i = f(net_i) - 𝑖𝑛1, 𝑖𝑛2, … 𝑖𝑛𝑑 sono i 𝑑 ingressi che il neurone 𝑖 riceve da assoni di neuroni afferenti. - 𝑤1𝑖, 𝑤2𝑖, … 𝑤𝑑𝑖 sono i pesi (weight) che determinano l’efficacia delle connessioni sinaptiche dei dendriti (agiremo su questi valori durante l’apprendimento). - 𝑤0𝑖 (detto bias) è un ulteriore peso che si considera collegato a un input fittizio con valore sempre 1; questo peso è utile per «tarare» il punto di lavoro ottimale del neurone. - 𝑛𝑒𝑡_𝑖 è il livello di eccitazione globale del neurone (potenziale interno); - 𝑓(∙) è la funzione di attivazione che determina il comportamento del neurone (ovvero il suo output 𝑜𝑢𝑡𝑖) in funzione del suo livello di eccitazione 𝑛𝑒𝑡_𝑖.

Answer 37

- SVM lineare (i.e., la superficie di separazione è un iperpiano) e pattern del training set linearmente separabili (i.e., esiste per ipotesi almeno un iperpiano in grado di separarli). - SVM lineare e pattern non linearmente separabili. Ci saranno inevitabilmente errori di classificazione nel training set non esistendo alcun iperpiano in grado di separare i pattern. - Nel caso d=2 la superficie di separazione è una retta - Nel caso d=3 la superficie è un iperpiano

Answer 38

- Le reti ricorrenti prevedono «anche» collegamenti all’indietro o verso lo stesso livello. I modelli più comuni e diffusi (es. LSTM, GRA) prevedono collegamenti verso lo stesso livello.

Answer 39

- L’obiettivo è apprendere un comportamento ottimale a partire dalle esperienze passate. - Un agente esegue azioni ( 𝑎 ) che modificano l’ambiente, provocando passaggi da uno stato (𝑠) all’altro. Quando l’agente ottiene risultati positivi riceve una ricompensa o reward.

Answer 40

- SVM prevede un’importante estensione della teoria inizialmente sviluppata per iperpiani, al caso (non lineare) di separazione dei pattern con superfici anche molto complesse. Tutto ciò avviene in modo molto semplice: - Viene definito un mapping Φ non lineare dei pattern dallo spazio di partenza R𝑑 verso uno spazio R𝑚 a più alta dimensionalità (𝑚 > 𝑑) - Nello spazio R𝑚, dove maggiori sono i gradi di libertà, i pattern Φ 𝐱1 , Φ 𝐱2 , … Φ 𝐱𝑛 possono essere più facilmente separati da un iperpiano. - Kernel più utilizzati: - Polinomio di grado 𝑞 (iperparametro): - Radial Basis Function (RBF) di ampiezza 𝜎 (iperparametro) - Sigmoid (meno utilizzato)

Answer 41

- Un livello di pooling esegue un’aggregazione delle informazioni nel volume di input, generando feature map di dimensione inferiore. Obiettivo è conferire invarianza rispetto a semplici trasformazioni dell’input mantenendo al tempo stesso le informazioni significative ai fini della discriminazione dei pattern. - L’aggregazione opera (generalmente) nell’ambito di ciascuna feature map, cosicché il numero di feature map nel volume di input e di output è lo stesso. Gli operatori di aggregazione più utilizzati sono la media (Avg) e il massimo (Max): entrambi «piuttosto» invarianti per piccole traslazioni. Questo tipo di aggregazione non ha parametri/pesi da apprendere

Answer 42

I pattern del training set che giacciono sul margine sono detti support vector. Tali pattern, che costituiscono i casi più complessi, definiscono completamente la soluzione del problema, che può essere espressa come funzione di solo tali pattern, indipendentemente dalla dimensionalità dello spazio 𝑑 e dal numero 𝑛 di elementi in TS

Answer 43

- Obiettivo dei metodi per la riduzione di dimensionalità (dimensionality reduction) è quello di eseguire un mapping dallo spazio iniziale R𝑑 a uno spazio di dimensione inferiore R𝑘, 𝑘 < 𝑑. - Può essere vista come una forma di compressione (con perdita di informazione). Obiettivo è scartare le informazioni non rilevanti o meno rilevanti per il problema di interesse - Riduzione di dimensionalità non significa mantenere alcune «dimensioni» e cancellarne altre, ma «combinare» le dimensioni in modo opportuno.

Answer 44

- Y: vettore contenente uno scalare per ogni pattern - X: matrice rettangolare in cui ogni riga è un pattern del TS - Beta: vettore dei termini noti

Answer 45

- L’organizzazione gerarchica consente di condividere e riusare informazioni (un po' come la programmazione strutturata). Lungo la gerarchia è possibile selezionare feature specifiche e scartare dettagli inutili. - BigData: disponibilità di dataset etichettati di grandi dimensioni - GPU computing - Convolutional Neural Networks (CNN)

Answer 46

- Richiede in input il numero di cluster (𝑠) e una soluzione iniziale. Produce buoni risultati a patto di fornire una ragionevole soluzione iniziale e un numero adeguato di classi. - Il tipo di ottimizzazione è iterativa e locale; pertanto il metodo può convergere a massimi locali della soluzione. - Identifica cluster iper-sferici nel caso in cui venga utilizzata la distanza euclidea come misura di distanza tra i pattern o cluster iper-ellissoidali nel caso di distanza di Mahalanobis. - Minimizzando le distanze dai centroidi, K-means non è in grado di identificare cluster dalla forma non sferica.

Answer 47

- processing locale: i neuroni sono connessi solo localmente ai neuroni del livello precedente. Ogni neurone esegue quindi un’elaborazione locale. Forte riduzione numero di connessioni. - Pesi condivisi: i pesi sono condivisi a gruppi. Neuroni diversi dello stesso livello eseguono lo stesso tipo di elaborazione su porzioni diverse dell’input. Forte riduzione numero di pesi.

Teoria Flashcards

(71 cards)