Prova Flashcards

(72 cards)

1
Q

O que é uma IA baseada em lógica?

A

Utiliza uma base de conhecimento e regras lógicas para fazer deduções

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Qaul é a ideia da aprendizagem de máquina?

A

Construir um modelo matemático que dependa de parâmetros a firm de otimizar a aprendizagem

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Qual é a ideia do modelo de apreindizagem supervisionada?

A

Um conjunto de dados é usado para ajustar os parâmetros de um modelo adaptativo

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Qual o resultado do algoritmo de aprendizagem de máquina?

A

uma função f_w(x) que recebe um grupo de valores de entrada e gera uma saida y indicando a classe prevista de x

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

O que é aprendizagem?

A

Usar os dados para ajustar os parâmetros para que a função calculada resolva o problema

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Quais são as classes de modelo com base nos tipos de dados?

A

1) Aprendizagem Supervisionada
2) Aprendizagem não supervisionada
3) Aprendizagem semi-supervisionada
4) Aprendizagem por reforço

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Qual é a diferença entre aprendizagem supervisionada e não supervisionada?

A

Na supervisionada temos informação sobre o target

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Quais as classes de modelo com base nas funções aprendidas?

A

1) Aprendizagem baseada em instância
2) Aprendizagem baseada em modelo

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Quais as classes de modelo com base nos dados processados?

A

1) Aprendizagem em batch: dados existentes
2) Aprendizagem online: fluxo contínuo de dados

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Qual a função de erro na aproximação polinomial?

A

SSE

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Como escolher o melhor grau do polinômio:

A

Treinar o modelo com um grupo de dados e aplicar no grupo de teste para medir o erro

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

O que é o problema de overfitting?

A

Polinomios se ttonam mais sintonizados com o ruído aleatório

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Como corrigir o problema de overfitting?

A

Mais dados

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

O que é regularização?

A

Adicionamos uma penalidade à função erro para que os coeficientes não atinjam valores grandes:
SSE + lambda/2 ||w||^2

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Quais as hipóteses da aproximação polinomial?

A

1) Existe relação entre features e valores a serem preditos
2) Os dados precisam ser semelhantes à aqueles que vou fazer previsão no futuro

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Quais são possíveis problemas da aproximação polinomial?

A

1) Quantidade insuficiente de daods
2) Dados de treinamento não representativos
3) Dados de baixa qualidade
4) Características irrelevantes

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
17
Q

Como usar o conjuntos de treino, validação e teste?

A

1) Escolha a forma do modelo
2) Treine o modelo
3) Teste o desempenho no grupo de validação
4) Repita etapas 1-3 para todos conuntos de parâmetros
5)Selecione o melhor conjunto de parâmerotros com o melhor grupo de validação
6) Junte os grupos de validação e treino para treinar os parâmetros que você escolheu em 5
7) Meça o desemepnho no grupo de teste

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
18
Q

Como fazer cross-validation?

A

1) Particionar os dados em S grupos
2) Use (S-1) grupos para o treinamento e um para teste
3) Repita o passo 2. S vezes
4) Faça a média das pontuações dos S conjuntos de teste

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
19
Q

O que é o erro tipo 1?

A

Falso positivo

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
20
Q

Oque é o erro tipo 2?

A

Falso negativo

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
21
Q

Oque é acurácia?

A

Porcentagem de previsões certas

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
22
Q

O que é Precisão

A

Acurácia das previsões positivas

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
23
Q

O que é Recall?

A

Porcentagem de positivos que são previstos corretamente

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
24
Q

O que é speficity?

A

Porcentagem de negativos que são previstos corretamente

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
25
Como calcular a Curva ROC?
Calcular o True Positive Ratio e Negative Positive Ratio para diferentes valores do limiar t. Assim obtemos a matriz de confusão
26
Enuncie o teorema de bayes
p(C | x) = p(x|C)p(C)/p(x)
27
O que são modelos generativos?
Inferir p(x|C) e p(C) para cada classe. Use os para encontrar p(x). Usar o teorema de Bayes para encontrar p(C|x)
28
O que são modelos discriminativos?
Inferir p(C|x) diretamente
29
O que é uma função discriminante?
Aprenda uma função f(x), que mapeia a cada entrada x diretamente em um rótulo de classe -> Não há probabilidade
30
Qual a ideia do algoritmo de K-Nearest Neighbor?
Determina a identidade de um ponto usando pontos próximos do conjunto de treinamento
31
Qual o algoritmo do K-nearest-neighbor
1) Ecolha k>0 2) Indentifique K pontos vizinhos 3) Para cada classe j calcular a fração de pontos com rótulo j 4) Classifique como aquele com maior fração
32
O que é o problema de detecção de outliers?
Construa p(x) usando dados do do comportamento "normal" do sistema. Quando uma nova entrada calcula sua probabilidade sob o modelo, se for muito baixa é uma anomalia
33
O que é um método paramétrico?
- Definimos a forma da dstribuição - Aprendemos os parâmetros
34
O que é um método não paramétrico?
- Evita definir distribuições específicas - Existem parâmetros, mas eles apenas controlam a complexidade do modelo
35
O que é o modelo gaussiano único?
Por hipótese assumimos que seguem uma normal independente. Econtramos como parâmetros da nossa distribuição a média amostral de x e a variância viesada de x
36
O que é uma mistura de Gaussianas?
Cada densidade Gaussiana pe um componente da mistura e tem sua prórpira média e covariância
37
Oque é o algoritmo EM para misturas gaussianas?
1) E-Step: Calcule as probabilidades posteriores dado o nosso modelo atual 2) Passo M: Altere os parâmetros de cada gaussiana para maximizar a probabilidade de que ele gere os dados plos quai é responsável
38
Qual a ideia do HIstograma?
1) particionar x em compartimentos distintos 2) Calculcar o numero de observações em cada bin 3) Divida pelo numero total de observações 4) A probabilidade é dada pelo número de pontos na região dividido pelo volume e número totald e observações
39
O que acontece se fixarmos o número de pontos na região de um histograma?
Obtemos um estimador de K-nearest-eighbor
40
O que acontece se fixarmos o volume de um histograma?
Kernel
41
Qual a ideia do modelo Naive Bayes?
Supões que os valores atribidos são condicionalmente independentes dados os valores de destino. Logo, p(x|c_i) = \prod p(x_j |c_i) p(x_j |c_i) -> pode ser modelado com uma distribuição paramétrica
42
Defina o problema de regressão
Dados N observações {x_n} onde n = 1,...N juntamente com os valores de destino correspondentes, o objetivo é prever o valor t para um novo valor de x
43
Qual o estimador dos parâmetros no problema de regressão?
(Φ'Φ)^(-1) Φ't
44
O que é um algoritmo sequencial?
OS datapoints são considerados um de cada vez e os parâmetros do modelo são atualizados após cada apresentação
45
Apresente o agoritmo de agradiente estocástico
w_(t+1) = w_(t) - η∇E_n
46
Qual é a ideia do minínimos quadrados regularizados
Adicionar um termo de regularização a uma função de erro para controlar o ajuste excessivo
47
Como podemos facilitat o modelo de classificação?
Aplicar uma trasnformação
48
Oque são modelos discriminativos probabilísticos?
USar a forma funcional do modelo linear generalizadao e determinar seus parâmetros diretamente usando a máxima verossimilhança.
49
Qual o problema para resolver a maximização da função de máxima verossimilihnaça da regressão logística?
Não há formula fehcada desta vez. Para aprender w pode-se usar um procedimento sequencial onde os datapoints são apresentados um de cada vez
50
Oque é a função de cross entropy da regressão logística
- Σ|t_n ln y_n +(1-t_n) ln(1-y_n))
51
Qual a ideia das redes neurais
Fazer com que as funções de base ϕ*x) dependam de parâmetros sejam ajustadas durante o treinamento
52
Apresente o algoritmo forward de uma rede neural
1) Construa M combinnações lineares das variáveis x: a = Σw_1x + w_0 2) Cada combinação é transformada usando uma função de ativação: z = h(a) 3) Esses valores são combinados lienarmente de novo 4) E assim por diante, até a última função de ativação
53
Se O que acontece se todas as funções de ativação forem lineares?
Sempre podemos encontrar uma rede equivalente sem unidades ocultas
54
O que significa que as redes neurais são aproximadores universais?
Uma rede de duas camadas com saídas lineares pode aproximar uniformemente qualquer função contínua em um domínio de entrada compacto com precisão arbitrária, desde que a rede tenha um número suficiente grande de unidades ocultas
55
Como fazer o treinamento de ume rede neural?
1) Calcular as derivadas da função error em relação aos pesos (backpropagation) 2) Usar as derivadas para calcular os ajustes dos pesos
56
Como fazer o algoritmo de retropropagação para unidade final?
(y_i-t_i)z_i
57
Como fazer o algoritmo de retropropagação para unidade oculta?
δ_j= h'(a_j)Σw_k δ_k A derivada é dada por δ_j z_j
58
Como é o algoritmo para retropropagação do erro:
1) Aplique um vetor de entrada x_n à rede e avance a propagação através da rede 2) Avalie δ_k para todas as unidades de saída 3) Use a formula de retropropagação para retropropagar os δ e obter δ_j para cada unidade oculta 4) As derivadas são dadas por δ_jz_j
59
Qual é a ideia de Arvores de Decisão
1) Segmente o espaçõ de entrada em regiões 2) Para prever um novo datapoint: use a média ou o rótulo majoritário
60
Qual é o algoritmo para construir as regiões na árvore de decisão?
1) A cada passo seleiconamos a feature X_j e o ponto de corte s 2) Definimos o par de semiplanos: R1 = {X | Xj s} 3) Escolhemos j e s que minimizam Σ(y_i-hat{y_i}_R1)^2 + Σ(y_i-hat{y_i}_R2)^2 4) Continuamos o processos até atingir o critério de parada
61
Porque é necessário "podar" a arvore?
Uma arvore grande irá sobreajustar os dados
62
Oque é a poda de complexidade de custo
Consideramos uma sequência de árvores indexadas por um parâmetro de ajuste não negativo Calculamos ΣΣ(y_i-hat{y_i}_Rm)^2 + α|T|
63
Oque é a pureza de um nó na arvore de classifcação
Como, para uma região, pretendemos prever a classe mais comum naquela região, precisamos "quantificar" com que frequência os pontos não pertencem a essa classe
63
Oque fazemos na prática na poda de uma árvore?
1) Todos os pares de nós folha vizinhos (ligados a um nó antecedennte comum) são considerados para eliminação 2) Qualquer cuja eliminação produz um aumento satisfatório no desempenho no conjunto de validação cruzada é eliminado e o nó antecedente considerado uma folha
64
Oque é o método de Bagging?
1) Usar o bootstrap para obter mais conjuntos de treinamento 2) Construir um modelo de previsão separado para cada conjunto de treinamento 3) Tirar a média das previsões
65
Qual é o grupo de teste no Bagging?
Ou-of-bag: Aqueles que não são usados para o aprendizado do modelo
66
Qual é o problema de bagged trees?
Se uma feature é um preditor forte, a maioria das árvores será semelhante. Isso leva a previsões semelhantes e o bagging não é eficaz
67
O que é o modelo de random forest?
1) Construímos uma série de árvores de decisão em amostras de treinamento bootstrap 2) Em cada divisão, uma amostra aleatória de me features é escolhida como candidata a divisão de conjunto completo de p features
68
Quais as semelhanças entre o Bagging e o Boosting?
1) Criamos vários conjuntos de dados 2) Combinamos as saídas
69
Qual a diferença entre Baggin e Boosting?
Bagging: Cada modelo é construído em um conjunto de dados bootstrap, independente dos outros modelos Boosting: Cada aprendiz é construído sobre um conjunto de dados cuja composição depende do desemplenho dosmodelos que foram construídos anteriormente
70
Qual é a ideia do boostng?
Usar o subconjunto de dados de treinamento que são "mais informativos" a cada passo
71