Feedforward Networks Flashcards

1
Q

Por que elas são chamadas de feedforward?

A

Porque o output de um layer será input do outro em sequência.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

O que é a profundidade (depth) da rede?

A

É o tamanho da cadeia (número de layers)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

O que faz uma camada ser oculta?

A

Não existe um y especificado para elas ao contrário da camada de output.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Explique o funcionamento das units

A

Cada camada consiste de várias units que atuam em paralelo. Cada uma representa uma função vetor para escalar. Retornam um valor de ativação (activation value).

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Explique o básico sobre o Teorema da Aproximação Central.

A
  1. Uma linear output layer + ao menos uma hidden layer podem aproximar qualquer função Borel mensurável com quase 0 de erro desde que tenhamos hidden units o suficiente.
  2. Podemos conseguir qualquer grau de acurácia que quisermos desde que tenhamos uma rede grande o suficiente.
  3. É possível representar um grande número de funções em uma rede profunda composta somente por ReLU.
  4. Um MLP grande vai conseguir fazer essa representação, mas não necessariamente irá aprender a função.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Descreva o passo-a-passo básico de cálculos da rede no sentido direto.

A
  1. Multiplicar inputs pelos pesos
  2. Somar o resultado
  3. Aplicar a Função de Ativação e obter o Valor de Ativação
  4. Atualiza os pesos com base no cálculo de erro (MSE ou RMSE)
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Descreva brevemente learning rate e nomeie seus principais impactos

A

Determina a magnitude das atualizações dos pesos durante o treinamento, ou seja, o quanto os pesos são ajustados a cada passo do algoritmo de otimização.

Sua importância está relacionada ao seu impacto na velocidade de convergência e na qualidade do modelo treinado.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Descreva os efeitos da learning rate sobre a velocidade de convergência

A

Uma taxa de aprendizado bem ajustada permite que o modelo alcance uma solução ótima ou quase ótima em um tempo razoável.

Se a taxa for muito alta, o modelo pode divergir ou oscilar ao redor do mínimo, nunca alcançando uma solução estável.

Se a taxa for muito baixa, o modelo pode levar muito tempo para convergir ou ficar preso em um mínimo local ou em um platô.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Descreva os efeitos da learning rate sobre a qualidade do modelo treinado

A

Uma taxa de aprendizado bem ajustada permite que o modelo alcance um bom equilíbrio entre underfitting e overfitting, além disso, pode ajudar o modelo a escapar de mínimos locais subótimos e encontrar soluções melhores.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Cite estratégias para encontrar uma learning rate adequada

A
  • Experimentação: testar diferentes valores e escolher aquele que resulta no melhor desempenho do modelo, com base em métricas de validação
  • Grid search ou Random search: exploram sistematicamente o espaço de hiperparâmetros e encontram a combinação que resulta no melhor desempenho do modelo
  • Taxa de aprendizado adaptativa: algumas variantes do Gradiente Descendente, como Adam, RMSprop e Adagrad ajustam automaticamente a taxa de aprendizado ao longo do treinamento, o que facilita a escolha de um valor inicial
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Explique dropout

A

É uma técnica de regularização usada em Deep Learning para reduzir o problema de overfitting.

A ideia é “desligar” aleatoriamente certos neurônios durante o treinamento, o que ajuda a prevenir a dependência excessiva de qualquer neurônio específico e, consequentemente, evita a coadaptação entre eles.

É como se estivéssemos treinando uma “bag” (coleção) de sub-redes diferentes, cada uma com uma arquitetura ligeiramente diferente, pois alguns neurônios estão desligados. Costuma levar a um modelo mais robusto e com melhor capacidade de generalização.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Explique teoricamente Batch Normalization

A

Ténica usada em Deep Learning para estabilizar e acelerar o aprendizado das redes neurais. Ela padroniza as entradas de modo que tenham média 0 e variância unitária. Isso é feito ao calcular a média e a variância do batch de dados que passam por uma camada e, em seguida, normalizar os dados com esses valores. A normalização é seguida por uma operação de escalonamento e deslocamento, que permite que a camada aprenda a melhor distribuição dos dados.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Cite os benefícios do Batch Normalization

A
  1. Acelera o treinamento: ajuda a mitigar o problema do desaparecimento do gradiente, que pode retardar o treinamento de redes neurais profundas
  2. Permite uma maior taxa de aprendizado: sem batch normalization, as redes neurais podem ser sensíveis à escolha da taxa de aprendizado. Uma taxa de aprendizado muito alta pode levar a explodir gradientes, enquanto que uma muito baixa pode levar a um treinamento muito lento.
  3. Atua como uma forma de regularização: adiciona um pouco de ruído aos dados de entrada de cada camada. Pode ter efeito de regularização similar ao de dropout.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly