3. Model Validation Flashcards

(19 cards)

1
Q

What is model validation

A

Processo para garantir que:
1. O modelo generaliza bem para dados novos
2. Não está overfitted
3. Usa as métricas adequadas para o problema

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

What is supervised learning

A

Quando o modelo aprende a mapear entradas - inputs - para saídas - outputs. O objetivo é encontrar uma funçao h(x) - hipoteses que se aproxime da funçao real.
Employ a training dataset and test the accuracy of the hypothesis found in a test dataset.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

What are the phases in CRISP-DM in Modeling phase

A
  1. Select Modeling Technique (modeling technique, modeling assumptions)
  2. Generate Test design (test design)
  3. Build Model (Parameter setting, model, model description)
  4. Assess Model (Model Assessment, revised parameter settings)
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

What is train dataset

A

usado para ensinar o modelo (e ajustar os parametros)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

WHat is a test dataset

A

usado para avaliar o modelo (ver se generaliza bem)
Um modelo generaliza bem quando consegue corretamente prever o valor y para novas observações (daods que nunca viu antes)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

What is Model Validation

A

Model Validation é o processo de avaliar o desempenho do modelo em dados que ele nunca viu (dados fora do treino). O objetivo é medir o erro de generalização - ou seja - quão bem o modelo se comporta em situações reais

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Quais são os 2 principais metodos de validação de dados

A
  1. hold out
  2. cross validation
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Como funciona o K-Fold Cross Validation

A

Os dados sao separados em k folds, e sao usados como treino e testes em iterações diferentes, no final confere se a performance dos vários folds

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Quais são as vantagens do Kfold

A
  1. Usa todos os dados de treino, para treinar e validar
  2. Reduz o risco de overfitting ou underfitting por causa de uma má divisão
  3. Dá uma estimativa + robusta ao modelo
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

What are the main sampling methods

A
  1. Random sampling
  2. Stratified Sampling
  3. Out of time sampling
  4. Undersampling
  5. Oversampling
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Como funciona random sampling

A

selects a random percentage of instances

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Como funciona Stratified Sampling

A

garante que a amostra mantenha a mesma distribuiçao de classes que o dataset original. isto é um fundamental em problemas com classes desbalançeadas

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

como funciona out of time

A

usa a dimensão temporal para dividir os dados, por exemplo treinar com dados de 2023 e testar com 2024, é fundamental para problemas onde se está a tentar prever o futuro.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Quais sao algumas metodos de undersampling

A
  • random under sampling
  • cluster
  • tomek links
  • ensemble learning
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Quais sao alguns metodos de oversampling

A
  • random oversampling
  • SMOTE
  • SOMO
  • ADASYN
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

O que é bootstrap

A

Tecnica de amostragem com reposição. Cria várias amostras do dataset original, cada uma com o mesmo tamanho mas com repetições. É uma técnica muito usada com small datasets.

17
Q

What is overfitting

A

overfitting occurs when a model corresponds too closely or exactly to a dataset, and therefore may fail to generalize it, i.e. predict future observations reliably

18
Q

When do we have a good model

A
  • capta os padrões reais dos dados sem memorizar ruido
  • bom desempenho no treino e no test
  • low bias e low variance
  • o erro da validação cruzada e proximo do erro de treino e ambos sao baixos