3. Model Validation Flashcards
(19 cards)
What is model validation
Processo para garantir que:
1. O modelo generaliza bem para dados novos
2. Não está overfitted
3. Usa as métricas adequadas para o problema
What is supervised learning
Quando o modelo aprende a mapear entradas - inputs - para saídas - outputs. O objetivo é encontrar uma funçao h(x) - hipoteses que se aproxime da funçao real.
Employ a training dataset and test the accuracy of the hypothesis found in a test dataset.
What are the phases in CRISP-DM in Modeling phase
- Select Modeling Technique (modeling technique, modeling assumptions)
- Generate Test design (test design)
- Build Model (Parameter setting, model, model description)
- Assess Model (Model Assessment, revised parameter settings)
What is train dataset
usado para ensinar o modelo (e ajustar os parametros)
WHat is a test dataset
usado para avaliar o modelo (ver se generaliza bem)
Um modelo generaliza bem quando consegue corretamente prever o valor y para novas observações (daods que nunca viu antes)
What is Model Validation
Model Validation é o processo de avaliar o desempenho do modelo em dados que ele nunca viu (dados fora do treino). O objetivo é medir o erro de generalização - ou seja - quão bem o modelo se comporta em situações reais
Quais são os 2 principais metodos de validação de dados
- hold out
- cross validation
Como funciona o K-Fold Cross Validation
Os dados sao separados em k folds, e sao usados como treino e testes em iterações diferentes, no final confere se a performance dos vários folds
Quais são as vantagens do Kfold
- Usa todos os dados de treino, para treinar e validar
- Reduz o risco de overfitting ou underfitting por causa de uma má divisão
- Dá uma estimativa + robusta ao modelo
What are the main sampling methods
- Random sampling
- Stratified Sampling
- Out of time sampling
- Undersampling
- Oversampling
Como funciona random sampling
selects a random percentage of instances
Como funciona Stratified Sampling
garante que a amostra mantenha a mesma distribuiçao de classes que o dataset original. isto é um fundamental em problemas com classes desbalançeadas
como funciona out of time
usa a dimensão temporal para dividir os dados, por exemplo treinar com dados de 2023 e testar com 2024, é fundamental para problemas onde se está a tentar prever o futuro.
Quais sao algumas metodos de undersampling
- random under sampling
- cluster
- tomek links
- ensemble learning
Quais sao alguns metodos de oversampling
- random oversampling
- SMOTE
- SOMO
- ADASYN
O que é bootstrap
Tecnica de amostragem com reposição. Cria várias amostras do dataset original, cada uma com o mesmo tamanho mas com repetições. É uma técnica muito usada com small datasets.
What is overfitting
overfitting occurs when a model corresponds too closely or exactly to a dataset, and therefore may fail to generalize it, i.e. predict future observations reliably
When do we have a good model
- capta os padrões reais dos dados sem memorizar ruido
- bom desempenho no treino e no test
- low bias e low variance
- o erro da validação cruzada e proximo do erro de treino e ambos sao baixos