Modelos baseados em distância Flashcards
(5 cards)
O que é um modelo baseado em distância?
São modelos que consideram a proximidade entre os dados para realizar as predições. A ideia é que dados similares tendem a estar concentrados em uma mesma região do espaço de entrada. E dados que não são similares estarão distantes entre si
Qual o algoritmo baseado em distância utilizado com frequência? explique ele
k-NN (k- Neareast Neighbors)
Ele classifica um novo objeto com base nos exemplos do conjunto de treinamento que são próximos a ele.
- Lazy, não aprende um modelo compacto, apenas memoriza os objetos de treinamento.
- Tem variações definidas pelo número de vizinhos considerado.
Quais são as medidas de dissimilaridade para atributos quantitativos?
- Minkowski. norma Lp, 1≤ p <∞
- Manhattan/Cityblock. norma L1
- Euclidiana. norma L2, medida + popular
- Supremum/Chebyschev. norma 𝐿∞
Agora explique como calcular a distância baseada em cada uma das métricas.
Minkowski:
raiz de p (|xi - yi|^p) (somatório)
Manhattan/Cityblock:
|xi - yi| (somatório)
Euclidiana:
raiz 2(|xi - yi|^2) (somatório)
Supremum/Chebyschev:
max|xi - yi|
O que acontece no k-NN quando o parâmetro k é muito grande ou muito pequeno?
- k muito grande
Vizinhos podem ser muito diferentes
Predição tendenciosa para classe majoritária
Custo computacional mais elevado - k muito pequeno
Não usar informação suficiente
Previsão pode ser instável