Modelos baseados em distância Flashcards

(5 cards)

1
Q

O que é um modelo baseado em distância?

A

São modelos que consideram a proximidade entre os dados para realizar as predições. A ideia é que dados similares tendem a estar concentrados em uma mesma região do espaço de entrada. E dados que não são similares estarão distantes entre si

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Qual o algoritmo baseado em distância utilizado com frequência? explique ele

A

k-NN (k- Neareast Neighbors)

Ele classifica um novo objeto com base nos exemplos do conjunto de treinamento que são próximos a ele.

  • Lazy, não aprende um modelo compacto, apenas memoriza os objetos de treinamento.
  • Tem variações definidas pelo número de vizinhos considerado.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Quais são as medidas de dissimilaridade para atributos quantitativos?

A
  1. Minkowski. norma Lp, 1≤ p <∞
  2. Manhattan/Cityblock. norma L1
  3. Euclidiana. norma L2, medida + popular
  4. Supremum/Chebyschev. norma 𝐿∞
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Agora explique como calcular a distância baseada em cada uma das métricas.

A

Minkowski:
raiz de p (|xi - yi|^p) (somatório)

Manhattan/Cityblock:
|xi - yi| (somatório)

Euclidiana:
raiz 2(|xi - yi|^2) (somatório)

Supremum/Chebyschev:
max|xi - yi|

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

O que acontece no k-NN quando o parâmetro k é muito grande ou muito pequeno?

A
  • k muito grande
    Vizinhos podem ser muito diferentes
    Predição tendenciosa para classe majoritária
    Custo computacional mais elevado
  • k muito pequeno
    Não usar informação suficiente
    Previsão pode ser instável
How well did you know this?
1
Not at all
2
3
4
5
Perfectly