Mere slicnosti Flashcards
(10 cards)
slicnost i razlicitost
razlikuje se za tip atributa da li je nominalan, redni ili intervalni/razmerni
mera i metrika
funkcija rastojanja d je metrika ako:
1.Позитивна одређеност
d(p,q)≥0 ∀ p,q d(p,q)=0 акко p=q
2.Симетриjа:d(p,q)=d(q,p) ∀p,q
3.Неjеднакост троугла:
d(p,r) ≤ d(p,q)+d(q,r) ∀ p,q,r
ultrametrika:
Ако jе функциjа растоjања d метрика и ако важи d(p,r)≤max{d(p,q),d(q,r)} ∀ p,q,r
тада jе функциjа d ултраметрика
mere slicnosti za kvantitativne podatke
Hamingovo rastojanje, rastojanje minkovskog(p = 1, p = 2, p -> beskonacno), mahalanobisovo rastojanje, rastojanje minkovskog sa tezinama
nedostaci minkovskog:
-Ниjе погодно за примену
код ретких вишедимензионалних података са непознатом расподелом, шумовима, …
-ако постоjе локално ирелевантни атрибути (пример: анализа крви пациjената оболелих од различитих болести) због шума коjи се кумулира при израчунавању
mahalanobis koristan:
Корисно jе када важи атрибути су у корелациjи
атрибути имаjу различите опсеге
вредности (различите вариjансе)
расподела података jе приближно нормална (Гаусова)
mere slicnosti podataka sa binarnim atributima
Zakard i SMC
Prosireni zakardovi koef(koef Tanimotoa)
Kosinusna slicnost
Korelacija
Корелациjа два обjекта коjи имаjу бинарне или непрекидне атрибуте jе мера линеарног односа између њихових атрибута
ковариjанса(x,y) = covxy = n−1 ∑(xk −x)(yk −y)
k=1
1n стандардна девиjациjа(x) = σx = n−1 ∑(xk −x)
k=1
1n средња вредност(x) = x = n ∑ xk
k=1
Пирсонов коефициjент корелациjе(x , y ) = ρxy = covxy /(σx ∗ σy )
slicnost dokumenata
slusaj stasu
podaci sa kvantitativnim i kategorickim atributima
slusaj stasu
slicnost diskretnih podataka
edit rastojanje, LCSS
mere na osnovu informacija
gini i entropija
mere na osnovu gustina
Мери се степен блискости обjеката у некоj области
Концепт густине се користи у кластеровању и откривању аномалиjа
Нечешће се користе
#Еуклидска густина - броj тачака по jединици површине/запремине
#Густина вероватноће - процена дистрибуциjе података на основу изгледа
#Граф засноване густине - на основу повезаности