Információ keresés Flashcards

1
Q

Információ visszakeresés jelentése, célja

A

A felhasználók információ igényének minél pontosabb és teljesebb kielégítése. A keresés tárgya a dokumentum által hordozott információ. A félstrukturált és strukturált adatok visszakeresését jelenti.

Nehézség: az igény sokszor nem áll pontosan rendelkezésre (nincs leképezve a rendszer követelményeire), embereknél nincs speciális előképzettség.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Adat visszakeresés fogalma

A

Keresés a dokumentum szintaktikai struktúrájában

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Szöveges adatforrás logikai nézetének definiálása a visszakereséshez

A
  • adatforráshoz tartozó dokumentumok megadása
  • szövegeken végezhető műveletek megadása
  • szövegmodell (dokumentum struktúrája, mely elemei kereshetők) megadása
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Releváns dokumentumok fogalma

A

Azok a dokumentumok, amelyek kielégítik az adott információs igényt. Megítélése szubjektív.

Visszakeresés elvi feladata: az összes releváns dokumentum megtalálása.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Rangsorolás (ranking) fogalma

A

Relevancia szerinti rendezés.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Visszakeresés fajtái

A

Ad-hoc, szűrés (filtering), böngészés.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Ad-hoc visszakeresés

A
  • a felhasználó egy adott kérdésre vár választ a rendszertől

- a rendszer által tartalmazott dokumentumok halmaza közel állandó, a felhasználói kérések folyamatosan változnak

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Szűrés

A

A visszakeresés egy fajtája.

A felhasználói kérések állandóak, a dokumentumok bővülnek, és ezekből kiválasztjuk a relevánsakat.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Lekérdezés módjai

A

Kulcsszavas (egyszavas, logikai kifejezés, stb.), mintailleszkedés, strukturált kérdések (állandó, hierarchikus, hypretext), lekérdezési protokollok.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

IR modell(ezés)

A

IR modell = dokumentum logikai nézete + a felhasználói feladat.

Jellemzően index kifejezéseket használnak. Főleg szöveges indexek, nem csak ilyenek léteznek. Igények és a dokumentum szemantikája nem fejezhető ki veszteség nélkül index kifejezésekkel.

Lelke az invertált állomány. Fő cél: jobb fedés, jobb hatékonyság.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Invertált állomány

A

Minden index termhez tárolja, hogy hol szerepel, és melyik dokumentumban. Lehetséges gyorsítások: index, hash tábla, stb.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Fedés

A

A releváns dokumentumok hány százalékát adja vissza a rendszer.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Pontosság

A

A visszaadott dokumentumok hány százaléka releváns.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Index kifejezések súlyozása

A

Minden dokumentumban súlyt rendelünk az összes indexhez (ha nincs benne az index term a dokumentumban, akkor a súlya 0)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Metakeresés

A
Keresés több kereső terében. Gyűjti a válaszokat és egyesíti.
Működési fázisok:
 - keresőmotor választás
 - dokumentum választás
 - merging algoritmusok
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

IR eredményesség javításának lehetőségei

A
  • felhasználói relevancia, profilozás
  • logikai elemzés
  • kontrollált szótár (tezaurusz)
  • hypelink struktúra figyelembe vétele, pl. google pagerank
17
Q

Webkereső feladatai

A
  1. dokumentumgyűjtés
  2. dokumentumok indexelése
  3. keresés
  4. dokumentum és keresési feltétel (query) kezelés
18
Q

Dokumentumgyűjtés feladatai (webkeresés)

A

Crawling.

  • robot, spider felméri a változott lapokat, amiket indexelni kell
  • helyi szerveren fut, távoli szervernek küld kéréseket
  • folyamata: seed URL, majd DFS vagy BFS-sel halad
  • több crawler egyszerre: redundancia, web particionálása
  • népszerű vs. passzív lapok, lapváltási gyakoriságot is tanulják
19
Q

Dokumentumok indexelése (webkeresés)

A

Fajtái:

  • teljes
  • szűkített (gyakori kereséshez)

Metaadat elemzés, kihagyások (pl. névelők), toldalékok kezelése, súlyok és hyperlink információk (pl. link népszerűség).

20
Q

Keresés (webkeresés)

A

Query, advanced search, query normalizálás.
Ransgsoroló algoritmusok: standard IR és webIR között a linkek használata a fő különbség. Google Pagerank: véletlen bejárást szimulálva számolja a lap pontszámát. HITS: adott témakörökre fókuszál: minél több oldal jelöl egy oldalt, annál népszerűbb. Népszerűbb oldalak nagy valószínűséggel tartalmaznak releváns információt.

21
Q

Dokumentum és query kezelés (webkeresés)

A

Eredmény megjelenítése (10-lapról, klaszterezés, lekérdezés finomítása).

Virtuális gyűjtemény (indexeléskor kizárt dokumentumok) vs. fizikai gyűjtemény (indexelés után kezelt dokumentumok).