Információ keresés Flashcards

Question 1

Q

Információ visszakeresés jelentése, célja

Answer

A

A felhasználók információ igényének minél pontosabb és teljesebb kielégítése. A keresés tárgya a dokumentum által hordozott információ. A félstrukturált és strukturált adatok visszakeresését jelenti.

Nehézség: az igény sokszor nem áll pontosan rendelkezésre (nincs leképezve a rendszer követelményeire), embereknél nincs speciális előképzettség.

Question 2

Q

Adat visszakeresés fogalma

Answer

A

Keresés a dokumentum szintaktikai struktúrájában

Question 3

Q

Szöveges adatforrás logikai nézetének definiálása a visszakereséshez

Answer

A

adatforráshoz tartozó dokumentumok megadása
szövegeken végezhető műveletek megadása
szövegmodell (dokumentum struktúrája, mely elemei kereshetők) megadása

Question 4

Q

Releváns dokumentumok fogalma

Answer

A

Azok a dokumentumok, amelyek kielégítik az adott információs igényt. Megítélése szubjektív.

Visszakeresés elvi feladata: az összes releváns dokumentum megtalálása.

Question 5

Q

Rangsorolás (ranking) fogalma

Answer

A

Relevancia szerinti rendezés.

Question 6

Q

Visszakeresés fajtái

Answer

A

Ad-hoc, szűrés (filtering), böngészés.

Question 7

Q

Ad-hoc visszakeresés

Answer

A

a felhasználó egy adott kérdésre vár választ a rendszertől

- a rendszer által tartalmazott dokumentumok halmaza közel állandó, a felhasználói kérések folyamatosan változnak

Question 8

Q

Szűrés

Answer

A

A visszakeresés egy fajtája.

A felhasználói kérések állandóak, a dokumentumok bővülnek, és ezekből kiválasztjuk a relevánsakat.

Question 9

Q

Lekérdezés módjai

Answer

A

Kulcsszavas (egyszavas, logikai kifejezés, stb.), mintailleszkedés, strukturált kérdések (állandó, hierarchikus, hypretext), lekérdezési protokollok.

Question 10

Q

IR modell(ezés)

Answer

A

IR modell = dokumentum logikai nézete + a felhasználói feladat.

Jellemzően index kifejezéseket használnak. Főleg szöveges indexek, nem csak ilyenek léteznek. Igények és a dokumentum szemantikája nem fejezhető ki veszteség nélkül index kifejezésekkel.

Lelke az invertált állomány. Fő cél: jobb fedés, jobb hatékonyság.

Question 11

Q

Invertált állomány

Answer

A

Minden index termhez tárolja, hogy hol szerepel, és melyik dokumentumban. Lehetséges gyorsítások: index, hash tábla, stb.

Question 12

Q

Fedés

Answer

A

A releváns dokumentumok hány százalékát adja vissza a rendszer.

Question 13

Q

Pontosság

Answer

A

A visszaadott dokumentumok hány százaléka releváns.

Question 14

Q

Index kifejezések súlyozása

Answer

A

Minden dokumentumban súlyt rendelünk az összes indexhez (ha nincs benne az index term a dokumentumban, akkor a súlya 0)

Question 15

Q

Metakeresés

Answer

A

Keresés több kereső terében. Gyűjti a válaszokat és egyesíti.
Működési fázisok:
 - keresőmotor választás
 - dokumentum választás
 - merging algoritmusok

Question 16

Q

IR eredményesség javításának lehetőségei

Answer

A

felhasználói relevancia, profilozás
logikai elemzés
kontrollált szótár (tezaurusz)
hypelink struktúra figyelembe vétele, pl. google pagerank

Question 17

Q

Webkereső feladatai

Answer

A

dokumentumgyűjtés
dokumentumok indexelése
keresés
dokumentum és keresési feltétel (query) kezelés

Question 18

Q

Dokumentumgyűjtés feladatai (webkeresés)

Answer

A

Crawling.

robot, spider felméri a változott lapokat, amiket indexelni kell
helyi szerveren fut, távoli szervernek küld kéréseket
folyamata: seed URL, majd DFS vagy BFS-sel halad
több crawler egyszerre: redundancia, web particionálása
népszerű vs. passzív lapok, lapváltási gyakoriságot is tanulják

Question 19

Q

Dokumentumok indexelése (webkeresés)

Answer

A

Fajtái:

teljes
szűkített (gyakori kereséshez)

Metaadat elemzés, kihagyások (pl. névelők), toldalékok kezelése, súlyok és hyperlink információk (pl. link népszerűség).

Question 20

Q

Keresés (webkeresés)

Answer

A

Query, advanced search, query normalizálás.
Ransgsoroló algoritmusok: standard IR és webIR között a linkek használata a fő különbség. Google Pagerank: véletlen bejárást szimulálva számolja a lap pontszámát. HITS: adott témakörökre fókuszál: minél több oldal jelöl egy oldalt, annál népszerűbb. Népszerűbb oldalak nagy valószínűséggel tartalmaznak releváns információt.

Question 21

Q

Dokumentum és query kezelés (webkeresés)

Answer

A

Eredmény megjelenítése (10-lapról, klaszterezés, lekérdezés finomítása).

Virtuális gyűjtemény (indexeléskor kizárt dokumentumok) vs. fizikai gyűjtemény (indexelés után kezelt dokumentumok).

Brainscape's Knowledge GenomeTM

Információ keresés Flashcards

Brainscape's Knowledge Genome^TM