Extraction from XML documents Flashcards

1
Q

Какво е основната разлика между системите за извличане на информация и релационните бази данни?

A

Системите за извличане на информация извличат информация от неструктуриран текст, докато релационните бази данни работят със структурирани данни и атрибути.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Какво е структурирано извличане на информация?

A

Търсене в структурирани документи, комбинирайки текстови със структурни критерии

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Как се нарича търсенето над структурирани документи?

A

Структурирано извличане на информация.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Какво е XML в контекста на извличането на информация?

A

XML е език за кодиране на текст и документи

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Какво е XML документ?

A

Подредено дърво с етикет, като всеки възел е XML елемент

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Какво е Document Object Model (DOM)?

A

Стандарт за достъп и обработка на XML документи, представящ елементите и атрибутите като възли в дърво.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Какво е XPath?

A

Стандарт за изброяване на пътища в колекция XML документи. Използва пътеки с наклонени черти за достъп до възли.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Какви са основните стандарти за XML схеми?

A
  • XML DTD (Document Type Definition)
  • XML Schema
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Какво представлява NEXI?

A

Формат за XML заявки, който позволява релационни филтри и класиране по релевантност

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Какво е принципът на структурното документно извличане?

A

Системата винаги трябва да извлича най-вътрешната част от документ в отговор на заявката.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Какви подходи могат да се използват за индексиране на структурирани документи?

A
  • Групиране на възли в непокриващи се псевдо-документи
  • Използване на най-големите елементи като индексирана единица
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Какво е основното предизвикателство при XML извличането?

A

Трябва да се връщат само релевантни части от документа, а не цели документи.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Какво означава векторно-пространствен модел за XML извличане на информация?

A

Всяко измерение кодира дума с позицията и в XML дървото.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Какво е структуриран терм?

A

Двойка (c, t), където c е контекст, а t е термин.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Какви са предизвикателствата, свързани с влагане в XML извличането?

A

Разграничаване на различни контексти на термин при изчисляване на статистика за термина за честота.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Каква е целта на ограничителната стратегия в XML извличането?

A

Да се намали излишъкът от вложени елементи.

17
Q

Как се решава проблемът с вложените XML елементи?

A
  • Премахват се всички малки елементи
  • Премахват се типове елементи, от които потребителят не се интересува
  • Премахват се типове елементи, които не са от значение
18
Q

Какво е XML хетерегоненност?

A

Различни XML схеми в една колекция, което затруднява извличането.

19
Q

Какво е значението на човешкото редактиране при справяне с различията в схемите?

A

То ще се справи по-добре от автоматичните методи.

20
Q

Какви представляват разширените заявки при XML извличането?

A

Позволяват да се интерпретират всички родител-наследник връзки в заявки с произволен брой възли

21
Q

Каква функция се използва за измерване на близостта между пътя на заявката и документа?

A

Функция за прилика на контекста CR

22
Q

Какво е условието за съвпадение между пътя на заявката и документа?

A

Двете съвпадат, ако контекста на заявката се преобразува в контекста на документа с добавяне на допълнителни възли

23
Q

Какво е вложен елемент?

A

Елемент, който се съдържа в рамките на всеки друг