Extraction from XML documents Flashcards
Какво е основната разлика между системите за извличане на информация и релационните бази данни?
Системите за извличане на информация извличат информация от неструктуриран текст, докато релационните бази данни работят със структурирани данни и атрибути.
Какво е структурирано извличане на информация?
Търсене в структурирани документи, комбинирайки текстови със структурни критерии
Как се нарича търсенето над структурирани документи?
Структурирано извличане на информация.
Какво е XML в контекста на извличането на информация?
XML е език за кодиране на текст и документи
Какво е XML документ?
Подредено дърво с етикет, като всеки възел е XML елемент
Какво е Document Object Model (DOM)?
Стандарт за достъп и обработка на XML документи, представящ елементите и атрибутите като възли в дърво.
Какво е XPath?
Стандарт за изброяване на пътища в колекция XML документи. Използва пътеки с наклонени черти за достъп до възли.
Какви са основните стандарти за XML схеми?
- XML DTD (Document Type Definition)
- XML Schema
Какво представлява NEXI?
Формат за XML заявки, който позволява релационни филтри и класиране по релевантност
Какво е принципът на структурното документно извличане?
Системата винаги трябва да извлича най-вътрешната част от документ в отговор на заявката.
Какви подходи могат да се използват за индексиране на структурирани документи?
- Групиране на възли в непокриващи се псевдо-документи
- Използване на най-големите елементи като индексирана единица
Какво е основното предизвикателство при XML извличането?
Трябва да се връщат само релевантни части от документа, а не цели документи.
Какво означава векторно-пространствен модел за XML извличане на информация?
Всяко измерение кодира дума с позицията и в XML дървото.
Какво е структуриран терм?
Двойка (c, t), където c е контекст, а t е термин.
Какви са предизвикателствата, свързани с влагане в XML извличането?
Разграничаване на различни контексти на термин при изчисляване на статистика за термина за честота.
Каква е целта на ограничителната стратегия в XML извличането?
Да се намали излишъкът от вложени елементи.
Как се решава проблемът с вложените XML елементи?
- Премахват се всички малки елементи
- Премахват се типове елементи, от които потребителят не се интересува
- Премахват се типове елементи, които не са от значение
Какво е XML хетерегоненност?
Различни XML схеми в една колекция, което затруднява извличането.
Какво е значението на човешкото редактиране при справяне с различията в схемите?
То ще се справи по-добре от автоматичните методи.
Какви представляват разширените заявки при XML извличането?
Позволяват да се интерпретират всички родител-наследник връзки в заявки с произволен брой възли
Каква функция се използва за измерване на близостта между пътя на заявката и документа?
Функция за прилика на контекста CR
Какво е условието за съвпадение между пътя на заявката и документа?
Двете съвпадат, ако контекста на заявката се преобразува в контекста на документа с добавяне на допълнителни възли
Какво е вложен елемент?
Елемент, който се съдържа в рамките на всеки друг