Text Classification - Vector Space Model Flashcards
Какво е хипотеза за съседство?
Документите в един и същи клас образуват област на съседство, а областите на различните класове не се застъпват.
Как се представят документите във векторно пространство?
Като единични вектори с нормализирана дължина, представляващи точки върху повърхността на хиперсфера.
Каква роля играят центровете на тежестта при класификацията?
Центровете на тежестта определят границите на класовете.
Как се изчислява центърът на тежестта за клас в класификацията на Rocchio?
Като средно аритметично на векторите на документите, принадлежащи към този клас.
Какво представлява границата между два класа в класификацията на Rocchio?
Множество от точки, които са на равно разстояние от двата центъра на тежестта.
Какво е необходимо за правилна класификация в Rocchio?
Класовете трябва да образуват сферични области с еднакви радиуси.
Какво е k-ти най-близък съсед (kNN)?
Метод за класификация, при който документът се класифицира в класа с най-голям брой от k-те си най-близки съседи.
Каква е времевата сложност на kNN?
Линейна спрямо мощността на обучаващото множество.
Какво е линеен класификатор?
Метод за класификация, който определя принадлежността на обект към клас чрез линейна комбинация от характеристики.
Какво представлява границата на клас в линейната класификация?
Линия или хиперравнина, която разделя класовете.
Какво е документ с шум?
Документ, който не следва общото разпределение на класовете.
Какво е целта на класификаторите в многокласова класификация?
Да определят принадлежността на документа към един конкретен клас или към няколко класа.
Какво е матрица на объркване?
Инструмент, който показва броя на грешно класифицираните документи за всяка двойка класове.
Какво описва размяната “отклонение-разлика” в машинното обучение?
Отношението между сложността на класификатора и неговата способност да минимизира грешката.
Какво е средноквадратична грешка (MSE)?
Мярка за оценка на качеството на класификатора, минимизираща грешката.
Какви са компонентите на грешката при обучение?
Отклонение и разлика.
Какво е оптимален класификатор?
Класификатор, който минимизира средноквадратичната грешка.
Какво представлява отклонението в контекста на класификаторите?
Повдигнатата на квадрат разлика между истинската вероятност и предсказанието на класификатора.
Какво измерва разликата при класификаторите?
Промяната в предсказанието на класификатора в зависимост от обучаващото множество.
Какво увеличава голямата разлика?
Чувствителността към шум в данните.
Какво представляват изменяемите обучаващи методи?
Стремят се да нагласят обучаващите данни да отразяват разпределението на документите.
Как може да се разглежда разликата?
Като ‘сложност на модела’ или ‘капацитет на паметта’.
Кои методи могат да запомнят много обучаващи данни?
Нелинейните методи
Каква е целта при избора на обучаващ пример?
Да се минимизира грешката при обучение.