Text Classification - Vector Space Model Flashcards

1
Q

Какво е хипотеза за съседство?

A

Документите в един и същи клас образуват област на съседство, а областите на различните класове не се застъпват.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Как се представят документите във векторно пространство?

A

Като единични вектори с нормализирана дължина, представляващи точки върху повърхността на хиперсфера.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Каква роля играят центровете на тежестта при класификацията?

A

Центровете на тежестта определят границите на класовете.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Как се изчислява центърът на тежестта за клас в класификацията на Rocchio?

A

Като средно аритметично на векторите на документите, принадлежащи към този клас.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Какво представлява границата между два класа в класификацията на Rocchio?

A

Множество от точки, които са на равно разстояние от двата центъра на тежестта.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Какво е необходимо за правилна класификация в Rocchio?

A

Класовете трябва да образуват сферични области с еднакви радиуси.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Какво е k-ти най-близък съсед (kNN)?

A

Метод за класификация, при който документът се класифицира в класа с най-голям брой от k-те си най-близки съседи.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Каква е времевата сложност на kNN?

A

Линейна спрямо мощността на обучаващото множество.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Какво е линеен класификатор?

A

Метод за класификация, който определя принадлежността на обект към клас чрез линейна комбинация от характеристики.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Какво представлява границата на клас в линейната класификация?

A

Линия или хиперравнина, която разделя класовете.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Какво е документ с шум?

A

Документ, който не следва общото разпределение на класовете.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Какво е целта на класификаторите в многокласова класификация?

A

Да определят принадлежността на документа към един конкретен клас или към няколко класа.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Какво е матрица на объркване?

A

Инструмент, който показва броя на грешно класифицираните документи за всяка двойка класове.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Какво описва размяната “отклонение-разлика” в машинното обучение?

A

Отношението между сложността на класификатора и неговата способност да минимизира грешката.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Какво е средноквадратична грешка (MSE)?

A

Мярка за оценка на качеството на класификатора, минимизираща грешката.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Какви са компонентите на грешката при обучение?

A

Отклонение и разлика.

17
Q

Какво е оптимален класификатор?

A

Класификатор, който минимизира средноквадратичната грешка.

18
Q

Какво представлява отклонението в контекста на класификаторите?

A

Повдигнатата на квадрат разлика между истинската вероятност и предсказанието на класификатора.

19
Q

Какво измерва разликата при класификаторите?

A

Промяната в предсказанието на класификатора в зависимост от обучаващото множество.

20
Q

Какво увеличава голямата разлика?

A

Чувствителността към шум в данните.

21
Q

Какво представляват изменяемите обучаващи методи?

A

Стремят се да нагласят обучаващите данни да отразяват разпределението на документите.

22
Q

Как може да се разглежда разликата?

A

Като ‘сложност на модела’ или ‘капацитет на паметта’.

23
Q

Кои методи могат да запомнят много обучаващи данни?

A

Нелинейните методи

24
Q

Каква е целта при избора на обучаващ пример?

A

Да се минимизира грешката при обучение.

25
Какво се случва, ако един метод има по-малко отклонение?
Обикновено той има по-голяма разлика.
26
Какви граници могат да моделират нелинейните методи?
По-сложни граници на решение.
27
Към какво са по-чувствителни нелинейните методи?
Към шум в данните.
28
Каква е ефективността на линейните методи при нелинейни проблеми?
Остават ефективни, дори когато проблемът изглежда нелинеен.