Machine Learning Flashcards

(53 cards)

1
Q

Стъпки от Data cleaning

A
  • попълване на липсващи стойности
  • Идентификация на outliers и заглаждане на шумове
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Видове клъстеризация

A
  • Агломеративна - bottom up
  • Делителна - top down
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Глобално учене vs локално

A

глобалното Използва целия набор от данни

Global Learning: Learning from all instances in
the dataset.
– Naïve Bayes Classifier
* Local Learning: Learning from some of the
instances in the dataset.
– kNN

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Lazy vs Eager learning

A

Мързеливото просто пази данните и чак, когато го попиташ ги достъпва
Любопитното, първо научава данните и преди да е готово за получаване на въпроси за класификация

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Кой от следните алгоритми за обучение на машини се определя като
„мързелив“?
a. Индукция на дърво на решенията
b. Учене основано на примери
c. Линейна регресия
d. k-means
e. Наивен Бейсов класификатор

A

Учене, основано на примери

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Принцип на Окам

За пестеливостта

A

При съществуването на две или повече хипотези избираме по-простата, тази която използва най-малко предположения

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Предимство на KNN

A

Устойчивост при шумни данни - осреднява най-близките съседи

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

*

Top down induction of decision trees

A

ID3

  1. Взимаме всички неизползвани атрибути и смятаме тяхната етнтопия
  2. Избираме атрибута с най-малка ентропия
  3. Правим листо с дадения атрибут. ако той разпределя множеството от примери, които имаме на две половини, като във всяка от тях търсения атрибут има една и съща стойност, то тогава приемаме, че дървото има решение. ако в някоя от половините имаме обекти, чиято стойност на търсения атрибут се разминава правим ново дърво с корен даденото листо и точка 1. Смятаме ентропията само за обектите в това листо.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Ентропия

A

Мярка за impurity на даден възел:
Entropy(S) ≡ H(S) ≡ −p+ log2 p+ − p- log2 p-

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Кога ентропията H(S) = 0

A

При чисти множества - всички са + или всички са -

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Кога ентропията H(S) = 1

A

При 50:50 разпределение на примерите

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Information Gain

A

Entropy(S) - [weighted average] * entropy(children)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Ансамблово учене

A

Учене на няколко класификатора с различни алгоритми, които взимат накрая решение с гласуване

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Условия за ансамблово учене

A
  • Грешките на моделите трябва да са слабо корелирани
  • Грешката на всеки класификатор трябва да е не повече от 0.5
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Resource Description Framework (RDF)

A

???

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Resource Description Framework (RDF) използва

A

subject-predicate-object model

Subject: субектът може да бъде ресурс (например уеб страница или част от уеб страница).
Predicate: предикатът описва връзката между субекта и обекта и функционира като атрибут на субекта.
Object: обектът е стойността на атрибута и може да бъде друг ресурс или литерал (например текст, число и т.н.).
Този модел позволява изразяването на семантични изявления за ресурси в формата на граф, като по този начин се създава богата и гъвкава структура за описване на ресурси в интернет.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
17
Q

Частично нареден план

A

Алгоритъм за планиране, в който могат да бъдат поставени две действия в план без да се уточнява кое се случва първо. Няма строга наредба на действията - някои могат да се изпълнят паралелно с други.

В процеса на действие частично-наредения план се преобразува в пълно нареден

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
18
Q

Съвместим/Консистентен план

A

Ако няма цикли в ограниченията на последователностите, няма конфликти в причинно-следствените връзки. В процеса на действие частично-наредения план се преобразува в пълно нареден

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
19
Q

При какви планове се използват Progressive и Regressive търсения

A

Само за ИЗЦЯЛО наредени планове

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
20
Q

C4.5

A

Класификационен алгоритъм
Разширение на ID3 за генериране на дърво на решенята. Използва ентропията и information gain, като може да се справя и с непрекъснати атрибути, липсващи стойности и отсичане, за да избегне пренагаждане

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
21
Q

ЕМ-Алгоритъм

A

Клъстеризационен алгоритъм
Използва се за клъстеризация подобно на K-means. позовава се на статистика

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
22
Q

DBSCAN

A

Клъстеризиращ алгоритъм
Групира близки съседи, но аутлайерите остават сами, защото са твърде далеч от клъстерите. Не се подава броя клъстери при стартиране. Използва се за откриване на аномалии.

Density-Based Spatial Clustering of Applications with Noise (DBSCAN) is a clustering algorithm

23
Q

Модел на учене на индукция на дърво на решенята

A

Глобален

24
Q

Модел на учене на Наивен Бейс

A

Глобален

25
Модел на учене на kmeans
локален
26
Какъв тип е йерархичния kmeans
Разделителен - от горе на долу
27
Модел на учене на невронна мрежа
Глобален
28
Може ли персептронът да реализира XOR
НЕ
29
Коe от следните алгоритми спадат към йерархичните модели? - kNN - KMeans - Agglomerative learning
Agglomerative learning
30
Кои от следните алгоритми спадат към ученето с учител (supervised learning)? * ID3 * DBSCAN * kNN * kMeans * C4.5
- ID3 - KNN - C4.5
31
Посочете правилното твърдение за обратното разпространение на грешката (Error Backpropagation) * използва се при обучението на еднослойна невронна мрежа (perception) * използва се при обучението на еднослойна и многослойна невронна мрежа * не се използва при обучението на невронни мрежи * използва се при обучението на многослойна невронна мрежа
използва се при обучението на многослойна невронна мрежа
32
Защо се извършва продрязване на дървото?
За да се избегне пренагаждане. ## Footnote Два вида - pre-pruning - по време на изграждането на дървото, post-pruning след като дървото е изградено, премахваме незначимите характеристики
33
Support
Дава идея, колко често набор от данни се използва в траназакции. Minimal support се отнася до граница, която трябва да бъде премината, за да се счете даден набор от данни за интересен или важен | Честотата на A=>B
34
Confidence
Измерва условната вероятност, P(B|A) или колко често елементи от B се появяват в транзакции, които съдържат А. | P(A|B)
35
Accosiative rules
Minimal support, minimum confidence
36
Защо Бейсовият класификатор се нарича наивен
Предполага, че всички характеристики са независими
37
P(A|B)
ℙ(A ∩ B) / P(B) P(B|A) * P(A) / P(B)
38
Каква е вероятността събитието да е позитивно, ако знаем, че е червено и кръгло?
Очевидно тя е четири пъти по-голяма от тази да бъде негативно (0.2 срещу 0.05). Т.е., ако вероятността събитието да е негативно е, равна на х, то търсената вероятност ще е 4x. Следотвателно, от 4x+x=100% заключаваме, че x = 20% и 4x=80%
39
Условна вероятност на условно независими характеристики
Ако всички характеристики са условно независими помежду си, тогава: P(x|y1, y2....yn, Ck) = P(X|Ck)
40
При частично наредените планове причинно следствената връзка A p→ B
Не може да има действе между а и б, отменящо р
41
Алгоритъмът K-means е: a. лаком алгоритъм b. оптимален алгоритъм c. алгоритъм използващ търсене в дълбочина с възврат d. глобално търсещ алгоритъм
K-means е лаком
42
Изводът чрез изброяване (Inference by enumeration) се основава на: a. условните вероятности между атомарните събития b. пълното съвместно разпределение на атомарните събития c. доказатвлства, получени от атомарни събития d. единствено на атомарните събития
пълното съвместно разпределение на атомарните събития
43
Ако Температура е условно независима от Главоболие при дадена диагноза Грип, то вярно (t) или невярено (f) е всяко едно от равенствата: 1. P(Главоболие, Температура | Грип) = P(Главоболие | Грип)P(Температура | Грип) 2. P(Температура | Главоболие, Грип) = P(Температура | Грип) a. 1-f, 2-f b. 1-f, 2-t c. 1-t, 2-f d. 1-t, 2-t
И двете са верни
44
PCA (principal component analysis) се използва за:
Намаляване на размерността на данните
45
Ученето основано на примери (Instance Based Learning) (kNN) може да бъде определено като: a. Учене по аналогия b. Мързеливо учене
И двете
46
Ограничението за наредба при частично наредените планове се очначава с A< B (където A и B са действия) и означава: Изберете едно: a. Изпълнението на B не може да започне преди да започне изпъленнието А. b. Изпълнението на B трябва да започне непосредствено след изпълнението на А. c. А трябва да бъде изпълнено преди B. d. Не може да има действие C между A и B, което да отменя резултатите от A.
А трябва да бъде изпълнено преди Б
47
Какъв основен формализъм за представяне на знания използват традиционните Експертни системи: Изберете едно: a. Понятийни графи b. Фраймово представяне c. Продукционни правила d. Семантини мрежи e. Пропозиционални логики
c. Продукционни правила
48
Логистичната регресия предполага условна независимост на атрибутите/характеристиките
Истина
49
Логистичната регресия използва градиентно спускане
Истина
50
Алгоритми за CSP
MinConflict, Backtracking, ConstraintPropagation, forward checking
51
Структури от данни за обхождане в дълбочина и широчина
Ширина - Опашка Дълбочина - стек
52
Недостатъци на BFS (beam)
Не е пълен - локално търсещ е и не е оптимален
53
KNN vs K-means | Class/Cluster lazy/eager super/unsuper
- KNN **classification** Kmeans is **clustering** - KNN is **lazy** Kmeans is **eager** - KNN is **supervised** Kmeans is **unsupervised**