Data science - Module 2 Flashcards

1
Q

Mathematically, a list of numbers is represented by an object called?

A

A vector

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

How do we map discrete data points?

A

By assigning numerical values, i.e. true = 1

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Feature space?

A

Is eintlik maar observasie “leef”, so vir twee dimensies, n x en y scatter plot

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Is ons beperk ten opsigte van dimensies?

A

Nee, grafies ja, tot drie. Maar wiskundig, baie meer. Wees maar net versigtig, want hoe meer dimensies daar is, hoe meer data gaan jy nodig he om te train

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Eerste voorbeeld van hoe hulle responses map tot die feature space?

A

Alles sit daar, en toe het hulle die fraudulent goed omkring

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Wat se issue is daar met unbalanced classes?

A

As jy baie baie vam die een het, en min van die ander, sal die predictor neig na waar die volume is

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Klassieke boorbeeld van n class imbalance classification probleem

A

Om credit card fraud om te tel, omdat dit n klein handjievol uitmaak van die totale dataset

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Class imbalances can lead to a accuracy paradox?

A

Jip, dit is een van die hoof maatstawe, maar dit reflekteer nie die wanbalans in die onderliggende datastel

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Eerste boor die handliggende oplossing om class imbalances teen te werk?

A

Kry meer data, veral van die een waarvan jy n tekort het

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Gaan nog in meer detail ingaan, maar die tweede ding wat ky kan doen om n imbalanced dataset te benader?

A

Verander die performance metric. So gaan nie oor absolute akkuraatheid nie

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Wat beteken resampling in die konteks van class imbalances?

A

Jy kry over-sampling (maak duplikate van die underrepresented instances)

Jy kry ook under-sampling, waar jy van die entries delete wat over represented is

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Wanneer sal j under-sampling gebruik

A

Wanneer jy met honderde duisende gevalle sit

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Wanneer sal jy over-sampling gebruik?

A

Wanneer jou datastel oor die algemeen kleiner is

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Soortgelyk aan over-sampling, maar jy copy nie die data nie?

A

Generating synthetic samples. Gebruik metodes soos SMOTE (synthetic, minority over-sampling technique)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Die byfde metode om class imbalances aan te spreek?

A

Probeer verskillende algoritmes. Belangrik om nie net altyd dieselfde te gebruik nie

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Decision trees often perform poor on imbalanced datatsets

A

False

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
17
Q

In Python, noem populere decision tree algoritmes

A

Scikit learn, CART

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
18
Q

Sesde metode om class balances aan te spreek?

A

Penalized models - so assign n groter cost function wanneer die model die minority goed verkeerd kry

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
19
Q

Classification accuracy is nie die enigste performance metric nie. Twee ander?

A

Precision and recall performance

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
20
Q

Waarvoor staan CART?

A

Classification and Regression trees

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
21
Q

Ander naam vir n confusion matrix?

A

Contigency table

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
22
Q

Hoeveel selle sal n confusion matrix he, as dit n binere sisteem is, met twee responses

A

4 selle, en elkeen wys joeveel in elke inval

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
23
Q

So met n confusion matrix, op die kolom sit jy model output, en op die ry die actual

A

Ja?

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
24
Q

Definisie van precision?

A

True positives/(true positives+false positives)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
25
Wat is die definisie van Recall
True positives/(true positives + false negatives)
26
A low recall indicates?
Many false negatives
27
In eenvoudige terme, wat is die F1 score?
Die FI score conveys the balance between precision and recall
28
F1 score =
(Precision+recall)/(precision*recall)
29
Ander naam vir precision
Positive predictive value
30
Ander name vir recall?
Sensitivity of die True positive rate
31
Recall can be thought of as the
Completeness of the classifier
32
Vergelyking vir akkuraatheid wat nietjie verkeerd lyk:
=(true positives+true negatives)/(positive population+negative population)
33
Senstivity
=(true positives)/(true positives + false negatives) =true positives/positive population
34
Die omgekeerde van sensitivty
Specificity = TN/(TN + FP) Ability of the test to correctly rule out disease in a disease free population
35
Gaan weer deur daardie boorbeeld van disease en die verskil tussen senstivity en specificity
36
Waarvoor staan ROC?
Receiver operating curve
37
Hoe werk ROC curves
Nie seker, jy verander n threshold value, dan verander die klassifikasie. Bb klassifiseer alles as positief, dan vang jy al die wat actuall positief is, soos jy aanbeweeg, skakel jy dan van die flase positiefs uit. So hulle stel dit voor as n plot, met true positives op die y, en false positives op die x
38
Hoe lyk die ideale lyn vir die perfekte classifier?
Vang al die true positives met geen false positives. Lyn reguit op met die y, dan regs op die x
39
A classifier with no power?
Will sit on the diagonal. For every increase in correctly identifying true positives, the amount of false positives also increase
40
ROC curves kan dan gebruik word
Vir die selection van threshold value, en dit hang af van die situasie. Bv, ons sal eerder fals positiefs aanvaat om seker te maak ons vang almal wat dalk kanker het. Maar om te clear, wil ons eerder vals negatiefs he, omdat ons wil nie vir iemand se hulle is reg as hulle nie is
41
Wanneer ons met ROCs werk, wat is die mees algemene maatstaf asof die classifier werk?
Auc - area under the curve
42
Wanneer dal jy n ROC gebruik
The technique is applicable to any classifier producing a score for each case, rather than a binary decision
43
Predictors =
Features and lives in the feature space
44
Partitioning the feature space
Buzzzzz words
45
The feature space only contains?
Features
46
Hoe gebruik ons die feature space om te predict?
As jou nuwe, onbekende punt, in n area val waar die response bekend is, weet ons wat die waarskynlikheid is wat die response gaan wees
47
In tree based partitioning word die space gesplit in?
Reghoeke
48
Wat as jou feature space uit meer as twee dimensies bestaan?
No problem, net moeilik om te visualise
49
Waarvoor staan CART
Classification and regression tree
50
Basic premise of CART
Recursive binary splitting
51
Wat beteken recursive binary splitting
Word gebruik deur iets soos CART, ittereer deur al die dimensies, en n split word gemaak waar daar die grootste afname is in die error measurement
52
Greedy approach?
So met CART, partition is gebasseer op die grootse afname in fout, en werk van daar af. Dit is nie te se dat daar nie, as jy n ander roete sou volg, n beter benadering soi gewees het nie (vir die algemene fout)
53
So hoe stop mens cart, want hy kan, afhangende van die hoeveelheid dimensies, net aanhou split
Deur n stopping criteria in plek te he. By, die laaste leaf, partition, moet ten minste 5% van die data bevat
54
Hoe lees mems nie treue en false op n decision tree?
Linker branch is true
55
Wat stel die laaste node in n decision tree voor?
Die spesifieke gedeelte van die feature space
56
Ander naam vir n error measure?
Cost function
57
Watse cost function word gebruik vir tree based regressie?
Residual sum of squares
58
Drie cost functions wat gebruik word by tree based classification
Gini index Shannon entropy Misclassification error
59
So hoe werk die aanvanklik split van dimensie met CART (regressie voorbeeld)
SRR vir die gem, sit dan n split in. Soos jy oor die x as beweeg (die split waarde), verander die grootte van die fout, tot waar jy dan die grootste afname kry. So hy sal dit doen vir al die dimensies, met n aantal splits, om die beste een te kry
60
So vir partinioning the feature space met regressie, gebruik ons RSS, maar vir klassifikasie?
Werk ons met waarskynlikhede, so hy tel die soortgelyke responses en werk n waarskynlikheid uit. Dit kan dan in n gini index invoer, om joi n syfer te gee van hoe soortgelyk die items is
61
Hoe lyk die gini indeks se funskie
Waarskynlikheid van nil en een, is dit baie naby aan nil. Waarskynlikheid van 0.5, return hy ook n 0.5