Data science - Module 2 Flashcards by Danie Le Roux

Mathematically, a list of numbers is represented by an object called?

A vector

How well did you know this?

Not at all

Perfectly

How do we map discrete data points?

By assigning numerical values, i.e. true = 1

How well did you know this?

Not at all

Perfectly

Feature space?

Is eintlik maar observasie “leef”, so vir twee dimensies, n x en y scatter plot

How well did you know this?

Not at all

Perfectly

Is ons beperk ten opsigte van dimensies?

Nee, grafies ja, tot drie. Maar wiskundig, baie meer. Wees maar net versigtig, want hoe meer dimensies daar is, hoe meer data gaan jy nodig he om te train

How well did you know this?

Not at all

Perfectly

Eerste voorbeeld van hoe hulle responses map tot die feature space?

Alles sit daar, en toe het hulle die fraudulent goed omkring

How well did you know this?

Not at all

Perfectly

Wat se issue is daar met unbalanced classes?

As jy baie baie vam die een het, en min van die ander, sal die predictor neig na waar die volume is

How well did you know this?

Not at all

Perfectly

Klassieke boorbeeld van n class imbalance classification probleem

Om credit card fraud om te tel, omdat dit n klein handjievol uitmaak van die totale dataset

How well did you know this?

Not at all

Perfectly

Class imbalances can lead to a accuracy paradox?

Jip, dit is een van die hoof maatstawe, maar dit reflekteer nie die wanbalans in die onderliggende datastel

How well did you know this?

Not at all

Perfectly

Eerste boor die handliggende oplossing om class imbalances teen te werk?

Kry meer data, veral van die een waarvan jy n tekort het

How well did you know this?

Not at all

Perfectly

Gaan nog in meer detail ingaan, maar die tweede ding wat ky kan doen om n imbalanced dataset te benader?

Verander die performance metric. So gaan nie oor absolute akkuraatheid nie

How well did you know this?

Not at all

Perfectly

Wat beteken resampling in die konteks van class imbalances?

Jy kry over-sampling (maak duplikate van die underrepresented instances)

Jy kry ook under-sampling, waar jy van die entries delete wat over represented is

How well did you know this?

Not at all

Perfectly

Wanneer sal j under-sampling gebruik

Wanneer jy met honderde duisende gevalle sit

How well did you know this?

Not at all

Perfectly

Wanneer sal jy over-sampling gebruik?

Wanneer jou datastel oor die algemeen kleiner is

How well did you know this?

Not at all

Perfectly

Soortgelyk aan over-sampling, maar jy copy nie die data nie?

Generating synthetic samples. Gebruik metodes soos SMOTE (synthetic, minority over-sampling technique)

How well did you know this?

Not at all

Perfectly

Die byfde metode om class imbalances aan te spreek?

Probeer verskillende algoritmes. Belangrik om nie net altyd dieselfde te gebruik nie

How well did you know this?

Not at all

Perfectly

Decision trees often perform poor on imbalanced datatsets

False

How well did you know this?

Not at all

Perfectly

In Python, noem populere decision tree algoritmes

Scikit learn, CART

How well did you know this?

Not at all

Perfectly

Sesde metode om class balances aan te spreek?

Penalized models - so assign n groter cost function wanneer die model die minority goed verkeerd kry

How well did you know this?

Not at all

Perfectly

Classification accuracy is nie die enigste performance metric nie. Twee ander?

Precision and recall performance

How well did you know this?

Not at all

Perfectly

Waarvoor staan CART?

Classification and Regression trees

How well did you know this?

Not at all

Perfectly

Ander naam vir n confusion matrix?

Contigency table

How well did you know this?

Not at all

Perfectly

Hoeveel selle sal n confusion matrix he, as dit n binere sisteem is, met twee responses

4 selle, en elkeen wys joeveel in elke inval

How well did you know this?

Not at all

Perfectly

So met n confusion matrix, op die kolom sit jy model output, en op die ry die actual

Ja?

How well did you know this?

Not at all

Perfectly

Definisie van precision?

True positives/(true positives+false positives)

How well did you know this?

Not at all

Perfectly

Wat is die definisie van Recall

True positives/(true positives + false negatives)

A low recall indicates?

Many false negatives

In eenvoudige terme, wat is die F1 score?

Die FI score conveys the balance between precision and recall

F1 score =

(Precision+recall)/(precision*recall)

Ander naam vir precision

Positive predictive value

Ander name vir recall?

Sensitivity of die True positive rate

Recall can be thought of as the

Completeness of the classifier

Vergelyking vir akkuraatheid wat nietjie verkeerd lyk:

=(true positives+true negatives)/(positive population+negative population)

Senstivity

=(true positives)/(true positives + false negatives) =true positives/positive population

Die omgekeerde van sensitivty

Specificity = TN/(TN + FP) Ability of the test to correctly rule out disease in a disease free population

Gaan weer deur daardie boorbeeld van disease en die verskil tussen senstivity en specificity

Waarvoor staan ROC?

Receiver operating curve

Hoe werk ROC curves

Nie seker, jy verander n threshold value, dan verander die klassifikasie. Bb klassifiseer alles as positief, dan vang jy al die wat actuall positief is, soos jy aanbeweeg, skakel jy dan van die flase positiefs uit. So hulle stel dit voor as n plot, met true positives op die y, en false positives op die x

Hoe lyk die ideale lyn vir die perfekte classifier?

Vang al die true positives met geen false positives. Lyn reguit op met die y, dan regs op die x

A classifier with no power?

Will sit on the diagonal. For every increase in correctly identifying true positives, the amount of false positives also increase

ROC curves kan dan gebruik word

Vir die selection van threshold value, en dit hang af van die situasie. Bv, ons sal eerder fals positiefs aanvaat om seker te maak ons vang almal wat dalk kanker het. Maar om te clear, wil ons eerder vals negatiefs he, omdat ons wil nie vir iemand se hulle is reg as hulle nie is

Wanneer ons met ROCs werk, wat is die mees algemene maatstaf asof die classifier werk?

Auc - area under the curve

Wanneer dal jy n ROC gebruik

The technique is applicable to any classifier producing a score for each case, rather than a binary decision

Predictors =

Features and lives in the feature space

Partitioning the feature space

Buzzzzz words

The feature space only contains?

Features

Hoe gebruik ons die feature space om te predict?

As jou nuwe, onbekende punt, in n area val waar die response bekend is, weet ons wat die waarskynlikheid is wat die response gaan wees

In tree based partitioning word die space gesplit in?

Reghoeke

Wat as jou feature space uit meer as twee dimensies bestaan?

No problem, net moeilik om te visualise

Waarvoor staan CART

Classification and regression tree

Basic premise of CART

Recursive binary splitting

Wat beteken recursive binary splitting

Word gebruik deur iets soos CART, ittereer deur al die dimensies, en n split word gemaak waar daar die grootste afname is in die error measurement

Greedy approach?

So met CART, partition is gebasseer op die grootse afname in fout, en werk van daar af. Dit is nie te se dat daar nie, as jy n ander roete sou volg, n beter benadering soi gewees het nie (vir die algemene fout)

So hoe stop mens cart, want hy kan, afhangende van die hoeveelheid dimensies, net aanhou split

Deur n stopping criteria in plek te he. By, die laaste leaf, partition, moet ten minste 5% van die data bevat

Hoe lees mems nie treue en false op n decision tree?

Linker branch is true

Wat stel die laaste node in n decision tree voor?

Die spesifieke gedeelte van die feature space

Ander naam vir n error measure?

Cost function

Watse cost function word gebruik vir tree based regressie?

Residual sum of squares

Drie cost functions wat gebruik word by tree based classification

Gini index Shannon entropy Misclassification error

So hoe werk die aanvanklik split van dimensie met CART (regressie voorbeeld)

SRR vir die gem, sit dan n split in. Soos jy oor die x as beweeg (die split waarde), verander die grootte van die fout, tot waar jy dan die grootste afname kry. So hy sal dit doen vir al die dimensies, met n aantal splits, om die beste een te kry

So vir partinioning the feature space met regressie, gebruik ons RSS, maar vir klassifikasie?

Werk ons met waarskynlikhede, so hy tel die soortgelyke responses en werk n waarskynlikheid uit. Dit kan dan in n gini index invoer, om joi n syfer te gee van hoe soortgelyk die items is

Hoe lyk die gini indeks se funskie

Waarskynlikheid van nil en een, is dit baie naby aan nil. Waarskynlikheid van 0.5, return hy ook n 0.5

Data science - Module 2 Flashcards

(61 cards)