Test Flashcards

(94 cards)

1
Q

Coje datamining?

A

● vyhledávání / objevování netriviálních závislosti, vzorů a trendů
prozkoumávání velkých objemů dat
● zapomocí matematických a statistických algoritmů

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Coseskrývá pod zkratkou CRM?

A

● řízení vztahů se zákazníky
● systémový podnikatelský přístup, který se vyznačuje aktivní tvorbou a
udržováním dlouhodobě prospěšných vztahů se zákazníky <wiki></wiki>

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Jaké typy úloh DM patří do portfólia problémů CRM?

A

● udržení si zákazníka
● přebrání zákazníka
● oslovení zákazníka

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Jaké úlohy DM řeší obvykle finanční instituce?

A

● skórování žádostí o úvěr
● hodnocení chování splácení úvěrů
● hodnota (bonita) klienta
● podvody při používání platebních karet

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Kde všude se dá DMuplatnit?

A

● finanční instituce, genové inženýrství, medicína (diagnostika chorob),
personalistika (přijímání pracovníků), školství (udělování stipendií, predikce
úspěšnosti), obchodní řetězce (nákupní košík), státní sféra, logisitka,
marketing, prevence kriminality, identifikace org. zločinu, průmysl…
● text mining (chatgpt, analýza sentimentu)
● webmining (logy, cookies, personalizovaný web)
● zpracování obrazu (rozpoznávání)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Je pravdivé tvrzení, že DM odhalí v datech vše podstatné?

A

● ne,musíme vědět, co chceme / hledáme

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Je pravdivé tvrzení, že DM je modelování?

A

● není jen o modelech-> ale i o přípravě dat (80 % času)
● ne-klasifikace, predikce, regrese, analýza vztahů, detekce anomálií, analýza
časových řad, regresní modely, neuronové sítě, rozhodovací stromy,
asociační pravidla, shluková analýza…
● analýza vztahů-> asociační pravidla (APRIORI)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Je pravdivé tvrzení, že DM pracuje pouze s obrovskými datovými
množinami?

A

● specifický úkol-> zmenšuje množinu

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Jaké znáte dataminingové nástroje?

A

● IBMSPSSModeler, KNIME, RapidMiner, Orange, Weka
● knihovny v program. jazycích

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Jaké programovací jazyky jsou nejpopulárnější pro datovou analýzu, data
mining, strojové učení a umělou inteligenci?

A

● python, R

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Co je klasifikace, predikce, seskupování? Uveďte příklad úlohy a příklad
vhodného algoritmu.

A

● klasifikace-> zatřídění objektů do různých tříd podle jejich vlastností
(rozhodovací stromy- C&RT, random forest…)
● predikce-> předpověď
● seskupování-> shlukovací metody (kmeans…), učení bez učitele- model se
snaží najít podobnosti mezi daty a rozdělit je do skupin (shluků / klastrů),
nemá cílovou proměnnou?

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Proč a kdy vznikla metodologie CRISP DM, které společnosti stály u
vzniku?

A

● evropská komise-> grant na vytvoření metodologie DM
● SPSS(modely), NCR (data), OHRA, DAIMLER-CHRYSLER (průmysl)
● 1999

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Z jakých fází se skládá metodologie CRISP DM, popište co se v jednotlivých
fázích řeší?

A

● Cross-Industry Standard Process for Data mining
● schéma/ fáze:
○ porozumění problému (nejdůležitější, co budeme dělat, plánujeme jak
to budeme dělat)
○ porozumění datům (sběr dat, první vhled do dat, deskriptivní
charakteristiky dat (četnosti, průměr…))
○ příprava dat (časově nejnáročnější, vytváříme modelovací matici->
jedna velká tabulka, modely z matice extrahují řešení problému)
○ modelování (vytváření predikčních modelů, 1…n modelů, ocenění
modelů)
○ evaluace (hodnotí se úroveň modelu na reálných datech)
○ nasazení do praxe (časově velmi rozdílná)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Jaký je základní rozdíl mezi data miningem a statistikou?

A

● statistika-> data z výběrového šetření
● datamining-> data z praxe

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Co je vstupní proměnná, prediktor, nezávislá proměnná?

A

● vstupní = nezávislá = predictor
● tyto data popisují výslednou target variable?
● podle těchto dat rozhoduji o výstupní proměnné

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Co je výstupní proměnná, cílová proměnná, target field?

A

to, co chci predikovat

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
17
Q

Jaký je rozdíl mezi strojovým učením bez učitele a učením s učitelem?

A

● učení s učitelem-> vím o výsledné hodnotě-> mohu vědět, zda se model
rozhodl správně při predikci…
● učení bez učitele-> nevím o výsledné hodnotě-> model vyhledává
spojitosti mezi vzorky dat

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
18
Q

K čemu slouží uzly Type, Varfile, Statistics File, Excel, Database, User Input,
Select, Agregate, Sort, Balance, Distinct, Merge, Append, Filter,Partition,
Filed Reorder,Table,Data Audit ; Kde tyto uzly v Modeleru najdete?

A

● type [field ops]-> definice datových typů sloupců, definice
vstupní/výstupní/obojí/žádné role sloupce
● varfile [sources]-> načtení textového souboru
● statistics file [sources]-> načtení .sav souboru
● excel [sources]-> načtení excel souboru
● database [sources]-> připojení DB?
● user input [sources]-> vložení vlastního vstupu
● select [record ops]-> výběr sloupců
● aggregate [record ops]-> group by
● sort [record ops]-> setřídění
● balance [record ops]-> opravuje inbalances v datech (např ve sloupci
hodnoty true (90%) a false (10%)-> model se spíše naučí rozpoznávat
true-> proto chceme balance)
● distinct [record ops]-> pouze unikátní hodnoty
● merge[record ops]-> spojení dat z různých zdrojů
● append[record ops]-> spojení dat, které mají podobnou strukturu
(sloupce…)
● filter [field ops]-> výběr sloupců
● partition [field ops]-> rozdělení na testovací / trénovací skupiny
● filled reorder [field ops]-> setřídění sloupců
● table [output]-> tabulka šmírovačka
● dataaudit [output]-> jako v pythonu pandas .info()-> dá nám základní
vhled do dat-> histogramy/distribution, statistické ukazatele…

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
19
Q

Na jaký typ proměnné/proměnných použijete vizualizaci pomocí Plot,,
Distribution, Histogram?

A

● plot = oba typy?
● distribution = nominální / ordinální (kategoriální)
● histogram = spojité / diskrétní (numerické, kvantitativní)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
20
Q

Lze v IBM SPSS Modeler psát skripty a jaké skriptovací jazyky případně
Modeler podporuje?

A

● python

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
21
Q

Jaké datové typy rozlišujeme při statistických a DM úlohách?

A

● statistika-> kategoriální (kvalitativní) / číselné (kvantitativní)
● DM->kvalitativní (nominální, ordinální) / kvantitativní (spojité, diskrétní)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
22
Q

Které statistické charakteristiky určují polohu, variabilitu, tvar?

A

● poloha-> aritemtický průměr, medián, kvantily, modus
● variabilita-> rozptyl, směrodatná odchylka, MAD, IQR, z-skóre, variační
koeficient…
● tvar-> šikmost, špičatost

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
23
Q

Co je modus pro kategoriální data?

A

● nejčetnější kategorická hodnota

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
24
Q

Jak se určí modus pro kvantitativní proměnnou?

A

● diskrétní-> nejčetnější hodnota
● spojitá-> střed shortu (nejkratší interval, ve kterém leží 50 % hodnot
sledované proměnné)
○ počet dat-> liché-> 50 % souboru se určuje = n/2 + 0.5

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
25
Co je medián a jakou informaci v sobě nese?
● prostřední hodnota setříděných dat ● nenízatížen odlehlými hodnotami
26
Co jsou kvantily, jak se spočítají?
● vsetříděném souboru najdeme pozici k ● k=round(n*p + 0.5)-> kvantil = <0,1> ○ n…poslední index ○ p…kvantil (decil, kvintil…) ● vprocentech-> k = round(n*p/100 + 0.5)
27
Co je horní a dolní kvartil?
● horní = 3 kvartil = 0,75 kvantil ● dolní = 1 kvartil = 0,25 kvantil
28
Co je IQR (interkvartilové rozpětí) a k čemu slouží?
● IQR=Q3-Q1 ● vevzorci pro detekci odlehlých hodnot
29
Co je Short?
● nejkratší interval, ve kterém leží 50 % hodnot sledované proměnné
30
Co jsou ODLEHLÁ pozorování, jak je lze najít?
● x_i Q3 + 1.5 * IQR ● abs(Z_i) > 3 (z-skore) ● abs(X_mad) > 3
31
Jak je definován MAD?
● medián absolutních odchylek od mediánu
32
Kdy lze pro popis proměnné (datové sady) použít aritmetický průměr? Kdy průměr dobře reprezentuje proměnnou?
● když neobsahuje odlehlé hodnoty (outliery)?
33
Proč se definoval Variační koeficient?
● porovnání variability řadově rozdílných hodnot
34
Proč kategorizujeme číselná data a jak to lze udělat?
● určité algoritmy nepočítají s číselnými daty ○ rozhodovací stromy ● kategorizace proměnných ○ převod na intervalovou proměnnou (určíme počet kategorií, sturgesovo pravidlo) ○ pevnášířka intervalu ○ percentily
35
Jak kategorizovanou proměnnou převést na číselnou a proč?
● určité algoritmy nepočítají s kategorizovanými proměnnými ○ shluková analýza, regrese ● převod na indikátorové proměnné ○ onehotencoding? ○ zakaždou kategorii sloupec-> ve sloupci 1, pokud vzorek nabýval hodnoty sloupce
36
K čemu slouží Z-skore?
● identifikace odlehlých hodnot ● Z_i=(x_i- mean) / směrodatná odchylka
37
Jaký je rozdíl mezi klasifikační a regresní úlohou?
● klasifikační-> klasifikovat výskyt něčeho do n kategorií ● regresní-> predikce spojité hodnoty
38
Jakého typu je cílová proměnná u regresní úlohy?
● continuous- spojitá
39
Jaký uzel v Modeleru použiju na zobrazení vztahu dvou číselných proměnných?
● plot?
40
K jakým typům DM úloh se hodí algoritmus C&RT a algoritmus lineární regrese?
● C&RT->klasifikace a regrese ● lineární regrese-> regrese
41
Co jsme museli provést za operace s datovou maticí, abychom mohli použít model lineární regrese? Jakého typu proměnné se to týkalo a proč?
● musíme převést kvalitativní proměnné na kvantitativní
42
Jaký typ operace s daty provádí uzel SetToFlag?
● kvalitativní proměnnou-> převede na indikátorovou proměnnou ● kůň, pes-> sloupce IsHorse, IsDog ● pokudje kůň-> IsHorse = 1, IsDog = 0
43
Jaké dva parametry jsme používali pro hodnocení kvality modelu lineární regrese a algoritmu C&RT?
● lineární regrese-> mean absolute error (čím blíže 0-> tím lépe), lineární korelace? ● CART->
44
Jakých hodnot může nabývat průměrná absolutní chyba(MAE) a koeficient korelace? Jaké hodnoty těchto ukazatelů naznačují, že je model lepší či horší?
● koeficient korelace = <-1,1> ● MAE=<0,nekonečno)
45
Jaký uzlem mohu generovat sadu testovacích dat?
● user input
46
K čemu slouží uzel Sample?
● výběr vzorků z datového zdroje (každý 9. vzorek…)
47
Co je to dendrogram a z jakých částí se skládá?
● diagram znázorňující kroky shlukové analýzy nebo větvení rozh. stromu ● kořen, větev, listy
48
Jaké typy klas. stromů znáte?
● obecné (libovolný počet větví, snadnější interpretace, typicky méně úrovní, CHAID, C5.0) ● binární (z uzlu vedou 2 větve, rychlejší výpočet, typicky více úrovní, C&RT, QUEST)
49
Kolik prediktorů má obvykle klas. úloha k dispozici
● není limitováno?-> ale vybírají se nejsilnější prediktory (vybírány na základě určitého kritéria- každý model jiné)
50
Kdy se zastaví růst stromu?
● a)máme100%zařazení do jedné kategorie ● b)nejsou k dispozici žádné prediktory (nebo významné prediktory) ● c)stop kritéria (uživatel definuje-> přesný počet dat v listu, max hloubka..)
51
Co je to boosting?
● sekvenční vytváření více stromů-> rozhodovací lesy ● případy s chybnou klasifikací v předchozím stromu mají vyšší váhu ● při rozhodování stromy hlasují
52
Co je to pruning?
● prořezávání stromů ● zobecnění příliš specifických stromů ● zhotového stromu se odstraní málo významné větve (podstromy) ● jiný algoritmus než růst stromu
53
K čemu slouží uzel Partition?
● rozdělení dat na trénovací a testovací
54
Pomocí jakých uzlů můžeme vyhodnotit kvalitu vytvořeného modelu?
● Analysis, graf Evaluation (ROC křivka), (Matrix?)
55
K čemu slouží uzel Feature Selection?
● ohodnotí prediktory podle důležitosti (určitá kritéria) ● popřípadě odstranění zbytečných prediktorů
56
Co jsou chyby první a druhého druhu?
● chyba prvního druhu ○ FALSEPOSITIVE (FP) ○ houba je ve skutečnosti jedlá, ale my ji označíme jako jedovatou ● chyba druhého druhu (horší než prvního druhu) ○ FALSENEGATIVE(FN) ○ houba je ve skutečnosti jedovatá, ale my ji označíme jako jedlou
57
Co je to, a jak se spočítá senzitivita a specifičnost
● senzitivita (recall, hit rate, TP rate) ○ TP/P=TP/(TP+FN) ○ procento TP z dat, které označil model jako pozitivní ● specifičnost (selectivity, TN rate) ○ TN/N=TN/(TN+FP) ○ procento TN z dat, které označil model jako negativní
58
Co jsou to transakční data?
● záznamyojednotlivých aktivitách v business procesech organizace ● vtabulce mají samostatný záznam pro každou položku (transakci) zákazník ; nákup 1 ; Jam 2 ; Mléko 2 ; Chléb 2 ; Sušenky
59
Kterým uzlem provádíme restrukturalizaci dat na indikátorové proměnné? Pro které datové typy tento druh restrukturalizace přichází do úvahy?
● SetToFlag uzel ● kvalitativní proměnné (nominal například)
60
Které modelovací uzly generují asociační pravidla a čím se liší?
● Apriori ○ vytváří asociační pravidla založená na antecedent supportu? ● Carma ○ vytváří asociační pravidla založená na rule supportu? ○ nepotřebuje input or target fields (stejné jako by Apriori model pracoval jen s BOTH fields) ○ umožňuje pravidla s více consequents (závěry)
61
Vysvětlete na příkladu antecedent a consequent
● Pokud zákazník koupí chléb a máslo, pak také koupí mléko. ○ Antecedent (předpoklad) ○ Consequent (závěr) ● společně tvoří pravidlo-> vyjadřuje pravděpodobnost určitého vzoru v datech
62
Vysvětlete na příkladu, co je Confidence?
● spolehlivost-> odhad podmíněné pravděpodobnosti závěru ● počet objektů, pro které pravidlo platí, dělený počtem objektů, pro které platí předpoklad pravidla ● {párek}-> {hořčice, chleba} ○ počet lidí, co si koupili: párek, hořčici a chleba, dělený počtem lidí, co si koupili párek
63
Uveďte příklad asociačního pravidla a vysvětlete ho
● {párek}-> {hořčice, chleba} ○ zákazníci nakupující párky mají často ve svém nákupu rovněž hořčici a chleba
64
Spočítejte Lift asicačního pravidla {pečivo, mraž. výrobky}-> {alkohol}. Nepodmíněná pravděpodobnost nákupu alkoholu je 39 %, Confidence daného asociačního pravidla je 75 %
● Lift = relativní zvýšení pravděpodobnosti platnosti závěru, při platnosti předpokladů ● Lift = CONFIDENCE / NEPODMÍNĚNÁ_PRAVDĚPODOBNOST_ZÁVĚRU = 0.75 / 0.39 = 1.923
65
Vysvětlete princip algoritmu APRIORI
● frekventovaná množina = množina položek splňující stanovený práh minimální podpory (supportu) ● vytváří postupně množiny L1, L2 … Li tak, že z předchozí vygeneruje množinu novou ● apriori vlastnost = každá neprázdná podmnožina frekventované množiny je opět frekventovanou množinou ● 2kroky: ○ nagenerování množiny kandidátů s využitím Apriori vlastnosti frekventovaných množin ○ ořezání množiny kandidátů na množiny, které jsou frekventovanými množinmi
66
Proč je důležité mít vyváženou cílovou proměnnou?
● lepší výkon modelů (když převažuje jedna třída-> dává ji model větší váhu) ● správná metrika modelu ○ vdatech mám1mužea99žen ■ prediktnu správně 99 žen, muže prediktnu jako ženu ■ sensitivity = 99 / 99 = 1
67
Jakým uzlem provedete vyvážení proměnné? Lze si ulehčit práci, když chcete vyvážit proměnnou v modeleru, aniž byste museli nastavovat parametry uzlu ručně?
● uzel Balance ● tobylo něco, že to vytáhl z grafu ne?
68
Jakým uzlem provedete import dat do modeleru z databáze?
● uzel Database
69
Jakým uzlem provedete export dat Z modeleru DO databáze?
● uzel Database
70
Co je třeba připravit, abyste mohli využívat DB v Modeleru?
● vytvořit v ODBC Data Source Administrator-> nový User Data Source
71
Můžete v Modeleru psát SQL dotazy?
● ano
72
Umí modeler část streamu převést automaticky na SQL dotaz? Jak to případně poznáte?
● ano->ikona SQL vedle uzlu? (chatgpt)
73
Co jsou chyby prvního a druhého druhu?
● chyba prvního druhu ○ FALSEPOSITIVE (FP) ○ houba je ve skutečnosti jedlá, ale my ji označíme jako jedovatou ● chyba druhého druhu (horší než prvního druhu) ○ FALSENEGATIVE(FN) ○ houba je ve skutečnosti jedovatá, ale my ji označíme jako jedlou
74
Co je matice záměn?
● vkontextu úloh ML-> kontingenční matice obsahující v řádcích skutečnou hodnotu předpovídané proměnné a ve sloupcích předpověď klasfikátoru
75
Jak spočítáme celkovou správnost?
● (TP+TN) / (TP+FP+TN+FN) = accuracy
76
Jak spočítáme celkovou chybu?
● (TF+FN) / (TP+FP+TN+FN)
77
Co je přesnost? Jak byste ji definovali?
● přesnost = precision = TP / (TP + FP)
78
Co je úplnost? Jak byste ji definovali?
● úplnost = recall = sensitivity = TP / (TP + FN)
79
Co je senzitivita? Jak byste ji definovali?
● senzitivita = sensitivity = recall = TP / (TP + FN)
80
Co je specifičnost? Jak byste ji definovali?
● specificita = specificity = TN / (FP + TN)
81
Co se stane se senzitivitou, klesne-li počet chyb druhého druhu (FN)?
● zvýší se
82
Co se stane se specificitou, klesne-li počet chyb prvního druhu (FP)?
● zvýší se
83
Jaké uzly IBM SPSS Modeler vhodné pro evaluaci modelů znáte?
● Analysis, graf Evaluation (ROC křivka), (Matrix?)
84
Jaké evaluační charakteristiky znáte?
● senzitivita (recall), specifičnost, False Positive Rate, accuracy, celková chyba
85
Co je shluková analýza a k čemu se používá?
● pro deskriptivní úlohy DM ● vyhledává a utváří shluky ve vstupních datech ● pokud máme cílové shluky-> učení s učitelem ● pokud nemáme cílové shluky-> učení bez učitele ● v závěru-> najít interpretaci shluků ● využití: marketing (segmentace zákazníků), analýza kriminality (hot spots), příprava dat, redukce počtu proměnných, první krok modelování, identifikace podezřelých případů
86
Co musíme udělat s daty před jejich nasazením do shlukovacích algoritmů?
● standardizace hodnot atributů ● normalizace hodnot atributů (0-1) ● podle algoritmu-> null hodnoty, outliery, transformace typů atributů
87
Coje standardizace hodnot, proč se v SA provádí? Uveďte příklady standardizace.
● proefektivnější výpočet vzdálenosti, různé číselné rozmezí, velká čísla potlačí ta malá ● Z-skóre, rozpětí <-1;1>, rozpětí <0;1> = normalizace, logistická funkce, ArcTg…
88
Coje metrika, kdy ji můžeme použít a jaké typy metrik znáte?
● hodnocení podobnosti objektů-> pro číselná data ○ Euklidova metrika v n-rozměrném prostoru ○ Hammingova metrika (Manhattan) ○ Čebyševova metrika ● keficienty podobností objektů-> kategoriální data ● pravděpodobnostní přístup
89
Kdy se používají koeficienty asociace, jaké koeficienty znáte?
● vpřípadě dichotomických dat (true/false) ● Jaccardův koeficient, Sokalův a Michenerův koeficient, Diceův
90
Coje dendrogram?
● diagram vyjadřující kroky shlukování (pro hierarchické metody), nebo kroky klas. stromu
91
Dojaké kategorie shlukovacích algoritmů patří algoritmus K-Means?
● Nehierarchické
92
Jaké metody určování podobnosti shluků se používají při hierarchickém shlukování?
● nejbližší soused ● nejvzdálenější soused ● centroidní (porovnávám centroidy shluků)
93
Jaké typy algoritmů SA znáte?
● KMeans, DBSCAN, Fuzzy K-means, aglomerativní + divizní,
94
Jak určíme vzdálenost shluků pro číselné atributy jednotlivých objektů?
pomocí metrik (euklidova, hammingova, čebyševova...)