Test Flashcards
(94 cards)
Coje datamining?
● vyhledávání / objevování netriviálních závislosti, vzorů a trendů
prozkoumávání velkých objemů dat
● zapomocí matematických a statistických algoritmů
Coseskrývá pod zkratkou CRM?
● řízení vztahů se zákazníky
● systémový podnikatelský přístup, který se vyznačuje aktivní tvorbou a
udržováním dlouhodobě prospěšných vztahů se zákazníky <wiki></wiki>
Jaké typy úloh DM patří do portfólia problémů CRM?
● udržení si zákazníka
● přebrání zákazníka
● oslovení zákazníka
Jaké úlohy DM řeší obvykle finanční instituce?
● skórování žádostí o úvěr
● hodnocení chování splácení úvěrů
● hodnota (bonita) klienta
● podvody při používání platebních karet
Kde všude se dá DMuplatnit?
● finanční instituce, genové inženýrství, medicína (diagnostika chorob),
personalistika (přijímání pracovníků), školství (udělování stipendií, predikce
úspěšnosti), obchodní řetězce (nákupní košík), státní sféra, logisitka,
marketing, prevence kriminality, identifikace org. zločinu, průmysl…
● text mining (chatgpt, analýza sentimentu)
● webmining (logy, cookies, personalizovaný web)
● zpracování obrazu (rozpoznávání)
Je pravdivé tvrzení, že DM odhalí v datech vše podstatné?
● ne,musíme vědět, co chceme / hledáme
Je pravdivé tvrzení, že DM je modelování?
● není jen o modelech-> ale i o přípravě dat (80 % času)
● ne-klasifikace, predikce, regrese, analýza vztahů, detekce anomálií, analýza
časových řad, regresní modely, neuronové sítě, rozhodovací stromy,
asociační pravidla, shluková analýza…
● analýza vztahů-> asociační pravidla (APRIORI)
Je pravdivé tvrzení, že DM pracuje pouze s obrovskými datovými
množinami?
● specifický úkol-> zmenšuje množinu
Jaké znáte dataminingové nástroje?
● IBMSPSSModeler, KNIME, RapidMiner, Orange, Weka
● knihovny v program. jazycích
Jaké programovací jazyky jsou nejpopulárnější pro datovou analýzu, data
mining, strojové učení a umělou inteligenci?
● python, R
Co je klasifikace, predikce, seskupování? Uveďte příklad úlohy a příklad
vhodného algoritmu.
● klasifikace-> zatřídění objektů do různých tříd podle jejich vlastností
(rozhodovací stromy- C&RT, random forest…)
● predikce-> předpověď
● seskupování-> shlukovací metody (kmeans…), učení bez učitele- model se
snaží najít podobnosti mezi daty a rozdělit je do skupin (shluků / klastrů),
nemá cílovou proměnnou?
Proč a kdy vznikla metodologie CRISP DM, které společnosti stály u
vzniku?
● evropská komise-> grant na vytvoření metodologie DM
● SPSS(modely), NCR (data), OHRA, DAIMLER-CHRYSLER (průmysl)
● 1999
Z jakých fází se skládá metodologie CRISP DM, popište co se v jednotlivých
fázích řeší?
● Cross-Industry Standard Process for Data mining
● schéma/ fáze:
○ porozumění problému (nejdůležitější, co budeme dělat, plánujeme jak
to budeme dělat)
○ porozumění datům (sběr dat, první vhled do dat, deskriptivní
charakteristiky dat (četnosti, průměr…))
○ příprava dat (časově nejnáročnější, vytváříme modelovací matici->
jedna velká tabulka, modely z matice extrahují řešení problému)
○ modelování (vytváření predikčních modelů, 1…n modelů, ocenění
modelů)
○ evaluace (hodnotí se úroveň modelu na reálných datech)
○ nasazení do praxe (časově velmi rozdílná)
Jaký je základní rozdíl mezi data miningem a statistikou?
● statistika-> data z výběrového šetření
● datamining-> data z praxe
Co je vstupní proměnná, prediktor, nezávislá proměnná?
● vstupní = nezávislá = predictor
● tyto data popisují výslednou target variable?
● podle těchto dat rozhoduji o výstupní proměnné
Co je výstupní proměnná, cílová proměnná, target field?
to, co chci predikovat
Jaký je rozdíl mezi strojovým učením bez učitele a učením s učitelem?
● učení s učitelem-> vím o výsledné hodnotě-> mohu vědět, zda se model
rozhodl správně při predikci…
● učení bez učitele-> nevím o výsledné hodnotě-> model vyhledává
spojitosti mezi vzorky dat
K čemu slouží uzly Type, Varfile, Statistics File, Excel, Database, User Input,
Select, Agregate, Sort, Balance, Distinct, Merge, Append, Filter,Partition,
Filed Reorder,Table,Data Audit ; Kde tyto uzly v Modeleru najdete?
● type [field ops]-> definice datových typů sloupců, definice
vstupní/výstupní/obojí/žádné role sloupce
● varfile [sources]-> načtení textového souboru
● statistics file [sources]-> načtení .sav souboru
● excel [sources]-> načtení excel souboru
● database [sources]-> připojení DB?
● user input [sources]-> vložení vlastního vstupu
● select [record ops]-> výběr sloupců
● aggregate [record ops]-> group by
● sort [record ops]-> setřídění
● balance [record ops]-> opravuje inbalances v datech (např ve sloupci
hodnoty true (90%) a false (10%)-> model se spíše naučí rozpoznávat
true-> proto chceme balance)
● distinct [record ops]-> pouze unikátní hodnoty
● merge[record ops]-> spojení dat z různých zdrojů
● append[record ops]-> spojení dat, které mají podobnou strukturu
(sloupce…)
● filter [field ops]-> výběr sloupců
● partition [field ops]-> rozdělení na testovací / trénovací skupiny
● filled reorder [field ops]-> setřídění sloupců
● table [output]-> tabulka šmírovačka
● dataaudit [output]-> jako v pythonu pandas .info()-> dá nám základní
vhled do dat-> histogramy/distribution, statistické ukazatele…
Na jaký typ proměnné/proměnných použijete vizualizaci pomocí Plot,,
Distribution, Histogram?
● plot = oba typy?
● distribution = nominální / ordinální (kategoriální)
● histogram = spojité / diskrétní (numerické, kvantitativní)
Lze v IBM SPSS Modeler psát skripty a jaké skriptovací jazyky případně
Modeler podporuje?
● python
Jaké datové typy rozlišujeme při statistických a DM úlohách?
● statistika-> kategoriální (kvalitativní) / číselné (kvantitativní)
● DM->kvalitativní (nominální, ordinální) / kvantitativní (spojité, diskrétní)
Které statistické charakteristiky určují polohu, variabilitu, tvar?
● poloha-> aritemtický průměr, medián, kvantily, modus
● variabilita-> rozptyl, směrodatná odchylka, MAD, IQR, z-skóre, variační
koeficient…
● tvar-> šikmost, špičatost
Co je modus pro kategoriální data?
● nejčetnější kategorická hodnota
Jak se určí modus pro kvantitativní proměnnou?
● diskrétní-> nejčetnější hodnota
● spojitá-> střed shortu (nejkratší interval, ve kterém leží 50 % hodnot
sledované proměnné)
○ počet dat-> liché-> 50 % souboru se určuje = n/2 + 0.5