datamining Flashcards
(135 cards)
Vad är datamining?
Data Mining är den faktiska “tillämpningen av avancerade statistiska och artificiella
intelligensstekniker för att hitta och analysera mönster och relationer mellan data för att
klassificera eller förutsäga den” - Kroencke (2017)
Beskriv dom huvudsakliga data mining tasksen och deras kategori
Predictive modellering- prediktiv
Associationsanalys- deskriptiv
klusteranalys- Deskriptiv
Avvikelseanalys - predektiv eller deskriptiv
Berätta om prediktiv modellering
- Försöker förutsäga värdet på en variabel (target variable) baserat på andra attribut ( explanatory variables)
- Förklarande approach
- Ofta övervakad(supervised)
Berätta om Associationsanalys -
Hitta mönster som beskriver och summerar relationer inom datan
Identifiera ifall närvaron av en variabel är lika med närvaron av en annan variabel
Utforskande approach
Är ofta oövervakad(unsupervised)
Kan användas inom t.ex. köpkorgsanalys eller
inom IT för att hitta webbsidor som besöks tillsammans.
Berätta om klusteranalys
Oövervakad(unsupervised approach)
Dela in data i homogena grupper (kluster)
Likheten bestäms genom avståndet, med exempelvis euclidean eller manhattan distance
Kan användas för att t.ex.
samla kunder som köper liknande varor och då samla dessa i kluster genom att analysera
deras varukorgar.
Berätta om avvikelseanalys
- Går ut på att upptäcka anomalier eller outliers (uteliggare). Observationer
vars karaktärsdrag skiljer sig markant från resten av datan. En bra avvikelseanalys upptäcker
mycket men har samtidigt ett lågt antal av False Positives. Kan användas för att upptäcka
t.ex. bedrägerier eller nätverksintrång.
Vad är KDD processen? och vad är dom 5 stegen?
KDD processen är ett helhetsbegrepp som beskriver omvandlingen från rådata till
användbar information.
Steg 1: Data Selection
- Man väljer ut utifrån olika källor vilken data man ska använda sig av.
Steg 2: Preprocessing
- Man städar och organiserar datan genom att bl.a. ta bort felaktigheter, uteliggare
och gör integreringar mellan olika dataset.
Steg 3: Transformation
- Man transformerar datan till ett format som krävs för den specifika Data Mining
metod man ska använda sig utav.
Steg 4: Data Mining
- Själva utförandet av Data Mining metoden och data-utvinningen görs.
Steg 5: Interpretation and analysis of the results
- Man tolkar och analyserar svaren man fått vid datautvinningen.
Berätta om CRISP-DM
CRISP-DM står för CRoss-Industry Standard Process for Data Mining och är en modell som
används brett inom branschen.
➔ Modellen är en öppen standard och öppen för alla att använda. Modellen refereras även till att vara best practice. ➔ Skapades 1996 av personer i branschen (inklusive SPSS, Statistical Package for the Social Sciences). ➔ Modellen illustreras som en kontinuerlig, iterativ cykel. ➔ Modellen består av 6 delar: ◆ Business Understanding ◆ Data Understanding ◆ Data Preparation ◆ Modeling ◆ Evaluation ◆ Deployment
Vad menas med prediktiv datamining?
Prediktiv (vad?)
● Används för att förutsäga värdet (regression) eller tillhörighet.
(klassificering) för ett attribut (target variable) baserat på värdet av
andra tidigare kända attribut (explanatory variables).
● Har en förklarande approach (explanatory approach).
● Är oftast övervakad (supervised).
Vad menas med deskriptiv data mining?
Deskriptiv (varför?)
● Upptäcka mönster som summerar eller beskriver de underliggande
relationerna inom datan.
● Har en utforskande approach (exploratory approach).
● Är oftast oövervakad (unsupervised).
Vad finns det för problem inom data mining?
● Otillräckligt med träning ● Otillräckligt verktygsstöd ● Svårighet att komma åt önskad data. ● Överflöd av mönster som gör det otydligt. ● Föränderlig och tidsorienterad data. sid 14 av 72 ● Rumsorienterad data. ● Komplexa datatyper. ● Skalbarhet. ● Etik (!!!)
Varför är det viktigt att känna till datan du jobbar med?
Att känna till vilken data du hanterar är viktigt för att kunna veta vad du kan
göra och vilka metoder du kan använda. Det kan också innebära att du behöver
konvertera datan, beroende på vilken metod du ska använda på den.
Beroende på hur pålitlig datan är så påverkas ditt resultat. Ju opålitligare data du har,
desto opålitligare resultat får du. Vid preprocessing-delen påverkas även resultatet - vilket
innebär att ditt resultat alltid blir subjektivt på ett eller annat sätt! Detta beror på att
analytikern subjektivt väljer vilka data man vill filtrera bort, ignorera eller lyfta fram
Vad är DIKW pyramiden och vilka steg har den?
Denna modell är debatterad och ifrågasatt men kan vara bra för att få ett perspektiv på
relationerna mellan data, information, kunskap och visdom.
Data är “råa fakta”, information är data med en mening och syfte i en kontext, kunskap är
information som sätts ihop till något som är tillräckligt för att kunna fatta beslut ifrån och
visdom är att förstå varför det är på ett visst sätt.
Vad är data?
Data kan struktureras upp i dataobjekt och deras attribut.
Varje rad i en tabell representerar ett objekt, t.ex. en
person, och varje kolumn representerar respektive attribut
för det objektet, dvs variabler som beskriver objektet.
Attribut och variabler är alltså samma sak.
Attribut kan kategoriseras utifrån två sätt, vilka?
utifrån
vilka matematiska operationer som kan göras (logiska operationer) och utifrån
vilka värden de kan ha (Diskreta värden, kontinuerliga värden samt asymmetriska värden).
Vilka kategorier kan data ha utifrån vilka matematiska operationer som kan göras?
➔ Kvalitativa (beskrivande data)
◆ Kan göras jämförelser på, t. ex. =, ≠,
➔ Kvantitativa (beräknande data)
◆ Kan göras beräkningar på, t. ex. +, -, *, /
Namnge dom 4 dataskolorna och vilken kategori dom tillhör gällande matematiska operationer.
Nominal (kvalitativ)
Ordinal (kvalitativa)
Intervall (kvantitativa)
Ratio/kvotskala (kvantitativa)
berätta om nominal data
Nominal (kvalitativ)
Grupperingar av data utifrån något godtyckligt kategoriskt; exempelvis hårfärg, bransch,
arbetsfunktion. Ordningen spelar ingen roll. Här kan vi jämföra olika data och se vilket som
förekommer mest osv. men inte räkna på det. Binära data är en typ av nominal data som
har två utfall, exempelvis Ja/Nej.
T.ex. bilmärken. Det är beskrivande data som inte går att mäta (man kan inte mäta
avståndet mellan bilmärken). Däremot går det att konkretisera genom att omvandla alla
förekomster av nominal data till binärer (0 om det inte finns och 1 om det finns). Bilmärkena
skulle kunna tas bort i detta fall och istället skapa kolumner för varje bilmodell (“Audi”,
“BMW”, “Volvo”…) och sedan markera förekomsten av varje i exempelvis ett
parkeringsgarage.
Berätta om ordinal data
Ordinal (kvalitativa)
Här finns det en ordning; det kan börja från minsta till största eller
tvärtom. Kan exempelvis vara excellent-average-poor, betyg osv. Det
kan dessutom vara olika stora avstånd mellan varje steg. Utifrån denna
data kan vi exempelvis räkna ut “rank order”, median osv.
sid 17 av 72
T.ex. betygsskalan U = 0 - 50%, G = 50-85%, VG = 85 - 100%, visar att det inte går att ta ut
en jämn skala ur ordinal data.
Berätta om intervall-data
Intervall (kvantitativa)
Avstånden mellan varje steg är lika stort. Siffran 0 är arbiträr/godtycklig och innebär
inte avsaknaden av data utan är enbart ett tal som alla andra i skalan. Med
intervalldata är det enkelt att mäta ett korrekt och skalenligt avstånd mellan två
punkter. Går dock inte att få ut ratio ur detta då den är nollbaserad.
T.ex. kan man se celsiusskalan som intervall eftersom den går från -273 ℃ till
(nästan) oändligheten.
Berätta om Ratio/kvotskala
Är som intervalldata, d.v.s. avstånden mellan varje steg är lika stort. Dock innebär
siffran 0 avsaknad av något. Därav kan det heller inte bli ett negativt värde.
T.ex. Pengar, Kelvinskalan, socker i en Coca Cola.
Data kan innehålla olika typer av värden, vilka?
Diskreta värden
Kontinuerliga värden
Asymmetriska värden
Berätta om Diskreta värden
Ett diskret attribut kan ha ett fixerat antal värden/kombinationer eller obegränsat antal
värden. Dessa kan vara integer-tal eller binära/boolean-värden.
T.ex. kan det vara registreringsnummer på bilar, personnummer eller vanliga heltal.
Kontinuerliga värden
Ett kontinuerligt attribut som består av reella tal, dvs med decimaler.
T.ex. kan det vara längd eller vikt.