Lektion 1-3 Flashcards

(31 cards)

1
Q

Forklar Data Wrangling

A

Data Wrangling er processen med at forberede og omstrukturere rå data, så de bliver brugbare til analyse. Det indebærer at rense, validere, berige og organisere data for at øge deres informationsværdi.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Hvor lang tid skal du forvente at bruge på Data Wrangling i din analyse

A

Som en tommelfingerregel kan du forvente at bruge omkring 60-80% af tiden på hele analysen på data wrangling.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Hvad er Data profiling?

A

Data profiling er processen med at analysere og forstå datastrukturen og kvaliteten af et datasæt. Formålet er at identificere fejl, mønstre og valideringsregler for at sikre, at dataene er egnede til analyse.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Hvad er Data exploration?

A

Data Exploration fokuserer på at undersøge datasættet for at identificere mønstre, relationer og sammenhænge. Dette trin hjælper med at generere hypoteser og forstå de potentielle indsigter, som dataene kan give.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Hvad er Data enrichment?

A

Data Enrichment handler om at forbedre datasættet ved at tilføje kontekst, gruppere information eller standardisere data for at øge informationsværdien.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Forskelle, Ligheder og Sammenhænge mellem Profiling, exploration og enrichment

A

Ligheder:
* Alle tre processer er en del af Data Wrangling.

Forskel: Profilering = Forståelse og kvalitetssikring
Exploration = Mønstre, relationer og hypoteser
Enrichment = Tilføjelse af værdi og kontekst

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Hvorfor arbejder vi med generaliseringer indenfor statistik?

A

. En god generalisering sikrer, at analysens resultater kan bruges til at forudsige eller forstå tendenser i en bredere kontekst, ikke kun i de specifikke data, vi har analyseret.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

En god stikprøve er som….

A

En spiseske af en suppe.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Hvad er validitet?

A

Validitet = Hvor tæt vores målinger eller forudsigelser er på sandheden. Høj validitet betyder, at vi måler det rigtige.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Reliabilitet

A

Præcision (Reliabilitet) = Hvor konsekvente eller reproducerbare vores målinger er. Høj præcision betyder, at vores målinger ligger tæt på hinanden, men ikke nødvendigvis på sandheden.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Hvorfor er det vigtigt at sikrer både validitet og Reliabilitet

A

Høj validitet = Vi måler det rigtige.
Høj præcision = Målingerne er stabile og kan gentages.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Hvad er konsekvensen ved lav validitet og lav reliabilitet

A

Lav validitet → Den vil give forkerte konklusioner. Lav præcision → Den vil give inkonsistente resultater, hvilket gør det svært at stole på analysen.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Hvad er en stokastisk variabel?

A

En stokastisk variabel er en variabel, hvis værdi bestemmes af tilfældige faktorer. Med andre ord kan dens udfald ændre sig fra stikprøve til stikprøve.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Hvad er sammenhængen mellem stikprøve og stokastisk variabel?

A

Når vi vælger en stikprøve, får vi et tilfældigt udfald af en stokastisk variabel.
Dette betyder, at hvis vi vælger en ny stikprøve, kan vi få et andet resultat.
Ved at tage flere stikprøver kan vi estimere den sande andel i populationen, men vi vil altid have en vis tilfældig variation. vi kan aldrig være 100% sikre på, at en enkelt stikprøve afspejler hele populationen præcist, men vi kan bruge statistiske metoder til at kvantificere usikkerheden!

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Kan man lave en totaltælling i stedet for en stikprøve?

A

I teorien ja, men i praksis nej – af flere grunde:

For stor population → Det er ofte upraktisk og dyrt at undersøge alle.
For tidskrævende → Data kan blive forældede, før analysen er færdig.
Destruktive tests → Hvis vi tester fx airbags, kan vi ikke teste dem alle.
Fejlrisiko → Totaltællinger kan indeholde systematiske fejl, som er svære at opdage.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Forklar Hyppighed, frekvens og stikprøve?

A

Hyppighed: Antal gange en værdi forekommer

Frekvens: Hyppighed udtrykt i procent

Stikprøve: En del af populationen, vi undersøger

17
Q

Hvilke 3 former for stikprøver findes der?

A

Simpel, Statificeret og klyngeudvalgt

18
Q

Hvad er en simpel stikprøve?

A

Hver enhed i populationen har lige stor sandsynlighed for at blive udvalgt.
Eksempel: En virksomhed trækker tilfældigt 500 kunder fra deres database til en undersøgelse.

19
Q

Hvad er staficeret stikprøver?

A

Populationen er heterogen (består af forskellige grupper).
Stikprøven opdeles i undergrupper (strata), hvorfra der udvælges repræsentative stikprøver.
* Eksempel: Hvis vi vil undersøge vælgeradfærd, sikrer vi, at stikprøven har samme fordeling af mænd og kvinder som hele befolkningen.

20
Q

Hvad er klyngeudvalgt stikprøve?

A

Populationen er opdelt i naturlige grupper (klynger), og vi udvælger tilfældigt nogle af disse klynger.
* Eksempel: En national sundhedsundersøgelse vælger tilfældige skoler og undersøger alle elever der, i stedet for at trække elever fra hele landet individuelt.

21
Q

Hvad er Bootstraping?

A

Bootstrapping er en statistisk metode til at mindske usikkerhed i en stikprøve ved at gentagne gange trække nye stikprøver med tilbagelægning fra den oprindelige stikprøve.

22
Q

Hvorfor Bootstraper man og hvad er faren ved det

A

Man Bootstrapper et datasæt hvis man har få observationer, og man kan på den måde mindske usikkerheden. Der er intet matematisk bevis for det, men det er ved anekdotisk bevisførelse bevist. Faren ved det er at det er en ricisi ved at genproducerer en outlier eksempelvis.

23
Q

Forklar Kahnemands system 1 & 2

A

System 1 (hurtig tænkning): Intuitiv, automatisk, ubevidst og hurtig. Det kræver ingen anstrengelse og bruges ofte i dagligdags beslutninger.

System 2 (langsom tænkning): Bevidst, rationelt, logisk og kræver mental anstrengelse. Det bruges, når der er behov for dybere analyse.

24
Q

Hvornår skal man bruge system 1 & 2 henholdsvis?

A

System 1 er fordelagtigt når:
* Beslutninger skal tages hurtigt (fx instinktiv reaktion i en farlig situation).
* Situationer er velkendte, og erfaring gør det muligt at handle korrekt uden dyb analyse.
* Problemer er simple eller rutinemæssige, såsom at genkende ansigter eller køre en velkendt rute.

System 2 er fordelagtigt når:
* Problemet er komplekst og kræver dyb analyse (fx økonomiske beslutninger eller strategisk planlægning).
* Fejl kan have alvorlige konsekvenser (fx medicinske diagnoser eller juridiske vurderinger).

25
Hvad er Bias?
Kognitiv bias er systematiske fejltagelser i vores tænkning, der påvirker vores beslutninger og vurderinger. De opstår, fordi vores hjerner forsøger at forenkle informationsbehandling, hvilket ofte fører til irrationelle valg og fejlagtige konklusioner. Bias kan være nyttige i hurtige beslutningssituationer (System 1 tænkning)
26
Giv eksempler på Bias?
1. Confirmation Bias & Cherry Picking 2. Survivorship Bias 3. Overconfidence Bias 4. Anchor Bias
27
Hvad er Induktion?
Induktion er en metode, hvor man slutter fra enkelttilfælde til en generel regel. Man observerer mønstre i data og danner en teori på baggrund af dem. Eksempel fra artiklen: Hvis man har observeret mange røde ræve, kan man konkludere, at alle ræve er røde. Men denne konklusion er ikke 100 % sikker – der kunne eksistere en blå ræv et sted. Dette kaldes induktionsproblemet.
28
Hvad er deduktion?
Deduktion Deduktion går den modsatte vej: Man starter med en generel regel og anvender den på et specifikt tilfælde. Hvis præmisserne er sande, er konklusionen logisk nødvendigvis også sand. Eksempel fra artiklen: * Alle mennesker er dødelige. * Sokrates er et menneske. * Ergo er Sokrates dødelig.
29
Hvad er problem reframing?
Problem Reframing handler om at ændre måden, man ser på et problem for at finde nye løsninger. I stedet for at tage problemet for givet, udfordrer man de underliggende antagelser og ser det fra en ny vinkel. Dette kan føre til mere kreative og effektive løsninger. 1. Definér problemet som det ser ud lige nu. 2. Udfordr antagelserne – er der en anden måde at se problemet på? 3. Reformulér problemet i nye termer. 4. Find løsninger, som måske ikke var synlige før.
30
Hvad er First principle thinking:
First Principles Thinking er en problemløsningsmetode, hvor man bryder et problem ned til dets mest grundlæggende, uomtvistelige sandheder (førsteprincipper). I stedet for at tænke i eksisterende løsninger eller sammenligninger, starter man fra bunden og bygger en løsning op fra de mest fundamentale dele. Metoden følger tre trin: * Identificér og udfordr antagelser → Hvad tager vi for givet? Hvad hvis disse antagelser er forkerte? * Bryde problemet ned til førsteprincipper → Hvad ved vi med sikkerhed? Hvad er de grundlæggende fakta, der ikke kan reduceres yderligere? Genopbyg løsningen fra bunden → Hvordan kan vi bruge førsteprincipper til at skabe en smartere, billigere eller bedre løsning?
31
Hvad er Profit Driver Analysis?
En Profit Driver Analysis er en metode til at identificere og analysere de faktorer (drivers), der har størst indflydelse på en virksomheds profit. Målet er at forstå, hvad der reelt driver indtjening, så man kan optimere og forbedre de mest kritiske områder. Det inkluderer oftest: * Omsætning (priser, salgsmængde, markedsandele) * Omkostninger (produktionsomkostninger, faste/variable omkostninger, logistik) * Effektivitet (automatisering, processer, produktivitet) * Kundetilfredshed og loyalitet (repeat sales, kundeanskaffelsesomkostninger)