Lektion 1-3 Flashcards
(31 cards)
Forklar Data Wrangling
Data Wrangling er processen med at forberede og omstrukturere rå data, så de bliver brugbare til analyse. Det indebærer at rense, validere, berige og organisere data for at øge deres informationsværdi.
Hvor lang tid skal du forvente at bruge på Data Wrangling i din analyse
Som en tommelfingerregel kan du forvente at bruge omkring 60-80% af tiden på hele analysen på data wrangling.
Hvad er Data profiling?
Data profiling er processen med at analysere og forstå datastrukturen og kvaliteten af et datasæt. Formålet er at identificere fejl, mønstre og valideringsregler for at sikre, at dataene er egnede til analyse.
Hvad er Data exploration?
Data Exploration fokuserer på at undersøge datasættet for at identificere mønstre, relationer og sammenhænge. Dette trin hjælper med at generere hypoteser og forstå de potentielle indsigter, som dataene kan give.
Hvad er Data enrichment?
Data Enrichment handler om at forbedre datasættet ved at tilføje kontekst, gruppere information eller standardisere data for at øge informationsværdien.
Forskelle, Ligheder og Sammenhænge mellem Profiling, exploration og enrichment
Ligheder:
* Alle tre processer er en del af Data Wrangling.
Forskel: Profilering = Forståelse og kvalitetssikring
Exploration = Mønstre, relationer og hypoteser
Enrichment = Tilføjelse af værdi og kontekst
Hvorfor arbejder vi med generaliseringer indenfor statistik?
. En god generalisering sikrer, at analysens resultater kan bruges til at forudsige eller forstå tendenser i en bredere kontekst, ikke kun i de specifikke data, vi har analyseret.
En god stikprøve er som….
En spiseske af en suppe.
Hvad er validitet?
Validitet = Hvor tæt vores målinger eller forudsigelser er på sandheden. Høj validitet betyder, at vi måler det rigtige.
Reliabilitet
Præcision (Reliabilitet) = Hvor konsekvente eller reproducerbare vores målinger er. Høj præcision betyder, at vores målinger ligger tæt på hinanden, men ikke nødvendigvis på sandheden.
Hvorfor er det vigtigt at sikrer både validitet og Reliabilitet
Høj validitet = Vi måler det rigtige.
Høj præcision = Målingerne er stabile og kan gentages.
Hvad er konsekvensen ved lav validitet og lav reliabilitet
Lav validitet → Den vil give forkerte konklusioner. Lav præcision → Den vil give inkonsistente resultater, hvilket gør det svært at stole på analysen.
Hvad er en stokastisk variabel?
En stokastisk variabel er en variabel, hvis værdi bestemmes af tilfældige faktorer. Med andre ord kan dens udfald ændre sig fra stikprøve til stikprøve.
Hvad er sammenhængen mellem stikprøve og stokastisk variabel?
Når vi vælger en stikprøve, får vi et tilfældigt udfald af en stokastisk variabel.
Dette betyder, at hvis vi vælger en ny stikprøve, kan vi få et andet resultat.
Ved at tage flere stikprøver kan vi estimere den sande andel i populationen, men vi vil altid have en vis tilfældig variation. vi kan aldrig være 100% sikre på, at en enkelt stikprøve afspejler hele populationen præcist, men vi kan bruge statistiske metoder til at kvantificere usikkerheden!
Kan man lave en totaltælling i stedet for en stikprøve?
I teorien ja, men i praksis nej – af flere grunde:
For stor population → Det er ofte upraktisk og dyrt at undersøge alle.
For tidskrævende → Data kan blive forældede, før analysen er færdig.
Destruktive tests → Hvis vi tester fx airbags, kan vi ikke teste dem alle.
Fejlrisiko → Totaltællinger kan indeholde systematiske fejl, som er svære at opdage.
Forklar Hyppighed, frekvens og stikprøve?
Hyppighed: Antal gange en værdi forekommer
Frekvens: Hyppighed udtrykt i procent
Stikprøve: En del af populationen, vi undersøger
Hvilke 3 former for stikprøver findes der?
Simpel, Statificeret og klyngeudvalgt
Hvad er en simpel stikprøve?
Hver enhed i populationen har lige stor sandsynlighed for at blive udvalgt.
Eksempel: En virksomhed trækker tilfældigt 500 kunder fra deres database til en undersøgelse.
Hvad er staficeret stikprøver?
Populationen er heterogen (består af forskellige grupper).
Stikprøven opdeles i undergrupper (strata), hvorfra der udvælges repræsentative stikprøver.
* Eksempel: Hvis vi vil undersøge vælgeradfærd, sikrer vi, at stikprøven har samme fordeling af mænd og kvinder som hele befolkningen.
Hvad er klyngeudvalgt stikprøve?
Populationen er opdelt i naturlige grupper (klynger), og vi udvælger tilfældigt nogle af disse klynger.
* Eksempel: En national sundhedsundersøgelse vælger tilfældige skoler og undersøger alle elever der, i stedet for at trække elever fra hele landet individuelt.
Hvad er Bootstraping?
Bootstrapping er en statistisk metode til at mindske usikkerhed i en stikprøve ved at gentagne gange trække nye stikprøver med tilbagelægning fra den oprindelige stikprøve.
Hvorfor Bootstraper man og hvad er faren ved det
Man Bootstrapper et datasæt hvis man har få observationer, og man kan på den måde mindske usikkerheden. Der er intet matematisk bevis for det, men det er ved anekdotisk bevisførelse bevist. Faren ved det er at det er en ricisi ved at genproducerer en outlier eksempelvis.
Forklar Kahnemands system 1 & 2
System 1 (hurtig tænkning): Intuitiv, automatisk, ubevidst og hurtig. Det kræver ingen anstrengelse og bruges ofte i dagligdags beslutninger.
System 2 (langsom tænkning): Bevidst, rationelt, logisk og kræver mental anstrengelse. Det bruges, når der er behov for dybere analyse.
Hvornår skal man bruge system 1 & 2 henholdsvis?
System 1 er fordelagtigt når:
* Beslutninger skal tages hurtigt (fx instinktiv reaktion i en farlig situation).
* Situationer er velkendte, og erfaring gør det muligt at handle korrekt uden dyb analyse.
* Problemer er simple eller rutinemæssige, såsom at genkende ansigter eller køre en velkendt rute.
System 2 er fordelagtigt når:
* Problemet er komplekst og kræver dyb analyse (fx økonomiske beslutninger eller strategisk planlægning).
* Fejl kan have alvorlige konsekvenser (fx medicinske diagnoser eller juridiske vurderinger).