Lektion 4-6 Flashcards

(27 cards)

1
Q

Hvad er det vigtige når vi snakker om sammenhænge?

A

At forstå forskellen mellem korrelation, kausalitet og confoundere er afgørende for at drage korrekte konklusioner, især i forskning, statistik og beslutningstagning. Hvis vi fejltolker en sammenhæng, kan det føre til forkerte antagelser og potentielt skadelige beslutninger

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Hvad er Korrelation

A

Korrelation – når to variabler ændrer sig samtidig, men uden nødvendigvis en direkte årsagssammenhæng.

Eksempel: Der er en korrelation mellem antallet af drukneulykker og salget af is. Men det er ikke is-salget, der forårsager ulykkerne – en tredje faktor (varmt vejr) er den reelle årsag.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Hvad er kausalitet?

A

Kausalitet – når én variabel direkte forårsager en ændring i en anden variabel.

Eksempel: Rygning forårsager lungekræft. Dette er påvist gennem mekanismerne bag tobaksrøgens skadelige effekter på lungevævet.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Hvad er Cofunder?

A

Confounder – en tredje faktor, der påvirker både den uafhængige og afhængige variabel og dermed skaber en falsk sammenhæng.

Eksempel: Folk, der drikker kaffe, har ofte højere risiko for hjerteanfald. Men det viser sig, at mange kaffedrikkere også ryger, og rygning er den reelle årsag til hjerteanfaldet.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Hvad er Deterministisk kausalitet?

A

vis en bestemt årsag altid fører til den samme effekt.
Eksempel: Hvis du slipper en kugle fra en bestemt højde, vil den altid falde til jorden på grund af tyngdekraften.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Hvad er Stokastisk kausalitet?

A

En årsag øger sandsynligheden for en effekt, men effekten sker ikke hver gang.
Eksempel: Rygning øger sandsynligheden for at udvikle lungekræft, men ikke alle rygere får det.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Hvad er Pearsons Korelationskonfiecient?

A

Pearsons korrelationskoefficient (r) er en statistisk metode til at måle styrken og retningen af en lineær sammenhæng mellem to variabler. Værdien af r varierer mellem -1 og 1:

r = -1 → Perfekt negativ korrelation (jo mere af én variabel, jo mindre af den anden).
r = 0 → Ingen lineær sammenhæng.
r = 1 → Perfekt positiv korrelation (jo mere af én variabel, jo mere af den anden).
Jo tættere på 1/-1 jo større sammenhæng.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Hvad er tommelfingerregel når vi arbejder med Personskonfidensintervaller?

A

Tommelfingerregel:
0->0,25=Ingen sammenhæng
0,25->0,50= Svag sammenhæng
0,50->0,75= Stærk sammenhæng
0,75->1= Meget stærk sammenhæng.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Hvad er 3 ting man skal være opmærksom på når man arbejder med Pearsons regression?

A
  1. Korrelation ≠ Kausalitet
  2. Pearson kræver en lineær sammenhæng
  3. Følsom over for outliers og små datasæt
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Hvad er et DAG diagram?

A

En Directed Acyclic Graph (DAG) er et grafisk værktøj, der bruges til at repræsentere kausale sammenhænge mellem variabler. Den består af noder (variabler) og pile, der angiver retningen af påvirkning (kausalitet).

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Hvad kendetegner en DAG?

A

Directed (Rettet):
Acyclic (Ikke-cyklisk):
Graph (Grafisk præsentation):

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Hvad er Autokorrelation?

A

Auto-korrelation refererer til en situation, hvor en tidsserievariabel er korreleret med tidligere værdier af sig selv. Det betyder, at tidligere observationer i en dataserie kan forudsige fremtidige observationer.

Dette kan være relevant i analyser af fx markedsføring og salg, hvor vi vil vide, hvornår en marketingkampagne har den største effekt på omsætningen.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Hvad er den sande værdi?

A

Den sande værdi refererer til den faktiske parameter i en population, som vi forsøger at estimere. For eksempel, hvis vi vil kende gennemsnitsalderen for en hel befolkning, er denne gennemsnitsalder den sande værdi. Men da vi ofte kun har adgang til stikprøver, vil vores estimater kun være tilnærmelser til denne sande værdi.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Hvad er den gautiske kurve?

A

Karl Friedrich Gauss fandt ud af, at målefejl og mange andre naturlige fænomener ofte følger en bestemt matematisk fordeling. Denne fordeling er symmetrisk omkring en gennemsnitsværdi, hvor små afvigelser fra gennemsnittet er meget almindelige, mens store afvigelser er sjældne. Dette mønster danner en klokkeformet kurve, som vi i dag kender som normalfordelingen eller den Gaussiske fordeling.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Hvad er den klassiske Sandsynlighedsformel

A

P(A)= Antal gunstige udfald / Antal mulige udfald

* 𝑃(𝐴) er sandsynligheden for begivenheden 
* Antal gunstige udfald er de resultater, der opfylder betingelserne for begivenheden. Antal mulige udfald er det samlede antal resultater i det eksperimentelle rum.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Hvad er forskellen på Punktsandsynlighed & kumulativsandsynlighed?

A

->Punktsandsynlighed ser kun på ét specifikt udfald.
->Kumulativ sandsynlighed opsummerer sandsynligheden for alle udfald op til en given værdi.
->Kumulativ sandsynlighed kan udregnes ved at summere punktsandsynligheder for en diskret stokastisk variabel.

17
Q

Hvad er sammenhængen mellem histogrammer og normalfordelingen?

A

Sammenhængen mellem histogrammer og normalfordelingen kan forklares gennem følgende trin

Hvis vi gentagne gange udtager stikprøver med mindst 30 observationer, og beregner gennemsnittet af hver stikprøve, kan vi visualisere disse gennemsnit i et histogram.
Dette histogram vil vise fordelingen af stikprøvegennemsnittene.
Histogrammet danner en klokkeformet kurve

18
Q

Hvad er den centrale grænseværdisætning?

A

Den centrale grænseværdisætninder siger, at hvis vi tager mange tilfældige stikprøver med en tilstrækkelig stor størrelse (𝑛≥30, vil fordelingen af stikprøvegennemsnittene nærme sig en normalfordeling, uanset hvordan den oprindelige population er fordelt.)

19
Q

Hvad bestemmer normalfordellingens form og placering?

A

De to parametre, der bestemmer normalfordelingens form og placering, er middelværdi (μ) og standardafvigelse (σ).

20
Q

Hvorfor er det smart at bruge normalfordelling?

A

Fidusen ved at bruge normalfordelingen, som vist på sliden, er, at vi let kan beregne kumulerede sandsynligheder og forstå, hvordan data fordeler sig.

* Histogrammet med uendeligt mange søjler – Normalfordelingen giver en glat sandsynlighedsfordeling, der dækker alle mulige udfald.
* Standardafvigelse som afstand – Vi kan måle afvigelser fra middelværdien i enheden standardafvigelser, hvilket gør det nemt at vurdere sandsynligheder for forskellige værdier.
21
Q

Hvad er tommelfingerreglen ift. Normalfordelte kurver

A

68% ligger inden for en 1 standartafvigelse
95% ligger inden for 2 standartafvigelser
99% ligger ligger inden for 3 standartafvigelser.

22
Q

Hvad bruges Fordelingsfunktionen til?

A

Fordelingsfunktionen viser, hvor stor en sandsynlighed der er for, at en værdi er mindre end eller lig med en bestemt grænse x.

23
Q

Hvad er Standartfejlen?

A

Standardfejlen (SE) er et redskab der fortæller os, hvor en stikprøves gennemsnit er i forhold til det rigtige gennemsnit for hele populationen.

24
Q

Hvordan beregnes Standartfejl?

A

SE= Standartafvigelse/ Kvrod (Stikprøvestørelse)

25
Hvordan kan man påvirke standartfejlen?
Øg Stikprøveantal, Formindsk Standartafvigelse (Svært)
26
Hvorfor ikke bare lave så store stikprøver som muligt?
Selvom større stikprøver reducerer standardfejlen og giver mere præcise estimater, er det ikke altid praktisk eller nødvendigt at øge stikprøvestørrelsen ubegrænset. Effekten af en større stikprøve aftager, hvilket betyder, at en fordobling fra 100 til 200 har en markant større effekt på præcisionen end en forøgelse fra 1000 til 1100.
27