3 - Relationship between variables Flashcards
(12 cards)
Hvad beskriver kovarians (Covariance)?
Et mål for, hvordan to variable ændrer sig sammen. En positiv kovarians indikerer, at de har tendens til at stige/falde sammen; en negativ indikerer, at den ene har tendens til at stige, når den anden falder. Værdien er svær at tolke direkte (afhænger af variablenes skala).
Hvad beskriver korrelation (Correlation)?
Måler styrken og retningen af en lineær sammenhæng mellem to variable. Den er standardiseret (typisk mellem -1 og +1), hvilket gør den nemmere at tolke end kovarians.
Hvad er Pearsons korrelationskoefficient (r)?
Det mest almindelige mål for lineær korrelation. Værdier:
+1: Perfekt positiv lineær sammenhæng
-1: Perfekt negativ lineær sammenhæng
0: Ingen lineær sammenhæng. Værdier tæt på +1 eller -1 indikerer en stærk lineær sammenhæng.
Vigtig pointe om korrelation og årsag-virkning (causation)?
Korrelation indebærer IKKE kausalitet (årsag-virkning)! Selvom to variable er korrelerede, betyder det ikke nødvendigvis, at den ene forårsager ændringen i den anden. Der kan være en tredje, skjult variabel (lurking variable) eller sammenhængen kan være tilfældig.
Hvad bruges konfidensintervaller for korrelationskoefficienten til?
At estimere et interval, inden for hvilket den sande korrelationskoefficient i populationen sandsynligvis ligger, baseret på stikprøvens korrelationskoefficient.
Hvad er simpel lineær regression?
En statistisk metode til at modellere forholdet mellem én uafhængig variabel (forklarende variabel, X) og én afhængig variabel (responsvariabel, Y) ved at tilpasse en ret linje (Y = a + bX + ε) til dataene. Målet er ofte at forudsige Y ud fra X.
Hvad er regressionsfejl (Regression errors / Residuals)?
Forskellen mellem den observerede (målte) værdi af den afhængige variabel (Y) og den værdi, der forudsiges af regressionslinjen (Ŷ) for en given værdi af X. Fejl = Y - Ŷ.
Hvad er forklaringsgraden (Coefficient of Determination, R²)?
Den andel (proportion) af variationen i den afhængige variabel (Y), der kan forklares af variationen i den uafhængige variabel (X) via regressionsmodellen. R² ligger mellem 0 og 1 (eller 0% og 100%). En høj R² indikerer, at modellen passer godt til dataene.
Hvad bruges et “predicted vs. measured plot” (plot af forudsagte vs. målte værdier) til?
At vurdere regressionsmodellens kvalitet. Man plotter de observerede/målte Y-værdier mod de forudsagte Y-værdier (Ŷ). Hvis modellen er god, bør punkterne ligge tæt omkring en linje med hældning 1 (y=x-linjen). Bruges også til at tjekke antagelser (fx om fejlleddet).
Hvad menes med “sampling distribution of regression coefficients”?
Fordelingen af de estimerede regressionskoefficienter (fx hældningen ‘b’), som man ville få, hvis man udtog mange forskellige stikprøver fra den samme population og lavede en regression på hver. Denne fordeling bruges til at lave inferens (konfidensintervaller og hypotesetest) om de sande populationskoefficienter.
Hvad bruges konfidensintervaller og hypotesetest for regressionskoefficienter til?
Konfidensintervaller: At estimere et interval for den sande værdi af en populationsregressionskoefficient (fx den sande hældning).
Hypotesetest: At teste specifikke hypoteser om koefficienterne (fx om hældningen er signifikant forskellig fra nul, H₀: β = 0, hvilket ville indikere, at der er en lineær sammenhæng).
Hvad er multipel lineær regression?
En udvidelse af simpel lineær regression, hvor man bruger to eller flere uafhængige variable (X₁, X₂, …, Xₚ) til at modellere og forudsige én afhængig variabel (Y). Modellen er: Y = a + b₁X₁ + b₂X₂ + … + bₚXₚ + ε.