vprašanja od sošolcu Flashcards

(22 cards)

1
Q

Kako interpretiramo umetne spremenljivke (dummy variables) v multipli linearni regresiji in kako izberemo referenčno kategorijo?

A
  • Umetne spremenljivke (t. i. dummy variables) uporabimo za vključitev nominalnih spremenljivk v multipli linearni regresijski model. Če ima nominalna spremenljivka k kategorij, ustvarimo (k – 1) umetnih spremenljivk, ena kategorija pa ostane kot referenčna in je ne vključimo v regresijsko enačbo.
    • Referenčno kategorijo običajno izberemo kot: najpogostejšo, nevtralno, ali teoretsko zanimivo skupino. Koeficienti umetnih spremenljivk prikazujejo, za koliko se spremeni povprečna vrednost odvisne spremenljivke v primerjavi z referenčno kategorijo, ob nespremenjenosti vseh ostalih spremenljivk.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Kdaj lahko trdimo, da je homoskedastičnost izpolnjena?

A

Homoskedastičnost je izpolnjena, ko imajo členi napake oz. reziduali konstantno varianco, ki je neodvisna od neodvisnih spremenljivk. To pomeni, da je varianca rezidualov povsod na območju delovanja regresijskega modela približno enaka.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Kaj je regresijska analiza in kateri sta njeni vlogi/namena?

A

Regresijska analiza je statistična metoda, ki nam pomaga analizirati odnos med odvisno spremenljivko in eno ali več neodvisnimi spremenljivkami. Pri tem ima dvojno vlogo:
-Pojasnjevalno: opišemo, kako neodvisne spremenljivke vplivajo na odvisno.
-Napovedovalno: na podlagi vrednosti neodvisnih spremenljivk napovemo vrednosti odvisne spremenljivke.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Kaj pomeni, da je rezultat ANOVA testa statistično značilen, in zakaj je bila v tvojem primeru upravičena uporaba Post Hoc analize?

A

Če je ANOVA statistično značilna, to pomeni, da se vsaj dve skupini med seboj pomembno razlikujeta v povprečju. Ker ANOVA ne pove, katere skupine se razlikujejo, uporabimo Post Hoc analizo, da natančno ugotovimo, med katerimi pari skupin so razlike. Post Hoc analiza je torej smiselna le, če ANOVA pokaže statistično značilne razlike.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Kaj pomeni koeficient determinacije R² in kako ocenimo kakovost modela?

A

Koeficient determinacije R² nam pove, kolikšen delež variance odvisne spremenljivke lahko pojasnimo z regresijskim modelom, torej z vključenimi neodvisnimi spremenljivkami.
-R² je vrednost med 0 in 1 (oz. med 0 % in 100 %).
-Višja kot je vrednost R², bolje model pojasni variabilnost v podatkih.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Kaj je ANOVA in za kaj jo uporabljamo?

A

ANOVA je statistični test, s katerim primerjamo povprečja med tremi ali več skupinami. Uporabimo jo, ko želimo ugotoviti, ali obstajajo statistično značilne razlike med skupinami glede na neko odvisno spremenljivko. Na primer, če želimo preveriti, ali imajo različne skupine učencev različen povprečen rezultat na testu.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Kateri pogoji morajo biti izpolnjeni, da multikolinearnost ne predstavlja težave v regresijskem modelu?

A

-Indeks pogojnosti manjši od 30.
-Vse tolerance so večje od 0,1.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Kdaj je v multipli regresijski model smiselno dodajati neodvisne spremenljivke?

A
  • ko želimo povečati vrednost multiplega determinacijskega koeficienta (R²)
  • ko obstaja teoretična osnova, da neodvisne spremenljivke vplivajo na odvisno
  • kljub temu poskušamo ohraniti čim bolj enostaven, saj nam manjše število spremenljivk omogoča bolj jasno pojasnitev
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Kaj nam pove parcialni regresijski koeficient?

A

Parcialni regresijski koeficient bk , za k = 1, . . . , m predstavlja pričakovano spremembo vrednosti odvisne spremenljivke, če se Xk spremeni za vrednost 1, vse ostale spremenljivke pa ostanejo nespremenjene („čisti“, „suhi“ vpliv neodvisne spremenljivke Xk na odvisno spremenljivko).

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

kaj je osnovni namen regresijske analize?

A

ugotoviti, kako neodvisne spremenljivke vplivajo na odvisno spremenljivko ter napovedati njeno vrednost.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Kaj pomeni statistično značilna razlika med skupinami v kontekstu ANOVE in kako jo prepoznamo v rezultatih?

A

Statistično značilna razlika med skupinami v kontekstu ANOVE pomeni, da obstaja dovolj močan dokaz, da povprečne vrednosti vsaj ene skupine statistično odstopajo od drugih - razlike med njimi niso zgolj posledica naključja. V rezultatih ANOVA to prepoznamo s pomočjo p-vrednosti za F-test. Če je p-vrednost manjša od 0,05, zavrnemo ničelno hipotezo, ki pravi, da med skupinami ni razlik. To pomeni, da obstaja statistično značilna razlika med vsaj dvema skupinama.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Kaj pomeni, da ima ena izmed neodvisnih spremenljivk statistično značilen vpliv na odvisno spremenljivko v regresijskem modelu?

A

Če ima ena izmed neodvisnih spremenljivk statistično značilen vpliv na odvisno spremenljivko, to pomeni, da obstaja velika verjetnost, da ta spremenljivka dejansko vpliva na odvisno spremenljivko tudi v populaciji, ne samo v vzorcu.
To preverimo s p-vrednostjo – če je p manjša od 0,05, pravimo, da je vpliv statistično značilen. V tem primeru zavrnemo ničelno hipotezo (da vpliva ni) in sklepamo, da je vpliv spremenljivke pomemben za razlago odvisne spremenljivke.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Kaj je osnovna predpostavka linearne regresije glede rezidualov?

A

Osnovna predpostavka je, da so reziduali (napake) normalno porazdeljeni, neodvisni in imajo konstantno varianco (homoskedastičnost).

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Kako vemo katera izmed neodvisnih spremenljivk ima večji vpliv na odvisno spremenljivko?

A

Pogledamo tabelo Coefficients, stolpec standardized coefficients beta (gledamo le absolutno vrednost).

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Kako smo lahko prepričani, da v mojem regresijskem modelu ni problema multikolinearnosti, in kateri statistični kazalniki to potrjujejo?

A

Toleranca kaže, kolikšen delež variabilnosti posamezne neodvisne spremenljivke ni pojasnjen z ostalimi neodvisnimi spremenljivkami. Če je toleranca manjša od 0,1, to kaže na resno težavo z multikolinearnostjo.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Kako izvedemo analizo variance v SPSS-ju?

A

Izvedemo analizo, s katero preverimo predpostavke ANOVE, predpostavko o normalnosti porazdelitve.
Procedura Analysis– Descriptive Statistics– Explore
Izvedemo ANOVO, ki vključuje test značilnosti za razlike aritmetičnih sredin.
Procedura Analysis – Compare Means – One-Way Anova
Izvedemo post-hoc teste za pare skupin (če se izkaže, da je vsaj ena od skupin drugačna od ostalih).

17
Q

Kdaj po izvedbi ANOVA uporabimo Post Hoc test in zakaj je potreben?

A

Post Hoc test uporabimo, če ANOVA pokaže, da obstajajo statistično značilne razlike med skupinami (p < 0,05). ANOVA namreč pove, da razlike obstajajo, ne pove pa med katerimi skupinami. Zato Post Hoc test primerja vse pare skupin in pokaže, kje so razlike.
Če ANOVA ni značilna (p > 0,05), Post Hoc testa ne potrebujemo, ker ni dokazov, da bi se skupine razlikovale.

18
Q

Kakšna je razlika med standardiziranim in nestandardiziranim regresijskim koeficientom in zakaj uporabljamo standardizirane koeficiente?

A

Standardizirani regresijski koeficient (Beta) nam pokaže, kateri vpliv je relativno močnejši, ne glede na merske enote. Medtem ko nam nestandardizirani regresijski koeficient (b) pokaže, koliko se spremeni odvisna spremenljivka, če se neodvisna poveča za eno enoto (pri čemer ostanejo ostale neodvisne spremenljivke nespremenjene).
b= konkretna sprememba v merskih enotah (točke, leta, stopnje strinjanja, itd.)
Beta= relativna moč vpliva, brez merskih enot
Standardizirane koeficiente uporabljamo predvsem zato, da lažje primerjamo vpliv različnih neodvisnih spremenljivk v modelu, saj so izraženi v enakih standardnih enotah (odklonih od povprečja).

19
Q

Kaj je test ANOVA, kaj nam poda, kako ugotovimo, ali je primer statistično značilen, in kako ta test izvedemo v programu SPSS?

A

ANOVA je komparativni test, s katerim preverimo, ali obstajajo statistično značilne razlike med skupinami. Najpogosteje jo uporabimo, kadar želimo primerjat povprečja odvisne spremenljivke glede na več skupin neke neodvisne spremenljivke. V SPSS test izvedemo tako, da gremo na Analyze > Compare Means > One-Way ANOVA, kjer nastavimo odvisno spremenljivko in skupinsko spremenljivko. Glavni rezultat je p-vrednost – če je manjša od 0.05, to pomeni, da zavrnemo ničelno hipotezo, ki pravi, da med skupinami ni razlik, in s tem sprejmemo alternativno hipotezo, da razlike obstajajo. To pomeni, da je rezultat statistično značilen.

20
Q

Zakaj potrebujemo vrednost popravljenega kvadrata R in kaj to pomeni?

A

Prilagojeni R square nam pove, kako dobro regresijski model pojasni podatke ob upoštevanju števila spremenljivk, in preprečuje precenjevanje modela zaradi nepotrebnih spremenljivk.

21
Q

Zakaj v regresijsko enačbo ne vključimo vseh kategorij nominalne spremenljivke, ko ustvarimo umetne (dummy) spremenljivke?

A

Vse kategorije ne vključimo, ker bi povzročili popolno multikolinearnost – umetne spremenljivke bi bile med seboj popolnoma linearno odvisne, kar onemogoči izračun regresijskega modela.
Zato eno kategorijo izpustimo (referenčna kategorija), ostale pa primerjamo nanjo. Koeficienti umetnih spremenljivk kažejo, za koliko se povprečje spremeni glede na to referenčno kategorijo.

22
Q

Kaj so vzroki za multikolinearnost?

A

Vkljuceni dve neodvisni spremenijivki, med katerima obstaja popolna ali mocna linearna povezanost.
V model vkljucenih vec neodvisnih spremenljivk, kot je enot (im. predeterminiran model).