Ord Flashcards

Ord

1
Q

Sfäricitet

A

Variansen för skillnaderna mellan de olika nivåerna ska vara lika (Mauchlys test: p ej signifikant (p > 0,05) -> sfäricitet råder-> samma korrelation mellan behandlingsnivåerna).

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Greenhouse-Geisser och Huynh-Feldt

A

Används vid repeated measures vid avsaknad av sfäricitet. Vi justerar frihetsgraderna med G-G och H-F för att kompensera för att sfäricitet-antagandet inte är uppfyllt. Om sfäricitet råder är dessa tal nära 1.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Box’s test

A

Testar för om kovariansmatriserna på de beroende variablerna är lika mellan grupper. Om signifikant: kovariansmatriserna är inte lika -> kovarianshomogenitet råder ej. Används vid t.ex. manova.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Levins test

A

testar för varianshomogenitet mellan grupper (två eller flera). (används vid t.ex homoskedasticitet

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Homoskedasticitet

A

det är ett antagande som görs vid regressionsanalys. Om variation i utfall är likartad vid olika nivåer på den oberoende variabeln föreligger detta. Konfidensintervall och signifikanstester påverkas om detta inte är fallet, dvs heteroskedasticitet.
Homoskedasticitet: Residualernas varians är oberoende av X (OV?). Det ger underdrivna standardfel (dvs. överdriven precision).
- Om n > 50 -> använd robusta standardfel.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Kommunalitet

A

Andelen gemensam varians i en variabel kallas kommunaliteten. ( 0 < kommunalitet < 1. -> 1 = all varians delad.)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Fixed effects modell

A

En utvecklad version av FD (first difference) som används för att eliminera effekter från variabler som ej är inkluderade i regressionen som är konstanta över tid. Till skillnad från FD inkluderar den även dummys för individer och tid

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Prais-Winsten Feasible Generated Least squares-modell

A

En regressionsmodell som används när vi har autokorrelerade observationer. Denna modell ger oss en regression som är viktad för graden av autokorrelation.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Rotationer

A

Används i faktoranalys för att maximera variablers laddning i en faktor och minimera laddningen i andra. Varimax (ortogonal rotation) roterar variablerna utan att tillåta att de korrelerar med varandra. Detta särskiljer sig från Oblique rotation som tillåter att faktorerna korrelerar med varandra. Valet av dessa två rotationsmetoder är beroende av vad det är för data som analyseras.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Data-splitting

A

Det är en metod som används för att validera modellen. Genom detta testas om den representerar hela populationen. Det genomförs genom att dela observerad data i två grupper och därefter köra regression på båda två för att se om resultatet är lika. Särskilt viktigt när step-wise metoder används i input av variabler.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Random walk

A

En random walk är en tidsserie med autokorrelation nära 1 (rho ≈ 1) och utan trend. Ett vanligt exempel på random walk är en aktiekurs. För en random walk är dagens värde en god (den bästa) prediktionen på morgondagens värde, men varken dagens värde eller förändringen från igår till idag är en god prediktion för förändringen till imorgon.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Klustrade standardfel:

A

Man vill klustra sina standardfel på gruppnivå när man vill analysera en variabel som varierar på gruppnivå och har tillgång till data på individnivå, eftersom att om du skulle köra en regression utan klustring skulle du underskatta standardfelets storlek. Anledningen till detta är att du inte har lika mycket oberoende variation som antyds av storleken på ditt urval.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Linjär sannolikhetsmodell

A

Det är en OLS (ordinary least squares) för fallet då vi har en svarsvariabel med kategorier. Med denna modell kommer inte faktiska observationer försöka ”träffas”, utan medelvärdet av y givet x (alltså sannolikheten för y =1 givet x).

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Autokorrelation

A

Korrelationen som en tidsserie har med sig själv. Mäts vanligast som rho = corr (xt, xt-1), alltså korrelationen mellan variabeln och variabeln laggad ett steg.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Multikollinearitet

A

När två eller flera av de oberoende variablerna korrelerar starkt med varandra. Om detta sker är det svårare att få pålitliga värden på koefficienterna och standardfelen ökar. Detta tillför inte heller så mycket i förklaringsgrad, då variablerna står för samma variation.
- Problem vid multipel regression: Det blir svårt att veta vilken bakgrundsvariabel som är viktig för utfallet. Dessutom får man opålitliga koefficienter (med höga standardavvikelser). Därför är det viktigt att innan testet ha starka hypoteser.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Autokorrelerade residualer

A

Om residualer är korrelerade med varandra är de inte oberoende. Detta påverkar konfidensintervall och signifikanstester. Detta kallas autokorrelation och kan testas för genom Durbin Watson test.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
17
Q

Winsorize

A

Att man ersätter en outlier med det högsta värdet som inte är en outlier.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
18
Q

Multinominal logistisk regression

A

En modell där responsvariabeln kan anta flera kategoriska värden, mer än två.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
19
Q

Varför differentiera

A

Vid en random walk är autokorrelationen ≈ 1, vilket innebär att det är svårt att skapa realistiska modeller över datan. Rho(xt, xt-1) = 1 <=> rho (∆xt, ∆xt-1) = 0 => autokorrelationen för förändringarna blir ≈ 0, vilket vi kan utnyttja genom differientering

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
20
Q

Varför inte differentiera

A

När vi differentierar förutsätter vi att det finns en omedelbar respons dvs ∆x => ∆y. Om inte detta är fallet riskerar vi att göra felaktiga skattningar.

21
Q

Interaktionseffekt

A

Finns en interaktionseffekt om signifikant p-värde. Tolkas som att blacks har i genomsnitt 0,40 $ mindre utdelning på timlön för varje genomfört skolår än white.

22
Q

Polynomregressions syfte

A

Polynomregressioner är användbara när vi har icke-linjära mönster i datan. Genom en polynomregression kan vi därmed skatta icke-linjära samband (som linjära regressioner inte kan. [rita graf med linjär linje och polynomr.linje].

23
Q

Tvåvägs Oberoende Anova

Krav:

A
  • Två oberoende variabler (3 OV -> trevägs..)
  • Olika deltagare i alla celler
  • Flera oberoende variabler kallas faktoriell design/faktordesign
    o Fördelen:
     Vi kan kolla hur variabler interagerar
     Interaktioner/ samspel (visar hur effekten av en OV kan bero på effekten hos en annan, oftast mer intressant än huvudeffekter)
     Exempel (Hur påverkar samspelet mellan balfylla och föreläsningsämne benägenheten att sova under föreläsningar?)
     Exempel: alkohol och val av partner (OV1 alkohol: 0 pints, 2 pints 4 pints. OV2, kön: man, kvinna). Post hoc.
24
Q

tvåvägs oberoende - Interaktionseffekter

A

Visar hur effekten av en OV kan bero på effekten hos en annan. Skillnader mellan gruppernas

25
Q

tvåvägs oberoende - Huvudeffekter

A

Om test between subjects är signifikant har vi huvudeffekter/interaktionseffekt.

26
Q

tvåvägs oberoende - Kontraster

A

t.ex. OV1 (alkohol): hur förhåller sig 2 och 4 pints mot 0 pints?

27
Q

Post hoc-tester

A

Test för att se mellan vilka gruper resultaten skiljer sig åt. t.ex. OV1 (alkohol): hur förhlåler sig nivåerna sinsemellan. Tvåvägs ANOVA. Kollar huvudeffekter och interaktionseffekter. Om signifikant. Det finns signifikanta skillnader mellan grupperna.

28
Q

Repeated Measures

A
  • Fördelar: Känslighet (slumpmässig varians reduceras. Mer känslig för de effekter vi verklgien är intresserade av), Ekonomi (färre deltagare behövs)
  • Exempel: Bushtucker-mat
  • Problem: Samma deltagare i alla nivåer (blir korrelation mellan de olika nivåerna. Strider mot oberoendeantagandet). Antagande om sfäricitet.
  • G-G/H-F/L-b * df för att korrigera för avsaknad av sfäricitet (Mauchleys test).
29
Q

repeated measures Post-hoc

A

Vi jämför alla medelvärden parvis mot varandra (inte samma som parvisa tester). (och typ1fel, bonferroni).

30
Q

repeated measures - Tvåvägs RM-Anova

A
  • Två oberoende variabler. Samma deltagare alla nivåkombinationer ( RM = samma deltagare, ”within-subjects”)
    o Exempel: Effekter av annonser på utvärdering av drycker. OV1 dryck (öl, vin, vatten). OV2 Bildframställning (positiv, negativ, neutral). BV Värderng av produkt -100 -> 100.
31
Q

Mixed ANOVA

A
  • Trevägs mixed ANOVA: 3 OV. En eller flera oberoende variabler anävnder samma deltagare. En eller flera oberoende variabler använder olika deltagare (a.k.a. Mixed plot design)
  • Exempel: Speed dating
     OV1: Utseende (Attraktiv, Alldaglig, ful)
     OV2: Personlighet (Charmig, vanlig, tråkig)
     OV3: Kön (Man, kvinna)
     BV: Värdering av framtida riktig date. (0-100%)
  • Sfäricitet, varianshomogenitet, kontraster.
32
Q

Manova

A
  • Används för att testa för skillnader mellan grupper när vi har fler svarsvariabler (BV). Bättre än multipel-ANOVA. (Kontrollera familywise error rate), beaktar hur BV förhåller sig till varandra.
  • Styrkan beror på korrelationer mellan BV.
  • Exempel: Hur bra fungerar psykoterapi på OCD?
    o Tre grupper: Kognitiv beteendeterapi, beteendeterapi, ingen behandling.
    o Två responsvariabler (BV): Handlingar, Tankar.
  • Diskriminantvariabler, Phillai-Bartlett Trace, Hotellings Trace, Wilks Lambda (styrka robusthet och lika stickprovsstorlekar). -> kan omvandlas till F-kvoter.
    o Antaganden: observationerna ska vara oberoende (multivariat. Data ska vara på intervallskala och insamlade med OSU. Data ska följa multivariat normalfördelning. Kovariansmatriserna för de olika grupperna ska vara lika.
  • Diskriminantanalys:
33
Q

Faktoranalys och PCA

A

För att testa för kluster av variabler eller mått. För att hitta samband mellan variabler och hur de påverkar en viss dimension. (T.ex. antal vänner och ”social skills” kanske alla påverkar förmågan att bli bra på statistik. Vi försöker reducera R-matrisen till en mindre mängd av okorrelerade dimensioner.

34
Q

Faktoranalys

A

Försöker skapa ordning genom att förklara maximal mängd gemensam varians i en korrelationsmatris med så få förklarande komponenter (faktorer) som möjligt.

35
Q

PCA

A

försöker förklara maximal mängd total varians i en korrelationsmatris. Detta genom att transformera de ursprungliga variablerna till okorrelerade linjära komponenter. PCA antar att all varians är delad (kommunalitet = 1).

36
Q

Koefficienterna kallas i både PCA och faktoranalys

A

laddningar.

37
Q
  • Beaktanden: Faktoranalys och PCA
A
o	0,3 < r < 0,8. Ska korrelera rätt bra, men vi ska undvika multikollinjäritet (och framförallt singularitet r = 1).
o	Determinant (indikator för multikollinjäritet), ska vara större än 0,00001
o	Kaiser-Meyer-Olkin (mäter om det är lämplingt att använda faktoranalys, ska vara > 0,5.
o	Bartlett’s test för sfäricitet: testar att R-matrisen inte är en identitetsmatris ska vara signifikant med p < 0,05
o	Anti-image-matris: Mått på om alla variabler ska vara med. Diagonalelement ska vara större än 0,5. Icke diagonalelement ska vara små
o	Reproduced: Korrelationsmatrisen efter rotation. De flesta residualerna ska vara < |0,05|
38
Q

Faktorextraktion:

A

aisers extraktion: Behåll alla faktorer med egenvärden > 1.
o Scree plot: använd inflektionspunktten för scree-plotten.
 Använd Kaiser när färre än 30 variabler och kommunaliteterna efter extraktion är > 0,7 samtstickprovsstorlek > 250 och medelkommunalitet >= 0,6.
 Screeplot bra om stickprovsstorlek > 200

39
Q

Faktorrotationer

A
  • hjälper tolkningen genom att maximera laddningen av en variabel på en faktor samtidigt som man minimerar variabelns laddning på övriga faktorer.
    o Ortogonal: faktorerna är okorrelerade
    o Oblique/indirekt. Faktorerna korrelerar
40
Q

Faktoranalys PCA - Tillförlitlighet:

A

o Test-testa igen: svarar en respondent likadant på två olika ställen?
o Gör om med annat formulär: dyrt och opraktiskt
o Split half: Dela enkäten i två delar och beräkna korrelationen för dessa.
o Cronbachs alfa: Delar enkäten i alla möjliga halvor, beräknar resultat, korrelerar dessa och tar ut medelvärden av korrelationerna. Ger värden mellan 0 och 1.
 Kline: tillförlitligt om > 0,7
 Beror på antal frågor: flera frågor ger större alfa
 Ordningen på svarsalternativen spelar roll (om man glömmer ”vända rätt” kan man få negativ alfa)

41
Q

Klustersampling

A

: Innebär at man delar in en population i ett antal uttömmande men ej överlappande delar (kluster), t.ex. kan man dela in Sveriges rektorkår i kommuner. Sedan väljer man ut ett antal kluster med hjälp av OSU (obundet slumpmässigt urval) för att sedan testa samtliga objekt inom de utvalda klustren. I rektorsexemplet skulle det innebära att vi väljer ut t.ex. 10 st kommuner slumpmässigt och intervjuar samtliga rektorer inom dessa kommuner (eller rättare sagt har vi ambitionen att intervjua samtliga).

42
Q

Stratifierad sampling

A
  • : Innebär att man delar in en population i ett antal uttömmande men ej överlappande delar (så kallade strata, sing: stratum). T.ex. kan man dela in Sveriges befolkning i inkomstkategorierna < 20 000, 20 000 – 40 000 och > 40 000. Från varje stratum väljs sedan ett antal objekt ut med OSU och en av två allokeingsmetoder (proportionerlig allokering eller optimal allokering).
    o Proportionerlig allokering: innebär att stratumurvalet är proportionell mot stratumstorleken och skulle kunna ses som den lättaste metoden.
    o Optimal allokering: tar hänsyn till om det är olika varians i strata, väljer då flera observationer från stratum med större varians.
43
Q

Faktoranalys PCA Uttömmande

A

Uttömmande innebär att delarna tillsammans utgör hela den uppdelade målpopulationen. Det vill säga att vi inte glömmer bort någon del av vår fördelning (alltså som ett ofärdigt pussel).

44
Q

Skillnader i metoder efter populationsdelning - Klustersampling

A

Vi delar upp målpopulationen i icke överlappande och tillsammans uttömmande delar (kluster). Sedan väljer vi ett antal kluster som ska undersökas mha. OSU och undersöker samtliga deltagare i dessa kluster

45
Q

Skillnader i metoder efter populationsdelning - Stratifierad sampling

A

o Vi delar in målpopulationen i icke överlappande och tillsammans uttömmande delar så kallade strata (sing: struatum), sedan väljer vi ut ett antal deltagare i varje stratum mha. OSU och en av allokeingsmetoderna (proportiornerlig eller optimal) som ska representera respektive stratum.

46
Q

Klustersampling

A

pop i uttömande men ej överlappande delar. ett antal genom OSU, testar hela klustret, tex rektorkårer i län

47
Q

stratifierad sampling

A

delar pop i uttömande men ej överlappande delar. från VARJE stratum väljs ett antal objekt genom OSU, en av två allokeringsmetoder, proportionell eller optimal allokering

48
Q

proportionell allokering optimal allokering skillnad

A

prop- stratumvalet är proportionellt mot stratumvalet. optimal tar hänsyn till om det är olika varians i strata