Statistik Flashcards

(110 cards)

1
Q

beskriv snabbt vilka tre huvudsakliga typer av forskningsstudier man kan göra, samt hur dessa förhåller sig till kontroll av OV och randomisering

A

Experiment: Kontroll OV (JA), Randomisering (JA)
Kvasi-experiment: Kontroll av OV (JA), Randomisering (NEJ)
Icke-experiment: Kontroll av OV (NEJ), Randomisering (NEJ).

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

vad handlar intern validitet om?

A

var det BV som stod för effekten i OB eller kan det finnas några andra bakomliggande variabler?

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

vad finns det för två problem med den interna validiteten som vi kan tänka oss vid icke-experiment (såsom korrelationsstudier)

A
  • Riktningsproblemet
    -Bakomliggande-variabel problemet.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

hur kan man dela upp variabler?

A

kvalitativ: “ord”
Kvantitativ: “nummer”

kvantitativ diskret: antar bara vissa värden
kvantitativ kontinuerlig: kan anta alla värden.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

vad säger mätinstrumentets reliabiltet?

A

hur pålitligt instrumentet är för att mäta det som det avser att mäta. hur litet det påverkas av slumpmässiga fel.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

vad säger mätinstrumentets validitet?

A

huruvida instrumentet verkligen mäter det som det ska mäta. dess giltighet.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

varför är det viktigt i ett stolpdiagram att y-axeln börjar på noll

A

för att kunna återge staplarnas egentliga areor, och undvika att grafiskt redovisa väldigt små skillnader som större än de egentligen är.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

vad är relativ frekvens?

A

iantal förekomster av något variabelvärde dividerat med det totala antalet.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

vad är kumulerad frekvens (F)

A

innebär att frekvenserna adderas kumulativt nedåt (eller uppåt) i frekvenstabellen.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

varför är det bra att rita stapeldiagram respektive histogram över sina variabler?

A

för att se fördelningsformen (frekvensfördelningen) samt att hitta extremvärden (outliars).

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

vad innebär det att summera kumulativt?

A

att summera nedåt (eller ibland uppåt) i en kolumn.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

vilka centralmått finns det? beskriv dem?

A

typvärde: det mätvärde med högst frekvens

median: mittersta värdet om variablerna rankas i storleksordning.

medelvärdet: summan av observationerna delad med antal observationer.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

vad kallas en fördelning med två toppar (alltså när man har TVÅ typvärden)?

A

en bimodal fördelning

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

vad är ett särskilt lämpligt centralmått för snedfördelade variabler?

A

median. men ett problem med median, såsom med typvärde, är att den kan variera mycket från stickprov till stickprov vilken kan bli problematiskt om vi vill generalisera våra resultat till en större population.

medianen i ett stickprov är alltså inte något effektivt estimat av medianen i motsvarande population (parameter)

detta kan dock lösas med att ha ett väldigt stort stickprov. i riktigt stora stickprov har förstås inte slumpen någon möjlighet att slå så väldigt olika inte ens på medianen.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

vilka två tecken används för att
1. beskriva medelvärdet i stickprovet (estimat)
2. beskriva medelvärdet i populationen (parameter)

A
  1. x bar
  2. μ (my)
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

vad innebär tecknet Σ och hur ska det utlösas?

A

Σ = summan
innebär att vi ska summera det som står till höger om tecknet.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
17
Q

vad innebär tecknet n?

A

n = antalet observationer.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
18
Q

vad är en kvadratsumma?

A

kvadratsumma = en summa av kvadrerade avvikelser från ett medelvärde.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
19
Q

vad blir alltid summan av alla avvikelser från det aritmetiska medelvärdet?

A

noll.

summan av alla avvikelser från det aritmetiska medelvärdet blir alltid noll.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
20
Q

nämn egenskaper hos det aritmetiska medelvärdet som har gjort att det använts mycket oftare än andra centralmått som typvärde och median.

A
  1. medelvärdet i ett stickprov är ett effektivt estimat av motsvarande parameter

(pga, slumpmässiga skillnader jämnar ut sig och blir mycket små).

  1. medelvärdet är ett väntevärdesriktigt estimat av parametern.

(slumpen gör att skillnader jämnar ut sig). inget säger att vi alltid skulle råka få lite för små eller stora resultat, så de bör jämna ut sig vid flera stickprov. gör man oändligt många nya stickprov och tar medelvärde på dom, bör det gemensama medelvärdet för alla stickprov att komma väldigt nära det sanna populationsmedelvärdet.

uttrycks som:

E= expected value

E = (x̄) = μ

alltså: det förväntade genomsnittliga värdet av stickprovsmedelvärdet är lika med populationsmedelvärdet.

  1. medelvärdet går att beräkna algebraiskt, vilket för det lättare att använda då man ej behöver redogöra för sin procedur och det blir behändigt och lätt att bygga vidare på.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
21
Q

vad gäller median, typvärde och medelvärde om vi har en perfekt normalfördelning?

A

de kommer alla att hamna på exakt samma plats precis i mitten.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
22
Q

vad gäller median, typvärde och medelvärde om vi har en positiv sned fördelning?

A

centralmåtten kommer att placera sig från vänster till höger i ordningen:

typvärde, median, medelvärde

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
23
Q

hur ser man grafiskt ifall man har en positiv eller negativt sned fördelning?

A

positiv: värdena samlas i vänster hörn.
negativ: värdena samlas i höger hörn.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
24
Q

vad gäller median, typvärde och medelvärde om vi har en negativ sned fördelning?

A

centralmåtten kommer att placera sig från vänster till höger i ordningen:

medelvärde, median, typvärde.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
25
när är det geometriska medelvärdet användbart? hur räknar man ut det geometriska medelvärdet? hur förhåller det sig till det aritmetiska medelvärdet?
när data är kraftigt positivt snedfördelade. det beräknas som n:te roten ur produkten av n tal. (pga att vi räknar multiplikation kan vi inte ha några tal som är noll (då blir ju allt noll) eller några negativa tal (då kan allt bli minus). det geometriska medelvärdet är mindre än det aritmetiska medelvärdet, förutom när alla tal är lika stora. då blir de två olika medelvärdena också lika stora.
26
vad används det harmoniska medelvärdet till?
används om man har olika stickprovsstorlekar för att beräkna den genomsnittliga storleken på stickproven.
27
hur kan medianen uttryckas i percentiler?
medianen är den femtionde percentilen
28
vad finns det för olika spridningsmått?
1. variationsbredd 2. kvartilavvikelse 3. standardavvikelse 4. varians
29
vad avgör vilket spridningsmått man väljer att använda sig av?
de olika spridningsmåtten kan kopplas samman med de olika centralmåtten. vilket spridningsmått man väljer hänger också samman med skalnivå och hur fördelningsformen ser ut. 1. centralmått 2. skalnivå 3. fördelningsform.
30
hur räknas kvartilavstånd ut?
Q3 - Q1
31
vilket spridningsmått kan kopplas till vilket centralmått?
median: kvartilavstånd + kvartilavvikelse aritmetiskt medelvärde: varians och standardavvikelse
32
på samma sätt som μ är parametern för estimatet x̄, så är σ (sigma) parametern för estimatet........
s = standardavvikelsen
33
vad är skillnaden på standardavvikelse och z-värde?
enkelt: standardavvikelse, gruppen z-värde: individuell observation standardavvikelse är ett mått på spridningen i hela datasetet. medan z-värde mäter en enskild observation i förhållande till datasetets medelvärde och sprdning. standardavvikelsen är ett absolut mått på variation, medan z-värdet är ett relativt mått som uttrycker hur många standardavvikelser en observation skiljer sig från medelvärdet.
34
är stickprovsvariansen ett väntevärdesriktigt estimat?
ja. E(s^2) = σ^2 alltså: det förväntade (genomsnittliga) värdet av stickprovsvariansen är lika med populationsvariansen.
35
hur brukar standardavvikelsen presenteras grafiskt?
i ett stapeldiagram som ett T som går ut från stapelns tak, i ett punktdiagram som ett T och vardera sida om punkten T 0 T (åt andra hållet) I----o-----I
36
vad är antalet frihetsgrader?
antalet frihetsgrader är det totala antalet observationer som är fria att variera när ett statistiskt mått beräknas. har vi ett medelvärde av 3 observationer så är endast 2 av dessa observationer helt obunda då efter 2 observationer så måste den sista observationen vara på ett visst sätt för att medelvärdesberäkningen ska gå ihop. endast två observationer har alltså frihet att variera, det vill säga (n-1) stycken. antalet frihetsgrader är de antal värden som återstår när man subtraherat antal restriktioner från det totala antalet värden. en restriktion eller begränsning orsakas av ett som mått redan beräknats från värdena.
37
vad är variationskoeffectienten, när används den?
används för att jämföra spridningen mellan olika grupper eller variabler. utgörs av kvoten mellan standardavvikelsen och medelvärdet v = variationskoeffecienten v = s/x variationskoeffectienten kallas också den relativa spridningen och anges därför ofta i procent.
38
vad är z-poäng?
på samma sätt som vi kan översätta dollar och pund till sek för att jämnföra dom, så kan vi jämföra värden på olika skalor genom att översätta dem till z-poäng. z-poängen kan sägas vara en universell norm som man i synnerhet kan använda på sådant som är eller tros vara normalfördelat.
39
ge en exakt definition av vad ett z-poäng för ett mätvärde säger oss?
z-värdet säger hur långt ifrån medelvärdet observationen befinner sig, räknat i standardavvikelser. per: introversion: zx = 1 neuroticism: zy = 2 per är alltså mer neurotisk än vad han är introvert.
40
vad händer med fördelningen av talen när man z-transformerar dom?
den nya fördelningen får medelvärdet 0 och standardavvikelsen 1 (men det är inte "nya tal" utan de förhåller sig fortfarande lika till varandra. man har bara översatt alla tal till z-poäng, såsom att översätta kilometer till miles).
41
nämn några variabler som är approximeras vara normalfördelade
längd, vikt, intelligens och mätfel (!)
42
vad innebär att en normalfördelning är asymptotisk
den teoretiska normalfördelningen fortsätter oändligt långt ut åt båda sidor utan att någonsin möta x-axeln (0).
43
vad är ett vanligt sätt att ange att en fördelning är normalfördelad?
N(μ, σ)
44
hur många procent av observationerna i en normalfördelning finner man mellan medelvärdet och en standardavvikelse från medelvärdet?
34.13% -1 medelvärdet +1 alltså ungefär 70% av observationerna befinner sig en standardavvikelse bort från medelvärdet.
45
i en normalfördelning så kan man hitta 2.28% av alla observationer i området som är 2 standardavvikelser från medelvärdet. hur skulle man kunna uttrycka detta i z-poäng?
när observationerna transformerats kommer endast 2.28% av dem vara större än 2. medelvärdet har z-poäng 2.
46
z-poäng kan användas som en slags universell norm endast om....
materialet är eller tros vara normalfördelat.
47
vilket z-värde avgränsar 95% av observationerna i en normalfördelning?
z = +-1.96
48
ibland pratar man om OV och BV i korrelationsstudier, trots att de inte är experiment. Hur kan man avgöra vilken som är den OV och BV i dessa fall?
vilken som föregår vilken i tiden. OV föregår BV jag åt tre portioner innan (OV) jag är så otroligt mätt (BV)
49
vad är ett enkelriktat samband?
X kan påverka Y, men Y kan inte påverka X.
50
vad är något man måste akta sig för när man studerar samband?
skensamband (tredje variabler)
51
vilka värden kan pearsons korrelationskoeffecient (r) anta, vilka av dessa är perfekta samband?
värden på r kan ligga mellan -1 och 1 där -1 och 1 är perfekta samband (negativa eller positiva). Ett r på 0 innebär därför att det inte finns något samband och ingen korrelation. ska EJ förvirras med linjens lutning/k-värde i y=kx+m
52
vad menar vi med "sambandets styrka", vad säger sambandets styrka oss?
hur väl man kan förutsäga värden på beroende variabeln med hjälp av den oberoende.
53
vad är ett problem med pearsons korrelation (r)
kan enbart mäta grad av linjär samvariation. alltså kan enbart mäta linjära samband. Men alla samband är dock inte linjära. Yerkes-Dodsons lag demonstrerar exempelvis att det råder ett uppochnedvänt U-samband mellan arousal och prestation. Alltså om du ska skriva en tenta är det bra att du har lite arousal, men inte för mycket. Du skriver dåligt och du har hög arousal och dåligt om du har låg arousal. Skriver du in detta i en scatterplot kommer du att få en U (upp och ned) formad graf. Om man då använde pearsons r på detta dataset skulle vi få fram att det inte finns något samband alls mellan arousal och prestation på tentan, vilket det ändå kan tänkas finnas.
54
skriv pearsons r formeln
​r = Σ ZxZy / n-1 ​
55
vilka antagande förutsätts vara uppfyllda då pearsons r beräknas och signifikanstestas. med andra ord, när kan man INTE använda pearsons r och signifikanttesta sitt resultat för att få ett humm om korrelationen mellan två variabler?
för att använda pearsons r måste vi ha en bivariat normalfördelning
56
vilka krav finns för att vi ska ha en bivariat normalfördelning?
1. X och Y är variabler som är hämtade från en bivariat normalfördelning 2. för varje värde på X är motsvarande Y värden normalfördelade och vice-versa. 3.varianserna i Y är desamma för alla X-värden (och vice versa)
57
i teorin måste vi ha en bivariat normalfördelning, men hur ligger det till i praktiken? vad gäller om man kollar på sina data och ser att man inte har en perfekt bivariat normalfördelning? ska man kasta hela studien åt helvette då?
De existerar inga perfekta bivariata normalfördelningar i sinnevärlden. Det är alltså normalt att avvikelsen från den perfekta bivariata normalfördelningen är ganska stora. inom rimliga gränser kan man lita på sin korrelationskoeffecient förutsatt att den är signifikant. Men ju mindre stickprovet är, och desto större avvikelserna från en perfekt bivariat normalfördelning är, desto mer riskabelt blir det att använda pearsons r och man bör överväga att använda en annan metod (exempelvis: spearmans rangkorrelationskoefficient)
58
är pearsons r ett väntevärdesriktigt estimat av ρ?
nej faktiskt inte. korrelationen i stickprovet (estimatet) ger, särskilt vid små stickprov, en liten överskattning av hur stor korrelationen i populationen är. man kan dock åtgärda detta genom att beräkna "den korrigerade korrelationskoefficienten". i de flesta forskningssammanhang så brukar man dock inte bry sig om detta, och brukar istället nöja sig med att enbart beräkna r, trots att det kan verka motsägelsefullt då man är väldigt noggrann i andra sammanhang gällande väntevärdesriktighet.
59
små korrelationer kan vara signifikanta ifall....
de är beräknade utifrån mycket stora stickprov
60
mycket stora korrelationer behöver inte vara signifikanta ifall....
de är beräknade utifrån väldigt små stickprov.
61
hur vet vi om vår korrelation är stark? vad beror det på om en korrelation är stor eller liten?
- vad som är stor eller liten korrelation beror på vad man kan förvänta sig. - har man inga speciella förväntningar kan man använda sig av Cohens riktlinjer; r 0.10 = svagt samband r 0.30 = medelstarkt samband r 0.5 = starkt samband men cohen menade också att vad som kan ses som en stark eller svag korrelation beror på storleken på stickprovet
62
vad är determinationskoeffecienten, nämn ett problem med denna metod.
enligt boken så är egentligen pearsons r missvisande när det gäller att beskriva hur starkt eller svagt ett visst samband är. man kan använda determinationskoeffecienten (r^2) istället. denna koeffecient ger oss andel förklarad varians. man kvaderar sitt pearsons r exempelvis r = 0.70 ----> d= 0.49 alltså 49%. alltså förklaras variansen. 100% förklarad varians är då ett perfekt samband. problem: pga att man kvadrerar så kan små korrelationskoeffecienter bli mindre än vad de är.
63
kan en korrelation vara betydelsefull, även om graden av förklarad varians är låg?
ja, även om andelen förklarad varians är mycket liten så kan korrelationen ha stora praktiska betydelser. exempelvis: i medicinska sammanhang kan små effekter ha stora praktiska effekter.
64
det finns flera olika korrelationskoeffecienter, skiljer sig dessa mycket från pearsons, och varför väljer man en annan koeffecient?
de skiljer sig inte alls mycket från pearson. anledningen till att man väljer andra benämningar (på vad som i princip är samma korrelationskoeffecient) är för att man vill säga något om vilken skalnivå av data man är på ex. spearmans rangordningskoeffecient för data som är på ordinalskala.
65
vad är spearmans rangordningskoefficient
betäcknas: r,s för att korrelationen ska få kallas för spearmans rangordningskorrelation istället för pearsons r så krävs det att båda variablerna har mätts på ordinalskalenivå. man kan transformera variabler till ordinalskalenivå om man vill använda r,s. exempelvis om vi har längderna 160 175 180 180 190 kan vi ge dessa värdena: 160: 1 175: 2 180: 3.5 180: 3.5 190: 5 vid samma längd får båda deltagarna medelvärdet av de observationer som omger dem. alltså 2+5/2=3.5
66
vad innebär "restriction of range"?
att vi behöver variation för att kunna upptäcka samvariation
67
vad är ett dubbelriktat samband? visa grafiskt
x <---------->y
68
vad är ett samband med mellanliggande variabel (M), visa grafiskt
x -----------> (M) ---------> y (interaktionseffekt?)
69
när är spearmans rangkorrelatonskoeffecient lämplig?
data på ordinalnivå lämplig att använda om man vill mäta korrelation mellan snedfördelade variabler, speciellt om stickprovet är litet.
70
vilka två hypoteser ställer man upp i inferentiell statistik för att kunna avgöra ifall det man observerat i stickprovet också gäller för populationen, eller om det är mera troligt att stickprovsresultatet beror på slumpen
nollhypotes och alternativ hypotes h0: det finns ingen skillnad mellan kvinnor och män h1: det finns en skillnad mellan kvinnor och män man brukar föredra oriktade hypoteser, dvs att man säger att man tror att det (finns) ett samband, men inte i vilken riktning det går.
71
inom hypotesprövning, vilken hypotes utgår vi från är sann?
i hypotesprövning utgår vi alltid ifrån att nollhypotesen är sann. visar det sig att vi får ett statistiskt signifikant resultat kan vi därför förkasta nollhypotesen. man har därmed fått stöd för alternativhypotesen.
72
varför måste vi gå "bakvägen" och utgå ifrån att vår nollhypotes är sann, varför kan vi inte bara testa vår alternativhypotes direkt?
det finns inte någon statistisk metod i världen som direkt kan visa på alternativhypotesens rimlighet, man måste därför alltid gå bakvägen genom att visa på nollhypotesens orimlighet. anledningen till detta är att nollhypotesen faktiskt säger att allt vi observerar bara är slumpens verk. och hur slumpen kan slå kan vi beräkna.
73
vad är en viktig bidragande orsak till att studier måste repikleras för att man verkligen ska kunna lita på slutsatserna av dom?
eftersom att vi har en alpha nivå på 0.5 så finns det därmed en risk på 5% att slumpen orsakat resultatet och ett nollhypotesen är sann. detta är dock osannolikt men inte omöjligt. men det är så pass ovanligt att vi har bestämt oss för att det är den nivå av slump-risk vi godtar. om man replikerar studier minskar ju denna risk.
74
samplingfördelningar sägs vara nyckeln till den inferentiella statistisken. men vad är då samplingfördelningar?
en samplingfördelning är en är en frekvensfördelning över någon stickprovsegenskap ex. medelvärde, varians, korrelationen mellan två variabler osv.
75
vad gäller för samplingfördelningar av medelvärden?
för sampling fördelningar av medelvärden så blir samplingfördelningen mer normalfördelad än populationen. detta följer den centrala gränsvärdessatsen
76
vad säger den centrala gränsvärdessatsen?
om vi beräknar medelvärdet av ett stort antal slumpmässigt fördelade tal, så kommer detta medelvärde att närma sig en normalfördelning, oavsett hur fördelningen för de enskilda talen ser ut.
77
medelvärdet i en sampling fördelning av medelvärden är samma......
sommedelvärdet i populationen
78
vad kallas standardavvikelsen i en samplingfördelning (alltså om du skulle ta medelvärdet av alla standardavvikelser?), och vad används detta till?
standardavvikelsen i en samplingfördelning kallas för standardfelet. standardfelet säger något om hur stor osäkerheten är för just det stickprovsvärde som vi har fått fram.
79
vad är ett typ 1 respektivet typ 2 fel?
typ 1 fel: vi får ett signifikant resultat av en slump och förkastar därmed felaktigt nollhypotesen. typ 2 fel: vi får ett icke-signifikant resultat av en slump och tvingas därmed behålla nollhypotesen (felaktigt)
80
är typ 1 eller typ 2 fel värst?
i allmänhet så är typ 1 fel värst.
81
hur kan man minimera risken för typ 1 fel?
risken för typ 1 fel har vi faktiskt total kontroll över, den risken ska vara lika med alfanivån som vi själva väljer. alfanivå 0.5 säger att det finns en 5% risk att vi begår ett typ 1 fel. man behöver känna sig säker på att denna risken faktiskt är 5% om man har valt alfanivå 0.5. och att risken för att man felaktigt kastar nollhypotesen inte är 6% eller 10%. det finns en risk och man underskattar risken vid vissa tillfällen. exempelvis så är det så att när vi ska signifikanstesta korrelation (r) så krävs det egentligen att stickprovet är hämtat från en perfekt bivariat normalfördelning. i praktiken brukar avvikelser från detta inte vara något större problem, men ibland, särskilt om man har ett litet stickrpov, så kan avvikelsen från den bivariata normalfördelningen vara så stor att man tappar kontrollen över alfanivån och får en större risk för typ 1 fel än vad man bestämt. Då får man beräkna spearmans rangkorrelationskoeffecient istället för att återfå kontrollen över alfanivån. så: för att undvika typ 1 fel så ska man, ifall man mäter korrelationer där det kan finnas avvikelser från den bivariata normalfördelningen (typ att vi har ett litet stickprov eller snedfördelade variabler som då inte kommer jämnas ut pga stickprovets lilla storlek) så bör vi använda oss av spearmans rangkorrelationskoefficient .
82
vad kallas sannolikheten för att vi begår ett typ 2 fel, alltså att vi inte lyckas få ett signifikant resultat, trots att nollhypotesen är falsk?
denna sannolikhet kallas för beta (β).
83
hur kan vi undvika att begå typ 2 fel? hur kan vi minska β?
I praktiken kan vi tyvärr aldrig veta exakt hur stor β är. men vi vet vilka saker som kan påverka β. man tänker sig att typ 2 fel orsakas av felvarians som "skymmer sikten" för den verkliga effekten". följande faktorer minskar β: 1. en högre alfanivå (ex. 10% istället för 5%) man minskar risken för typ 2 fel, men då ökar man dock risken för typ 1 fel, vilket ses som mer allvarligt så detta är en metod som inte rekommenderas. 2. fler undersökningsdeltagare: det enklaste sättet att minska typ 2 fel brukar vara att använda sig av flera undersökningsdeltagare. 3. större styrka på den oberoende variabeln: Ju större styrka eller variation på OV desto lättare bör det vara att få effekter på BV. "restriction of range-problemet". Utan ordentlig variation kan man inte heller förvänta sig någon samvariation. 4. mindre felvarians: genom reliabla mätinstrument och konstanthållning kan vi få bort felvarians som skymmer sikten för oss. medelfelet kommer då bli mindre eftersom att standardavvikelsen blir mindre. 5. beroende mätningar: Det mest kraftfulla metoden för att få bort en massa felvarians är genom att använda sig att beroende mätningar, genom att ha upprepade mätningar. ex. beroende t-test beroende ANOVA
84
vad är en samplingfördelning?
En samplingfördelning är en sannolikhetsfördelning för en statistika (t ex ett medelvärde), dvs fördelningen av värden på statistikan vid upprepad (oändligt många gånger/”alla möjliga stickprov”) stickprovsdragning (eller experiment) från en population.
85
vilka antaganden måste vara uppfyllda för att vi ska kunna använda oss av centrala gränsvärdessatsen?
draget slumpmässigt ur populationen variabeln har en ändlig standardavvikelse (nästan alltid sant) om detta stämmer så kommer fördelningen att närma sig en normalfördelning vid upprepade stickprov/mätningar. om vi tar ett oändligt antal stickprov kommer vi att få en normalfördelning. pga detta så kan vi sedan uttala oss om p-värdet, om observation hamnar i 95de percentilen = alfa nivå.
86
samling fördelning handlar om fördelningen.....
MELLAN stickprov inte inom det enskilda stickprovet sampling fördelning är inte något man gör praktiskt, utan en teoretisk grej som man tänker sig händer baserat på vissa saker som gäller för stickprovet. antalet observationer inom stickprovet (n=10 eller n=100) avgör hur nära fördelningen mellan dessa stickprov kommer att komma en perfekt normalfördelning.
87
vad är law of large numbers?
säger att bra estimat kommer tenderar att hamna närmare det sanna populationsvärdet desto större n är. det är alltså bra med enorma stickprov punkt slut.
88
normalfördelningen defineras av...
sitt medelvärde sin standardavvikelse
89
skillnaden mellan centrala gränsvärdessatsen och stora talens lag?
stora talens lag: större stickprov -----> stickprovsmedelvärderna kommer närmare de sanna populationsmedelvärdet centrala gränsvärdessatsen: större stickprov ----> de resterande variationen mellan stickproven som finns kvar kommer att följa en normalfördelning.
90
vad ger stora talens lag oss praktiskt?
Stora talens lag ger en garanti för att medelvärdet blir stabilt och närmar sig väntevärdet.
91
vad ger centrala gränsvärdessatsen oss praktiskt?
Centrala gränsvärdessatsen beskriver formen på fördelningen av medelvärdet, nämligen att den blir normalfördelad.
92
vad är kraven som måste uppfyllas för att man ska kunna göra ett t-test
normalfördelning data på minst intervallnivå antaganden om oberoende variabler
93
vad är kraven som ska uppfyllas för att man ska använda z-test?
man jämnför stickprovs m med ett känt populationsmedelvärde och man har kunskap om populationens riktiga standardavvikelse
94
vad gör man om man vill använda z men har inte kunskap om populationens äkta standardavvikelse?
då uttnyttjas stickprovets standardavvikelse och uppskattas vara nära den äkta. de testvariabler man då använder sig av följer de så kallade t-fördelningarna med olika antal frihetsgrader. detta blir ju dock mer osäkert och man kan tänka sig att man då behöver ha ett riktigt stort stickprov.
95
vad är det man först behöver beräkna för att genomföra en hypotesprövning?
ett värde på z eller på t
96
hur kan vi blir mer säkra på att stickprovskorrelationen r är en bra estimator av p (true population korrelation)?
större stickprov men får vi korrelation 0.9 på ett stickprov med 10 personer så behöver vi inte oroa oss för att den egentliga korrelationen är 0.0. men om vi har ett stickprov på 100 personer med korrelationen 0.3 blir det osäkrare.
97
hypotesprövningen: om populationskorrelationen egentligen är noll, H0 är sann, hur stor är då sannolikheten att få en viss stickprovskorrelation, r, av en ren slump? Är det tillräckligt liten sannolikhet att detta ska inträffa, säg mindre än 5%, så förkastar ci H0, och säger att sambandet är signifikant.
98
vad gör man när man testar signifikansen i alla korrelationskoeffecienter? spearman+ r + andra
kollar i tabellen hitta frihetsgrader (n-1) kolla om du har tvåsidig eller ensidig prövning (riktad hypotes?) kolla vilken korrelation som är statistisk signifikant i tabellen.
99
när sägs ett mätinstrument ha god reliabilitet?
när det ger samma resultat vid olika tidpunkter och i olika situationer.
100
när sägs ett mätinstrument ha god validitet?
när det mäter det som det avser att mäta.
101
vad innebär det praktiskt om vi säger att vi har ett konfidensintervall på 95%
då kommer i genomsnitt 95 av 100 intervall som skapas runt stickprovsmedelvärden ur populationen täcka in populationsmodelvärdet.
102
vilka z-värden innefattas av ett konfidensintervall på 95%?
z = +- 1.96
103
vad behöver man göra för att räkna ut konfidensintervallet för populationskorrelationen?
manbehöver först göra en transformering av sina värden till fishers z. (z´)
104
hur kan man se grafiskt med hjälp av konfidensintervall huruvida en skillnad mellan två grupper är statistiskt signifikant?
om det finns ett stort överlapp mellan konfidensintervall (speciellt ifall de överlappar över någons medelvärde) = icke signifikant lågt/inget överlapp = signifikant skillnad
105
man använder konfidensintervallet för att....
estimera parametern.
106
vad använder man för typ av metoder när ens data inte kan antas normalfördelade eller när vi inte är intresserade av någon specifik parameter (såsom populationsmedelvärde)?
då använder vi oss av icke-parametriska metoder. om förutsättningarna för parametrisk statistik är uppfyllda bör man välja att räkna parametriskt, men om villkoren inte är det kan det vara värdefullt att känna till några icke-parametriska metoder. exempel på ickeparametriska metoder är: spearmans rangordningskorrelationskoeffecient chi två icke parametriska metoder ställer alltså inte lika stora krav på data som parametrisk statistik gör. å andra sidan använder de mindre information från data än vad parametrisk statistik gör. därför är de icke-parametriska metoderna mindre kraftfulla än de parametriska.
107
nämn 3 situationer där du bör använda dig av en icke-parametrisk metod:
1. när du har nominaldata eller ordinaldata 2. när dina data inte kan anses vara normalfördelade 3. när du inte är intresserad av någon parameter som, u, o eller p.
108
vilken metod kan vi använda oss för att genomföra en hypotesprövning när vi har data på nominalnivå?
chi-två
109
hur gör man när man använder chi-två
vid chi-två jämför man den fördelningsform man har fått i sitt experiment med den fördelningsform som slumpen skulle ge. är fördelningsformen tillräckligt osannolik att få av en slump förkastas nollhypotesen.
110
vad är en effektstorlek?
ett standardiserat mått på storleken av en effekt