Statistik Flashcards

Question

när är det geometriska medelvärdet användbart? hur räknar man ut det geometriska medelvärdet? hur förhåller det sig till det aritmetiska medelvärdet?

Answer 1

när data är kraftigt positivt snedfördelade. det beräknas som n:te roten ur produkten av n tal. (pga att vi räknar multiplikation kan vi inte ha några tal som är noll (då blir ju allt noll) eller några negativa tal (då kan allt bli minus). det geometriska medelvärdet är mindre än det aritmetiska medelvärdet, förutom när alla tal är lika stora. då blir de två olika medelvärdena också lika stora.

Answer 2

används om man har olika stickprovsstorlekar för att beräkna den genomsnittliga storleken på stickproven.

Answer 3

medianen är den femtionde percentilen

Answer 4

1. variationsbredd 2. kvartilavvikelse 3. standardavvikelse 4. varians

Answer 5

de olika spridningsmåtten kan kopplas samman med de olika centralmåtten. vilket spridningsmått man väljer hänger också samman med skalnivå och hur fördelningsformen ser ut. 1. centralmått 2. skalnivå 3. fördelningsform.

Answer 6

median: kvartilavstånd + kvartilavvikelse aritmetiskt medelvärde: varians och standardavvikelse

Answer 7

s = standardavvikelsen

Answer 8

enkelt: standardavvikelse, gruppen z-värde: individuell observation standardavvikelse är ett mått på spridningen i hela datasetet. medan z-värde mäter en enskild observation i förhållande till datasetets medelvärde och sprdning. standardavvikelsen är ett absolut mått på variation, medan z-värdet är ett relativt mått som uttrycker hur många standardavvikelser en observation skiljer sig från medelvärdet.

Answer 9

ja. E(s^2) = σ^2 alltså: det förväntade (genomsnittliga) värdet av stickprovsvariansen är lika med populationsvariansen.

Answer 10

i ett stapeldiagram som ett T som går ut från stapelns tak, i ett punktdiagram som ett T och vardera sida om punkten T 0 T (åt andra hållet) I----o-----I

Answer 11

antalet frihetsgrader är det totala antalet observationer som är fria att variera när ett statistiskt mått beräknas. har vi ett medelvärde av 3 observationer så är endast 2 av dessa observationer helt obunda då efter 2 observationer så måste den sista observationen vara på ett visst sätt för att medelvärdesberäkningen ska gå ihop. endast två observationer har alltså frihet att variera, det vill säga (n-1) stycken. antalet frihetsgrader är de antal värden som återstår när man subtraherat antal restriktioner från det totala antalet värden. en restriktion eller begränsning orsakas av ett som mått redan beräknats från värdena.

Answer 12

används för att jämföra spridningen mellan olika grupper eller variabler. utgörs av kvoten mellan standardavvikelsen och medelvärdet v = variationskoeffecienten v = s/x variationskoeffectienten kallas också den relativa spridningen och anges därför ofta i procent.

Answer 13

på samma sätt som vi kan översätta dollar och pund till sek för att jämnföra dom, så kan vi jämföra värden på olika skalor genom att översätta dem till z-poäng. z-poängen kan sägas vara en universell norm som man i synnerhet kan använda på sådant som är eller tros vara normalfördelat.

Answer 14

z-värdet säger hur långt ifrån medelvärdet observationen befinner sig, räknat i standardavvikelser. per: introversion: zx = 1 neuroticism: zy = 2 per är alltså mer neurotisk än vad han är introvert.

Answer 15

den nya fördelningen får medelvärdet 0 och standardavvikelsen 1 (men det är inte "nya tal" utan de förhåller sig fortfarande lika till varandra. man har bara översatt alla tal till z-poäng, såsom att översätta kilometer till miles).

Answer 16

längd, vikt, intelligens och mätfel (!)

Answer 17

den teoretiska normalfördelningen fortsätter oändligt långt ut åt båda sidor utan att någonsin möta x-axeln (0).

Answer 18

34.13% -1 medelvärdet +1 alltså ungefär 70% av observationerna befinner sig en standardavvikelse bort från medelvärdet.

Answer 19

när observationerna transformerats kommer endast 2.28% av dem vara större än 2. medelvärdet har z-poäng 2.

Answer 20

materialet är eller tros vara normalfördelat.

Answer 21

z = +-1.96

Answer 22

vilken som föregår vilken i tiden. OV föregår BV jag åt tre portioner innan (OV) jag är så otroligt mätt (BV)

Answer 23

X kan påverka Y, men Y kan inte påverka X.

Answer 24

skensamband (tredje variabler)

Answer 25

värden på r kan ligga mellan -1 och 1 där -1 och 1 är perfekta samband (negativa eller positiva). Ett r på 0 innebär därför att det inte finns något samband och ingen korrelation. ska EJ förvirras med linjens lutning/k-värde i y=kx+m

Answer 26

hur väl man kan förutsäga värden på beroende variabeln med hjälp av den oberoende.

Answer 27

kan enbart mäta grad av linjär samvariation. alltså kan enbart mäta linjära samband. Men alla samband är dock inte linjära. Yerkes-Dodsons lag demonstrerar exempelvis att det råder ett uppochnedvänt U-samband mellan arousal och prestation. Alltså om du ska skriva en tenta är det bra att du har lite arousal, men inte för mycket. Du skriver dåligt och du har hög arousal och dåligt om du har låg arousal. Skriver du in detta i en scatterplot kommer du att få en U (upp och ned) formad graf. Om man då använde pearsons r på detta dataset skulle vi få fram att det inte finns något samband alls mellan arousal och prestation på tentan, vilket det ändå kan tänkas finnas.

Answer 28

r = Σ ZxZy / n-1

Answer 29

för att använda pearsons r måste vi ha en bivariat normalfördelning

Answer 30

1. X och Y är variabler som är hämtade från en bivariat normalfördelning 2. för varje värde på X är motsvarande Y värden normalfördelade och vice-versa. 3.varianserna i Y är desamma för alla X-värden (och vice versa)

Answer 31

De existerar inga perfekta bivariata normalfördelningar i sinnevärlden. Det är alltså normalt att avvikelsen från den perfekta bivariata normalfördelningen är ganska stora. inom rimliga gränser kan man lita på sin korrelationskoeffecient förutsatt att den är signifikant. Men ju mindre stickprovet är, och desto större avvikelserna från en perfekt bivariat normalfördelning är, desto mer riskabelt blir det att använda pearsons r och man bör överväga att använda en annan metod (exempelvis: spearmans rangkorrelationskoefficient)

Answer 32

nej faktiskt inte. korrelationen i stickprovet (estimatet) ger, särskilt vid små stickprov, en liten överskattning av hur stor korrelationen i populationen är. man kan dock åtgärda detta genom att beräkna "den korrigerade korrelationskoefficienten". i de flesta forskningssammanhang så brukar man dock inte bry sig om detta, och brukar istället nöja sig med att enbart beräkna r, trots att det kan verka motsägelsefullt då man är väldigt noggrann i andra sammanhang gällande väntevärdesriktighet.

Answer 33

de är beräknade utifrån mycket stora stickprov

Answer 34

de är beräknade utifrån väldigt små stickprov.

Answer 35

- vad som är stor eller liten korrelation beror på vad man kan förvänta sig. - har man inga speciella förväntningar kan man använda sig av Cohens riktlinjer; r 0.10 = svagt samband r 0.30 = medelstarkt samband r 0.5 = starkt samband men cohen menade också att vad som kan ses som en stark eller svag korrelation beror på storleken på stickprovet

Answer 36

enligt boken så är egentligen pearsons r missvisande när det gäller att beskriva hur starkt eller svagt ett visst samband är. man kan använda determinationskoeffecienten (r^2) istället. denna koeffecient ger oss andel förklarad varians. man kvaderar sitt pearsons r exempelvis r = 0.70 ----> d= 0.49 alltså 49%. alltså förklaras variansen. 100% förklarad varians är då ett perfekt samband. problem: pga att man kvadrerar så kan små korrelationskoeffecienter bli mindre än vad de är.

Answer 37

ja, även om andelen förklarad varians är mycket liten så kan korrelationen ha stora praktiska betydelser. exempelvis: i medicinska sammanhang kan små effekter ha stora praktiska effekter.

Answer 38

de skiljer sig inte alls mycket från pearson. anledningen till att man väljer andra benämningar (på vad som i princip är samma korrelationskoeffecient) är för att man vill säga något om vilken skalnivå av data man är på ex. spearmans rangordningskoeffecient för data som är på ordinalskala.

Answer 39

betäcknas: r,s för att korrelationen ska få kallas för spearmans rangordningskorrelation istället för pearsons r så krävs det att båda variablerna har mätts på ordinalskalenivå. man kan transformera variabler till ordinalskalenivå om man vill använda r,s. exempelvis om vi har längderna 160 175 180 180 190 kan vi ge dessa värdena: 160: 1 175: 2 180: 3.5 180: 3.5 190: 5 vid samma längd får båda deltagarna medelvärdet av de observationer som omger dem. alltså 2+5/2=3.5

Answer 40

att vi behöver variation för att kunna upptäcka samvariation

Answer 41

x <---------->y

Answer 42

x -----------> (M) ---------> y (interaktionseffekt?)

Answer 43

data på ordinalnivå lämplig att använda om man vill mäta korrelation mellan snedfördelade variabler, speciellt om stickprovet är litet.

Answer 44

nollhypotes och alternativ hypotes h0: det finns ingen skillnad mellan kvinnor och män h1: det finns en skillnad mellan kvinnor och män man brukar föredra oriktade hypoteser, dvs att man säger att man tror att det (finns) ett samband, men inte i vilken riktning det går.

Answer 45

i hypotesprövning utgår vi alltid ifrån att nollhypotesen är sann. visar det sig att vi får ett statistiskt signifikant resultat kan vi därför förkasta nollhypotesen. man har därmed fått stöd för alternativhypotesen.

Answer 46

det finns inte någon statistisk metod i världen som direkt kan visa på alternativhypotesens rimlighet, man måste därför alltid gå bakvägen genom att visa på nollhypotesens orimlighet. anledningen till detta är att nollhypotesen faktiskt säger att allt vi observerar bara är slumpens verk. och hur slumpen kan slå kan vi beräkna.

Answer 47

eftersom att vi har en alpha nivå på 0.5 så finns det därmed en risk på 5% att slumpen orsakat resultatet och ett nollhypotesen är sann. detta är dock osannolikt men inte omöjligt. men det är så pass ovanligt att vi har bestämt oss för att det är den nivå av slump-risk vi godtar. om man replikerar studier minskar ju denna risk.

Answer 48

en samplingfördelning är en är en frekvensfördelning över någon stickprovsegenskap ex. medelvärde, varians, korrelationen mellan två variabler osv.

Answer 49

för sampling fördelningar av medelvärden så blir samplingfördelningen mer normalfördelad än populationen. detta följer den centrala gränsvärdessatsen

Answer 50

om vi beräknar medelvärdet av ett stort antal slumpmässigt fördelade tal, så kommer detta medelvärde att närma sig en normalfördelning, oavsett hur fördelningen för de enskilda talen ser ut.

Answer 51

sommedelvärdet i populationen

Answer 52

standardavvikelsen i en samplingfördelning kallas för standardfelet. standardfelet säger något om hur stor osäkerheten är för just det stickprovsvärde som vi har fått fram.

Answer 53

typ 1 fel: vi får ett signifikant resultat av en slump och förkastar därmed felaktigt nollhypotesen. typ 2 fel: vi får ett icke-signifikant resultat av en slump och tvingas därmed behålla nollhypotesen (felaktigt)

Answer 54

i allmänhet så är typ 1 fel värst.

Answer 55

risken för typ 1 fel har vi faktiskt total kontroll över, den risken ska vara lika med alfanivån som vi själva väljer. alfanivå 0.5 säger att det finns en 5% risk att vi begår ett typ 1 fel. man behöver känna sig säker på att denna risken faktiskt är 5% om man har valt alfanivå 0.5. och att risken för att man felaktigt kastar nollhypotesen inte är 6% eller 10%. det finns en risk och man underskattar risken vid vissa tillfällen. exempelvis så är det så att när vi ska signifikanstesta korrelation (r) så krävs det egentligen att stickprovet är hämtat från en perfekt bivariat normalfördelning. i praktiken brukar avvikelser från detta inte vara något större problem, men ibland, särskilt om man har ett litet stickrpov, så kan avvikelsen från den bivariata normalfördelningen vara så stor att man tappar kontrollen över alfanivån och får en större risk för typ 1 fel än vad man bestämt. Då får man beräkna spearmans rangkorrelationskoeffecient istället för att återfå kontrollen över alfanivån. så: för att undvika typ 1 fel så ska man, ifall man mäter korrelationer där det kan finnas avvikelser från den bivariata normalfördelningen (typ att vi har ett litet stickprov eller snedfördelade variabler som då inte kommer jämnas ut pga stickprovets lilla storlek) så bör vi använda oss av spearmans rangkorrelationskoefficient .

Answer 56

denna sannolikhet kallas för beta (β).

Answer 57

I praktiken kan vi tyvärr aldrig veta exakt hur stor β är. men vi vet vilka saker som kan påverka β. man tänker sig att typ 2 fel orsakas av felvarians som "skymmer sikten" för den verkliga effekten". följande faktorer minskar β: 1. en högre alfanivå (ex. 10% istället för 5%) man minskar risken för typ 2 fel, men då ökar man dock risken för typ 1 fel, vilket ses som mer allvarligt så detta är en metod som inte rekommenderas. 2. fler undersökningsdeltagare: det enklaste sättet att minska typ 2 fel brukar vara att använda sig av flera undersökningsdeltagare. 3. större styrka på den oberoende variabeln: Ju större styrka eller variation på OV desto lättare bör det vara att få effekter på BV. "restriction of range-problemet". Utan ordentlig variation kan man inte heller förvänta sig någon samvariation. 4. mindre felvarians: genom reliabla mätinstrument och konstanthållning kan vi få bort felvarians som skymmer sikten för oss. medelfelet kommer då bli mindre eftersom att standardavvikelsen blir mindre. 5. beroende mätningar: Det mest kraftfulla metoden för att få bort en massa felvarians är genom att använda sig att beroende mätningar, genom att ha upprepade mätningar. ex. beroende t-test beroende ANOVA

Answer 58

En samplingfördelning är en sannolikhetsfördelning för en statistika (t ex ett medelvärde), dvs fördelningen av värden på statistikan vid upprepad (oändligt många gånger/”alla möjliga stickprov”) stickprovsdragning (eller experiment) från en population.

Answer 59

draget slumpmässigt ur populationen variabeln har en ändlig standardavvikelse (nästan alltid sant) om detta stämmer så kommer fördelningen att närma sig en normalfördelning vid upprepade stickprov/mätningar. om vi tar ett oändligt antal stickprov kommer vi att få en normalfördelning. pga detta så kan vi sedan uttala oss om p-värdet, om observation hamnar i 95de percentilen = alfa nivå.

Answer 60

MELLAN stickprov inte inom det enskilda stickprovet sampling fördelning är inte något man gör praktiskt, utan en teoretisk grej som man tänker sig händer baserat på vissa saker som gäller för stickprovet. antalet observationer inom stickprovet (n=10 eller n=100) avgör hur nära fördelningen mellan dessa stickprov kommer att komma en perfekt normalfördelning.

Answer 61

säger att bra estimat kommer tenderar att hamna närmare det sanna populationsvärdet desto större n är. det är alltså bra med enorma stickprov punkt slut.

Answer 62

sitt medelvärde sin standardavvikelse

Answer 63

stora talens lag: större stickprov -----> stickprovsmedelvärderna kommer närmare de sanna populationsmedelvärdet centrala gränsvärdessatsen: större stickprov ----> de resterande variationen mellan stickproven som finns kvar kommer att följa en normalfördelning.

Answer 64

Stora talens lag ger en garanti för att medelvärdet blir stabilt och närmar sig väntevärdet.

Answer 65

Centrala gränsvärdessatsen beskriver formen på fördelningen av medelvärdet, nämligen att den blir normalfördelad.

Answer 66

normalfördelning data på minst intervallnivå antaganden om oberoende variabler

Answer 67

man jämnför stickprovs m med ett känt populationsmedelvärde och man har kunskap om populationens riktiga standardavvikelse

Answer 68

då uttnyttjas stickprovets standardavvikelse och uppskattas vara nära den äkta. de testvariabler man då använder sig av följer de så kallade t-fördelningarna med olika antal frihetsgrader. detta blir ju dock mer osäkert och man kan tänka sig att man då behöver ha ett riktigt stort stickprov.

Answer 69

ett värde på z eller på t

Answer 70

större stickprov men får vi korrelation 0.9 på ett stickprov med 10 personer så behöver vi inte oroa oss för att den egentliga korrelationen är 0.0. men om vi har ett stickprov på 100 personer med korrelationen 0.3 blir det osäkrare.

Answer 71

kollar i tabellen hitta frihetsgrader (n-1) kolla om du har tvåsidig eller ensidig prövning (riktad hypotes?) kolla vilken korrelation som är statistisk signifikant i tabellen.

Answer 72

när det ger samma resultat vid olika tidpunkter och i olika situationer.

Answer 73

när det mäter det som det avser att mäta.

Answer 74

då kommer i genomsnitt 95 av 100 intervall som skapas runt stickprovsmedelvärden ur populationen täcka in populationsmodelvärdet.

Answer 75

z = +- 1.96

Answer 76

manbehöver först göra en transformering av sina värden till fishers z. (z´)

Answer 77

om det finns ett stort överlapp mellan konfidensintervall (speciellt ifall de överlappar över någons medelvärde) = icke signifikant lågt/inget överlapp = signifikant skillnad

Answer 78

estimera parametern.

Answer 79

då använder vi oss av icke-parametriska metoder. om förutsättningarna för parametrisk statistik är uppfyllda bör man välja att räkna parametriskt, men om villkoren inte är det kan det vara värdefullt att känna till några icke-parametriska metoder. exempel på ickeparametriska metoder är: spearmans rangordningskorrelationskoeffecient chi två icke parametriska metoder ställer alltså inte lika stora krav på data som parametrisk statistik gör. å andra sidan använder de mindre information från data än vad parametrisk statistik gör. därför är de icke-parametriska metoderna mindre kraftfulla än de parametriska.

Answer 80

1. när du har nominaldata eller ordinaldata 2. när dina data inte kan anses vara normalfördelade 3. när du inte är intresserad av någon parameter som, u, o eller p.

Answer 81

vid chi-två jämför man den fördelningsform man har fått i sitt experiment med den fördelningsform som slumpen skulle ge. är fördelningsformen tillräckligt osannolik att få av en slump förkastas nollhypotesen.

Answer 82

ett standardiserat mått på storleken av en effekt

Statistik Flashcards

(110 cards)