Statistik 1b Flashcards
(99 cards)
Ge ett exempel på inferens med 2 populationer (medelvärden)?
Man har tex en kontrollgrupp och en behandlingsgrupp där man kanske vill testa olika saker så som hur företaget presterar om man får frukost på jobbet. Höjer de antalet producerade enheter?
Olika typer av test för 2 populationsparametrar (3st):
- Skillnader mellan två populationsmedelvärden för oberoende stickprov:
- Populationsvarianserna kända
- Populationsvarianserna okända men kan inte antas vara lika
- Populationsvarianserna okända men antas vara lika - Skillnader mellan två populationsmedelvärden för beroende (relaterade) stickprov.
- Skillnader mellan två populationsproportioner för oberoende stickprov
Oberoende stickprov
Anses oberoende när processen för att skapa stickproven är helt olika. Ex när personer blir slumpmässigt utvalda att ingå i behandlingsgruppen eller inte.
Beroende stickprov
Anses beroende om det finns ”naturligt” sätt att kombinera datan. Ex testa personers reaktion mot en medicin genom att observera dem 2 gånger, med och utan behandling. Eller följa upp en diet, träningsprogram eller liknande. Behöver dock ej vara samma individ, kan vara matchande på annat sätt, ex syskonstudier eller jordbruket.
Hur tolkas K.I?
Fångar in osäkerheten i skattningen av populationsparametern givet stickprovet. I upprepade försök kommer 100(1-a)% av konfidensintervallen innefatta den sanna differensen av populationsparameterna.
Typ 1 fel:
När man förkastar H0 fastän H0 är sann. alfa anger hur stor chansen för typ 1 fel är.
Typ 2 fel:
när man inte förkastar H0 fastän HA är sann. Beta anger hur troligt det är.
Hypotestesternas 5 steg:
- Definiera nollhypotesen
- Definiera alternativhypotesen (den hypotes man vill pröva/testa).
- Definiera testfunktionen (en statistisk fördelning under antagandet att H0 är sant).
- Definiera regel när nollhypotesen förkastas; antingen p-värde eller kritiskt värde.
- Pröva om vår observerade testfunktion ligger i förkastelseregionen under antagandet att H0 är sann. Alternativt pröva om p-värdet är mindre än a.
Hur beräknas d-tak, vad innebär det?
d-tak används vid beroende stickprov där vi vill jämföra före och efter behandling. Det räknas ut såhär: ta varje par av observationer och subtrahera dem så att du får differensen dem emellan. Summera dessa differenser och dela på totala antalet observationer.
Exempel på när man vill jämföra populationsvarianser:
Tex hur aktier kan variera för att minimera risken eller tex hur idrottare varierar i sin prestation.
När använder vi chitvå respektive F-fördelning?
Chitvå när vi har tex en varians som vi vill hypotestesta eller göra KI för. F-fördelning när vi har kvoten mellan två varianser.
Numerisk variabel (2 sorter)
Mäter kvantitet. Finns kontinuerliga och diskreta. Kontinuerliga kan anta alla värden mellan ett intervall medan diskreta antar endast heltal.
Kategorisk variabel:
Mäter kvalitet. Finns ordinal och nominal. Ordinal innebär att man kan rangordna tex betyg, klädesstorlek etc. Nominala har ingen logisk sekvens, som ex kön, religion, politiska preferenser etc.
Goodness-of-fit test:
(anpassningstestet) ger svar på hur bra en statistisk modell passar till den observerade datan. Följer observationerna en förmodad fördelning? Man vill avgöra om fördelningen på en variabels data uppstått av slump eller följer systematik. Ex, för multinomiala experiment eller för att se om data är normalfördelad. (handlar om kategoriska data).
Test for Independence:
(homogenitetstestet) testar istället om variabler är oberoende eller beroende av varandra. Ex om män är mer benägna att rösta på Moderaterna eller om politiska preferenser är oberoende av kön.
Skillnad i goodness respektive independence:
Att goodness bara testar en stokastisk variabel och hur väl den stämmer överens med en förväntad fördelning medan independence kan analysera två variabler för att se om de är oberoende.
Beroende variabel
den variabel vi mäter utfallet/effekten för. Ex produktiviteten vid olika frukostalternativ på jobbet (när vi har fler än 2 medelvärden att studera).
Oberoende variabel
en eller flera variabler som mäter orsaken för effekten på den beroende variabeln. Mäts alltid i nominalskala.
Beskriv kort de fyra olika ANOVA-varianterna:
•Envägs ANOVA: endast en oberoende variabel.
•Tvåvägs ANOVA: två oberoende variabler. Kallas även faktor.
•Oberoende ANOVA: olika individer i olika nivåer (grupper) för de oberoende variablerna. Alltså ingen interaktion.
•Beroende ANOVA: när vi har samma individer i olika nivåer för de oberoende variablerna, alltså med interaktion.
?
3 antaganden för envägs-ANOVA
- Normalfördelade populationer.
- Populationsstandardavvikelserna är okända men antas vara lika.
- Stickproven är oberoende för varje population (olika individer).
Varför behöver vi använda oss av ANOVA? Varför inte fortsätta med t-test för alla kombinationer av stickprovsmedelvärden?
- Jo för att ju fler sådana test vi gör desto mer missvisande blir alfa, alltså risken för typ 1 fel. Vi får inflation i alfa. T-test är bara till för att testa en hypotes, inte hypoteser som säger att flera olika parametrar är lika/olika.
Höger eller vänster svans på ANOVA?
Tester görs alltid på höger svans eftersom testet bygger på att vi vill se om variationen mellan grupper är större än inom grupper. (“större än” indikerar på högersvansen)
Envägs-ANOVA: SST=?
Den totala variationen i datamaterialet. Här delas den in i SSTR (mellangruppsvariationen) och SSE (inomgruppsvariationen, dvs slumpfaktorer).
Är vi ens intresserade av SST?
Nej egentligen inte, totala variationen kan vara beroende av datamängd, därav intresserar vi oss för den genomsnittliga (dela med frihetsgrader).