Begrepp Flashcards

1
Q

Deskriptiv statistik

A

Beskriver det vi mätt

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Inferentiell statistik

A

Vi drar slutsatser om större sammanhang baserat på en begränsad mätning

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

I den deskriptiva statistiken kan man förklara innehållet på två sätt..

A

Grafisk presentation (cirkeldiagram, stapeldiagram, histogram)
Numerisk presentation (medelvärde, median, standardavvikelse)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Population

A

Det vi mäter på

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Olika typer av scales of measurement

A
  1. Nominalskala
  2. Ordinalskala
  3. Intervallskala
  4. Kvotskala
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Diskret variabel

A
  • kan anta värde från en begränsad mängd möjliga värden
  • oftast heltal
  • kan även vara decimaltal där antalet decimaler är begränsat
  • ex oftast antal
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Kontinuerlig variabel

A
  • kan nata värde från en oändlig mängd möjliga värden
  • även om något mäts i ett begränsat antal decimaler kan den underliggande vara kontinuerlig
  • ex vikt, längd osv
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Kvalitativa variabler

A
  • mäts på nominal- eller ordinalskala
  • uppmätta värdet har inte en specifik innebörd
  • grupperar observationer
  • alltid diskreta variabler
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Kvantitativa variabler

A
  • mäts på intervall eller kvotskala
  • uppmätta värdet har en specifik innebörd
  • kan vara diskreta eller kontinuerliga
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Tvärsnittsdata

A
  • undersökning av många individer
  • samtidigt eller utan hänsyn att det sker vid olika tidpunkter
  • enkäter
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

tidsseriedata

A
  • många mätningar vid olika tillfällen (samma individ)
  • börsen
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Paneldata

A

kombination av tvärsnitt och tidsseriedata

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Frekvenstabell

A

Visar vilka värden som är vanligast resp ovanligast i dataserien

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Frekvenstabell - kvalitativ data

A

räkna hur många observationer vi har i resp grupp
antal observationer = frekvens
andelar av alla observationer = relativ frekvens

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

frekvenstabell - kvantitativ data

A

vi måste gruppera obeservationerna i olika klasser

klasserna måste vara
- exklusiva: inget överlapp
- uttömmande: alla observationer ingår i EN klass, inget utelämnas.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Lägesmått

A

aritmetiskt medelvärde
median
typvärde

visar var tyngdpunkten ligger i en datamängd

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
17
Q

Medelvärde

A

aritmetiskt medelvärde (vanliga medelvärdet)

geometriskt medelvärde

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
18
Q

typvärde

A
  • inget typvärde (alla värden är lika vanliga)
  • ett typvärde (unimodal)
  • två typvärden (bimodal)
  • fler än två typvärden (multimodal)
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
19
Q

Geometrisk medelvärde

A

Ex om man vill räkna ränta på ränta

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
20
Q

Vad visar spridningsmått

A

visar hur stor variation det finns i datamängden

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
21
Q

Olika spridningsmått

A

variationsvidd (range)
MAD (genomsnittlig absolut avvikelse)
Varians
Standardavvikelse

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
22
Q

Variationsbredd/vidd

A

Högsta värdet - minsta värdet

fokuserar på extremvärden i datamängden

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
23
Q

MAD

A

mean average deviation
Avvikelse från medelvärdet

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
24
Q

Varians och standardavvikelse

A

Vanligaste spridningsmåtten

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
25
Q

Coefficent of variation

A

CV
Spridningsmått drivs av medelvärdet
CV tar hänsyn till olika medelvärden
är enhetslöst, dvs gör det möjligt att jämföra mellan olika datamängder så att man inte “jämför äpplen och päron”

variationskoefficienten är kvoten mellan standardavvikelse och medelvärde

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
26
Q

Mean variance analysis

A

utgår från finansiella tillgångars presentation kan mätas genom att fokusera på två storheter
- avkastningen
- risken (variansen)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
27
Q

Sharpe ratio

A

Mäter avkastningen utöver riskfria avkastningen

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
28
Q

Percentiler

A

anger ett värde i datamängden som gör att en viss procent av alla värden i datamängden är lägre än detta värde

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
29
Q

25e percentilen

A

innebär att 25% av alla värden är lägre än det angivna värdet

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
30
Q

60e percentilen

A

innebär att 60% av alla värden är lägre än det angivna värdet

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
31
Q

90/10 kvoten

A

90 percentilen representerar höginkomsttagare, 10 percentilen representerar låginkomsttagare

32
Q

hur identifierar man percentiler

A
  • ordna material i stigande ordning
  • identifiera vilken observations värde vi ska läsa av
  • Lp = (n +1)p/100
33
Q

boxplot

A

låddiagram
- form av diagram som används för visuellt beskriva spridningen i data
- gör det möjligt att jämföra fördelningen av olika datamängder
- gör det möjligt att identifiera extremvärden
-använder sig av kvartilerna Q1, Q2, Q3, (och högst och minsta värde)

34
Q

Den empiriska regeln

A

materialet är
- symmetriskt fördelat
- fördelningen är klockforman (bell shaped)
- finns en större andel av observationerna nära medelvädet och vi kan vara mer precisa

= empiriska regeln innebär
- ca 68 % av observationerna ligger inom +- 1 standardavvikelse från medelvärdet
- ca 95% av observationerna ligger inom +-2 standardavvikelser
- ca 99,7 % av observationerna ligger inom +-3 standardavvikelser

35
Q

Chebyshevs teorem

A

Mindre precist än empiriska regeln. Bara för avvikelser större än 1

36
Q

Z-värden

A

mäter avståndet mellan ett visst uppmätt värde i stickprovet och stickprovets medelvärde. Mäter avstånd i medelvärdet i termer av antal standardavvikelser.

Z-värde = 2 betyder att observationen ligger 2 standardavvikelser över medelvärdet

37
Q

Grupperad data

A

innebär att datan är ordnad, vilket innebär att om vi vill hantera den kommer den inte bli lika precis

38
Q

Kovarians

A

ses som ett ostandardiserat mått på samvariation och ger ingen mer information utöver än att ett samband existerar.

  • positiv kovarians: positiv samvariation, om värdet på den ena variabeln är över medel så är även värdet på den andra variabeln över medel
  • negativ kovarians: om värdet på den ena variabeln är över medel så är värdet på den andra variabeln under medel

noll kovarians: inget linjärt samband

39
Q

korrelationskoefficienten:

A

antar värde mellan -1 och +1

närmare +-1 = starkare samband, mindre slump
närmare 0 = svagare samband, mer slump

40
Q

Gemensamt för kovarians och korrelation

A

positivt värde: positiv samvariation
negativt värde: negativ samvariation
värde 0 = ingen samvariation

41
Q

Korrelation innebär inte kausalitet

A

Sant,

42
Q

Sannolikhet

A

En sannolikhet är ett värde som visar hur troligt det är att något kommer inträffa

värde mellan 0-1

43
Q

slumpförsök (experiment)

A

experiment
ett försök som upprepas under samma förhållanden och där resultatet inte kan förutsägas med säkerhet

  • ex dra ett kort ur en kortlek
44
Q

utfall (outcome)

A

resultat av ett slumpförsök

  • ex att dra spader dam ur en kortlek
45
Q

händelse (event)

A

en händelse är en samling utfall

  • ex att dra ett svart kort ur en kortlek
46
Q

utfallsrum (sample space)

A

de olika möjliga utfallen sammanfattas i vad vi kallar ett utfallsrum

  • utfallsrummet för en vanlig tärning S =(1,2,3,4,5,6)

händelser är ömsesidigt uteslutande (mutually exclusive) om en händelse innebär att den andra omöjligt kan inträffa

händelser är utömmande (exhaustive) om de tillsammans utgör alla möjliga händelser

47
Q

Venn-diagram

A

Används för att illustrera olika förutsättningar för ett slumpförsök

  • union (union)
    om vi har en händelse A och B utgör unionen den händelse när antingen A eller B inträffar
  • snitt (intersection)
    Den händelse där både A och B inträffar samtidigt
48
Q

Viktiga egenskaper för sannolikheter

A
  • Sannolikheten för en händelse (A) är mellan 0 till 1
  • Summan av sannolikheter för de ömsesidigt uteslutande och kollektivt uttömmande händelserna är lika med 1
49
Q

Slumpvariabler

A

en variabel vars värde påverkas av slumpen

50
Q

Diskreta fördelningar

A

Likformig diskret fördelning
binominalfördelning
poissionfördelning
hypergeometrisk fördelning

51
Q

Binominalfördelning

A
  • två möjliga utfall
  • gynnsamt eller ogynnsamt försök
    ex röd boll/blå boll

väntevärdet
variansen
standardavvikelsen

52
Q

Poissonfördelning

A

fördelningen visar antal händelser inom ett intervall - vi söker sannolikheten för att få ett visst antal händelser inom ett intervall

  • ex antal kunder som kommer in i en affär under 30 min
  • antal tryckfel på 25 sidor

Antal lyckade försök inom ett visst angivet tids- eller rymdintervall är ett heltal
- ej mindre än noll
antal lyckade försök i icke-överlappande tidsintervall är oberoende
- sannolikheten att få ett visst antal lyckade försök i något intervall är…
- densamma för alla intervall av samma storlek och proportionellt mot intervallets storlek

53
Q

Hypergeometrisk fördelning

A

I grunde binominalfördelning,

  • vi har ett beroende mellan dragningarna, dvs som binominalfördelning utan återläggning eller naturligt oberoende
  • begränsad population
54
Q

likformig fördelning (uniform distribution)

A

kontinuerlig likformig fördelning
- variabeln har lika stor sannolikhet att anta vilket värde som helst inom ett intervall
- exempelvis leverans

55
Q

normalfördelning (normal distrubition)

A

vanligt förekommande
känd klockform

  • kontinuerlig fördelning
    symmetrisk kring sitt medelvärde
56
Q

exponentialfördelning (exponential distribution)

A

kontinuerlig motsvarighet till poissonfördelning

sannolikhet för att viss tid (viss intervall) går mellan två händelser

ex: tid det tar innan nästa kund kommer in

57
Q

Log-normal fördelning

A

en positiv slumpvariabel och fördelningen har positiv skevhet

kan användas för att modellera
- inkomster
- fastighetsvärden
- aktiepriser

58
Q

stickprov

A

en del av en population

varför?
får ej tag i hela populationen
urval kan spara tid och pengar

59
Q

Bias

A

när stickprovet inte är representativt för populationen

60
Q

urvalsbias

A

vi frågar fel personer
viktigt att analysera vilka vi ställer frågorna till
når vi alla grupper?

61
Q

bortfallsbias

A

fel personer svarar
de som har starka åsikter svarar ofta

62
Q

Centrala gränsvärdes satsen CGS

A

?

63
Q

Ju större andel av populationen som är med i stickprovet, desto mer…

A

informativt är stickprovet

64
Q

Ju större andel av populationen som är med i stickprovet, desto mindre sannolikt…

A

är det att stickprovet ska avvika från populationsmedelvärdet

65
Q

Konfidensintervall

A

hur säkra vi kan vara att ett visst svar ligger inom ett intervall

66
Q

vad bestämmer hur brett ett intervall är?

A
  • hur stor variationen är i populationen
    N - hur stort stickprov vi har
    Z - hur säkra vi vill vara på att täcka in med intervallet
67
Q

Stickprovets storlek

A

om vi har en stickprovsstorlek på minst 30 så gäller CGS
mindre än 30 så gäller inte CGS

68
Q

Hur litet stickprov kan vi godta?

A

metoder för att uppskatta stickprovsstorleken
- medelvärdesuppskattning
- andelsuppskattning

69
Q

medelvärdesuppskattning

A

minsta acceptabla stickprovsstorlek ges av:
- hur stor spridningen i populationen är
- hur säkra vi vill vara på att fånga det “sanna medelvärdet”
- hur stor “fel” eller avvikelse vi kan acceptera

70
Q

Andelsuppskattning

A

minsta acceptabla stickprovsstorlek:
- en “gissning” av vad andelen faktiskt är
- hur säkra vi vill vara på att fånga upp det “sanna” medelvärdet

71
Q

Hypotestest

A

kräver två hypotestester
- Nollhypotes (H0) = innehåller alltid en likhet
- Mothypotes (Ha) = innehåller det som gäller om H0 inte gäller.

Syftet är att se ifall vi kan förkasta nollhypotesen

De enda resultat som finns är:
- förkasta nollhypotesen
- inte förkasta nollhypotesen

72
Q

Tvåsidigt test

A

Tvåsidiga test:
- Nollhypotesen säger att parametern är lika med ett visst värde
- Mothypotesen säger att parametern är antingen högre eller lägre än detta värde

73
Q

Ensidigt test

A

Ensidigt test:
(två varianter)

Antingen
- nollhypotesen säger att parametern är lika med eller högre än ett visst värde
- mothypotesen säger att parametern är lägre än detta värde

Omvänt
- nollhypotesen säger att parametern är lika med eller lägre än ett visst värde
- mothypotesen säger att parametern är lägre än detta värde

74
Q

typ 1-fel: hypotestest

A

innebär att vi förkastar nollhypotesen, trots att den var korrekt

75
Q

typ 2-fel: hypotestest

A

innebär att vi inte förkastar nollhypotesen, trots att den är felaktig