Kap 1 Flashcards
(16 cards)
Descriptive statistics
beskrivande statistik. Den sammanfattar det viktigaste gällande datan:
insamling av data, organisera data, presentera datan. Beskriver och ger en samlad bild av det vi
mätt/undersökt.
Grafisk presentation
○ stapeldiagram
○ cirkeldiagram
○ histogram
● numerisk presentation
○ medelvärde
○ median
○ standardavvikelse
Inferential statistics (inferentiell statistik)
analytisk statistik. Att dra slutsatser om större
sammanhang (helheten) med begränsat underlag. Vi drar slutsatser om helheten, även om dem vi
ej har mätt.
● Population = “alla”, tex medlemmar i en specifik grupp
● sample = stickprov sk urval, den delmängd vi faktiskt kan mäta/undersöka.
Vad utgår båda ifrån deskriptiv och inferentiell?
Både deskriptiv och inferentiell statistik utgår från stickprovs information. Skillnaden ligger i
HUR vi använder den informationen.
Varför stickprov?
vad innebär dessa? :1. Det är dyrt att få information av en hel population.
2. Det är omöjligt att utreda varje medlem i populationen
Därför använder vi då urval för att dra slutsatser om populationen.
Urvalet bör därför vara representativt (dvs slumpmässigt valt), för
att inte hela analysen ska bli felaktig.
Cross sectional & time series data. Sample data samlas in på 2 sätt:
cross sectional data (tvärsnittsdata), innebär data som samlas in genom att undersöka/
mäta flera subjekt samtidigt. Subjekt kan vara individer, hushåll, företag, industrier eller
länder. Tex enkäter.
● time series data (tidsseriedata), innebär data som samlas in över flera tidsperioder med
fokus på flera grupper av personer, specifika event eller objekt. Time series kan innebära
timvis, veckovis, månadsvis etc- observationer. Dvs genomförs många mätningar vid olika
tillfällen av samma subjekt. Tidsserie = en sak över tid, det spelar roll i vilken ordning
mätningen gjordes.
Big data (paneldata)
Big data = innebär massiva volymer av både strukturerad och ostrukturerad data som är väldigt
svårt att hantera, processa och analysera genom att använda vanliga dataprocess verktyg. Big data
öppnar dock upp möjligheten samla ihop stor användbar data som kan påverka företags inkomster,
marginaler och organisera dem effektivt.
Paneldata är alltså mätning av många olika subjekt över tid.
Vad är det vi mäter?
Att mäta en egenskap = kallas egenskapen för “variabel”. Tex: vikt, pris, ålder, antal i
förpackning. Precis vad som helst. Det vi vill mäta är en variabel, som kan anta olika värden.
Mätskalor = Variabler kan vara olika noggrant mätta, dvs innehålla olika mycket information.
Tex: Val av mätskala spelar roll eftersom att det påverkar hur vi tolkar variabeln. Vilka metoder som
går att använda styrs bla av vilket mätskala vi har.
Nominalskala,
Lägsta nivån, sämst kvalitet Kvalitativa variabler
○ den minst informativa informationen av data
○ Nominalskalan låter oss gruppera data i kategorier beroende på mätvärden på
variabeln. Tex kön, nationalitet, politisk tillhörighet, färg. Dvs vi delar in vår data i
olika grupperingar utan någon logisk ordning.
ordinalskala
Är som nominalskalan i att vi kategoriserar datan + tillägg.
○ Tillägg: vi rangordnar vår data i en logisk följd. Numreringen är godtycklig,
skillnad mellan mätvärdena har därmed ingen tolkning. Dvs en skala mellan spelar
gapet mellan 4 -3 ingen stor roll jämfört med en skala där 100 -80.
○ ordinalskalan används ofta i undersökningar där man ska svara på en skala mellan
1-5.
○ tex: betyg, placering i tävlingar
■ (godtyckligt innebär tex att vet vi att en kom 1a och em kom 2a, men vi vet
inte hur mycket bättre 1an var än 2an. Vi vet därmed inte hur mycket bättre
eller sämre de olika rangorningarna är.
intervallskala
En intervallskala är som en ordinalskala i att vi kategoriserar och rangordnar datan
+ tillägg
○ Tillägg: Här är skillnaden mellan två värden alltid lika stor. Det är meningsfullt att
tolka skillnader mellan mätvärden.
○ Tex temperatur, klockslag, kalenderår
■ Ett år är alltid lika långt, men nollpunkten (år noll) är godtycklig.
■ En timme mellan kl. 1 & 2 är lika lång som mellan kl 3 & 4.
kvotskala (ratio scale) ← högsta nivån, bäst kvalitet
Som intervallskala + tillägg
○ Tillägg: Kvotskalan har en absolut nollpunkt, en punkt som är entydig och där
variabeln inte kan anta lägre värden.
○ Tex vikt, avstånd, längd
■ Den absoluta nollpunkten är tex 0 cm, där 0 cm innebär att det inte finns
något avstånd.
Diskret variabel
(saker vi räknar, tex antalet personer i ett hushåll- 2 st)
○ Diskret variabel kan anta ett värde från en begränsad mängd möjliga värden.
○ Variabeln är ofta ett heltal, men kan även vara ett decimaltal där antalet decimaler
är begränsat
○ Tex: antal, priser
Kontinuerlig variabel
kan mätas jättenoggrant, tex även om linjalen anger cm så finns
även mm)
○ Kontinuerlig variabel kan anta ett värde från en oändlig mängd möjliga värden.
○ Även om något mäts i ett begränsat antal decimaler kan den underliggande
variabeln vara kontinuerlig.
○ Tex: längd (även om måttstocken bara har hela cm), vikts (även om vågen endast
visar en decimal)
Kvalitativa variabler(
att man kommer 1a säger att man var bäst men inte vilken tid man
sprang på. Kön, bilmärke, färg etc är ett ex på en kvalitativ variabel)
○ Kvalitativa variabler mäts på nominal eller ordingskala.
○ Det uppmätta värdet har inte en specifik innebörd.
○ Kvalitativa variabler grupperar observationer & variablerna är alltid diskreta.
Kvantitativa variabler
(tid är en kvantitativ variabel)
○ De mäts på en intervall eller kvotskala, där det uppmätta värdet har en specifik
innebörd
○ Variablerna kan vara diskreta ELLER kontinuerliga
Visualisera kvantitativ data- två variabler
Om vi vill visa förhållandet mellan två olika variabler, så använder vi ofta scatter pot. Dvs vi vill
ta fram kausaliteten. På x variabeln har vi en variabel och på y variabeln har vi ett annat värde.