Kap 2 Flashcards
(10 cards)
vad består Nominal data av
består av observationer som presenteras i form av rubriker eller namn. Denna data
anses vara av sämst kvalite eftersom allt vi kan göra med datan, är att kategorisera den.
vad består ordinal data av
Ordinal
data är något bättre eftersom att vi dels kan kategorisera, men dels rangordna datan, tex 1-5. För att organisera den kvalitativa datan i olika kategorier kan man använda sig av Frequency
distribution (frekvenstabell)
Frequency distribution =
grupperar den kvalitativa datan i kategorier registrerar antalet
observationer som faller i respektive kategori. Dvs talar tabellen om vilka värden som är vanliga
respektive ovanliga i den datamängd. Tabellen visar hur de observerade värderna har fördelas
mellan de olika kategorierna:
● kvalitativa data: hur många observationer i varje kategori
○ antalet observationer = frekvens
○ andel av alla observationer = relativ frekvens
○ Relativ frekvens används för att kunna jämföra olika kategorier med varandra.
Frekvenstabell- som figur (kvalitativ)
Vi kan visualisera informationen vi tagit fram i frekvenstabellen genom att skapa olika grafer.
Grafer kan dels visualisera data på ett dramatiskt sätt och dels förenkla datan. Vanliga grafter för
den kvalitativa datan är cirkeldiagram eller stapeldiagram.
● cirkeldiagrammet, är bra för att visa “delar av en helhet”(andelarnas storlek)
● stapeldiagrammet, är bra för att visa “relativa storlekar”(skillnader i storlek)
○ vertikalt stapeldiagram, har varje kategori på x axeln
○ horisontellt stapeldiagram har varje kategori på y axeln.
Tips vid framställning av grafter:
● använd den mest simpla graften för en given data
● axlarna ska vara tydligt märkta med nummer från respektive skala. Varje axel bör
markeras.
● Då ett stapeldiagram (bar chart) framställs ska varje stapel ha samma bredd, för att inte
skapa en förvrängning.
● y axeln bör inte ha en för hög övre maxgräns, för att datan inte ska framställas som
komprimerad.
Frequency distribution
ummerar den kvantitativa datan. Varje observation representerar en
betydande andel av nummer.
● kvantitativa data: hur många observationer i varje intervall (eller klass)
○ observerade värden måste delas in i intervall, sk “klasser”
○ därefter räknas man ut hur många observationer vi har i varje klass. klasserna måste
vara:
■ exklusiva: inget överlapp, dvs vi ska inte riskera att räkna någon
observation två gånger
■ uttömmande, dvs alla observerade värden fångas in av någon klass & inget
utelämnas.
Frekvenstabell (kvantitativ)
I Frekvenstabellen ska man dela in materialet i lagom många klasser, ca 5-20
● Det är viktigt att tänka på att klasserna är lika stora, dvs har samma klassbredd, annat fall
ges en felaktig bild. En grov uppskattning beräknas enligt:
klassbredd = (högsta värde - lägsta värde) / antal klasser
När man har en kvantitativ data kan man även beräkna “kumulativ frekvens”. Den kumulativa
frekvensen visar antalet observationer upp till och med ett värde.
● Samma sätt kan man även beräkna kumulativ relativ frekvens. Den kumulativa relativa
frekvensen visar andelen av alla observationer upp till och med ett värde. Denna kan
beräknas på två sätt. (1) successiv summera den relativa frekvensen eller (2) dela varje
klass kumulativa frekvens med stickprovets storlek.
En frekvenstabell är bra att ha för att stärka tydligheten i sin statistik och öka förståelsen hos
läsaren.
Tips vid framställning av grafer:
- Inga överlapp, varje observation ska endast ingå i en klass och inte i flertal.
- klasserna ska vara uttömmande. Dvs totalen av antalet klasser ska täcka hela stickprovet
eller populationen.
- antalet klasser ska vara mellan 5-20 st. Detta är för att vi inte ska gå miste om för mycket
detaljer. För att uppskatta hur stort spann varje klass ska innehålla kan vi beräkna
klassbredden (enligt ovan).
Den tydligaste & vanligaste grafen för att visualisera fördelning av kvantitativa datan är
histogram.
Histogram, polygons & ogives
Ett histogram är enbart en visuell motsvarighet till en frekvenstabell. X-axeln visar variabelns
världen. Y- axeln visar hur vanligt det är med observationer för respektive värde/ intervall. Höjden
på varje stapel visar antingen:
- frekvensen (antal)
- den relativa frekvensen, dvs andel/sannolikhet
Intervallen som används motsvarar de klasser som finns i frekvenstabellen.
Skillnaden mellan ett frekvenshistogram och ett relativt frekvenshistogram är vad för mått som
finns på y axeln. Dvs. i frekvens histogrammet låter man frekvensen för varje klass, representera
höjden. Medan i den relativa frekvens histogrammet låter man proportionen för varje klass
representera höjden av stapeln.
Frekvenstabeller kan var symmetriskt, positivt eller negativt utformade.
Ett polygon är ett annat sätt att visualisera en frekvenstabell. Precis som med histogrammet
placerar man antingen frekvensen eller den relativa frekvensen på y axeln och skala på x axeln.
Ett ogive ger en annan form av polygon
Steam & leaf diagram
Ett annat sätt visualisera den kvantitativa datan är via steam & leaf diagram. Det är användbart i
det att man får en överblick av vart datan är koncentrerad och hur datan sprider sig från centrum.
Scatterplots
Om vi vill visa förhållandet mellan två olika variabler använder vi oss oftast av scatter plot.
Scatterplot visar ifall de två variablerna är relaterade till varandra. “vad händer med värdet på
variabel 1 om värdet på variabel 2 ökar?”. Detta är ofta ett första viktiga steget i en analys av
samband.
VArje punkt i diagrammet representerar ett par observerade värden av samma två variabler.
När vi framställer en scatterplot refererar vi till en av variablerna på x axeln och den andra
variabeln på y axeln: (x,y)
När vi sammanställer diagrammet kan vi antingen få fram:
- ett linjärt förhållande mellan två variabler
- att det inte finns något linjärt förhållande mellan två variabler
- eller inget förhållande alls mellan de två variablerna