statistik Flashcards
(30 cards)
Deskriptiv statistik
Deskriptiv statistik handlar om att beskriva och summera data från ett stickprov på ett sätt som ger en översiktlig bild av dess egenskaper. Det fokuserar på att ge en översikt av datans centrala egenskaper och spridning.
Inferentiell statistik
Inferentiell statistik används för att dra slutsatser om en population baserat på data från ett stickprov. Det handlar om att generalisera resultaten från stickprovet till hela populationen och att bedöma osäkerheterna i dessa generaliseringar.
Parameter
En parameter är ett mått på en egenskap i populationen. Till exempel kan medelvärdet för alla högskolestudenter i Sverige betraktas som en parameter.
Estimat
Ett estimat är det värde eller den uppskattning som beräknas från ett stickprov och som används för att försöka närma sig eller uppskatta en parameter i populationen. Till exempel kan medelvärdet för de studenter du faktiskt har mätt betraktas som ett estimat av det sanna medelvärdet i populationen.
T-test
T-test är en statistisk metod som används för att jämföra medelvärdena mellan två grupper och avgöra om skillnaden mellan grupperna är statistiskt signifikant. Det används ofta när man vill utvärdera om en intervention har haft en signifikant effekt på en mätbar variabel.
Vad händer med influensen vid låg representativt ?
Om ditt stickprov inte är representativt för den population du försöker dra slutsatser om kan det leda till osäkerheter och felaktiga inferenser. En hög grad av representativitet är viktig för att kunna generalisera resultaten från stickprovet till hela populationen. Om ditt stickprov inte är representativt, kan du inte vara säker på att de slutsatser du drar gäller för hela populationen.
Vad händer med deskriptiv statistik vid mätfel ?
Mätfel, som inkluderar fel i datainsamling och mätningar, kan påverka kvaliteten på deskriptiv statistik. Om mätfel inträffar kan medelvärden, standardavvikelser och andra deskriptiva mått bli missvisande. Det är därför viktigt att minimera mätfel i stickprovet för att få noggranna deskriptiva resultat.
vad är Z-värden ?
Z-värden är ett mått som används inom statistik för att kvantifiera avvikelsen mellan en specifik datapunkt och medelvärdet i en datamängd, uttryckt i termer av standardavvikelsen. Z-värdet används i samband med normalfördelningen (även känd som Gaussisk fördelning) och är en viktig komponent inom statistik och inferentiell statistik. Det hjälper oss att förstå hur avlägsen en observation är från genomsnittet i termer av standardavvikelsen och ger oss ett sätt att jämföra observationer på olika skalor.
Barplot (stapeldiagram):
En barplot används främst för att visualisera kategoriska variabler, där varje stapel representerar en unik kategori eller grupp. Varje stapel sträcker sig vertikalt uppåt och dess höjd representerar antalet observationer eller frekvensen av den kategorin.
Det är särskilt användbart för att jämföra frekvenser eller andelar mellan olika kategorier.
Histogram:
Ett histogram används för att visualisera fördelningen av kontinuerliga variabler. Istället för att dela in i diskreta kategorier, delas datan in i intervall (bin) på den kontinuerliga skalan.
På x-axeln finns de olika intervallen och på y-axeln representeras frekvensen eller antalet observationer som faller inom varje intervall.
Ett histogram ger en bild av hur datan är fördelad över det kontinuerliga spannet.
Boxplot (lådagram):
En boxplot ger en grafisk representation av kvartilerna (Q1, Q2 eller medianen, och Q3) samt eventuella utliggare i datan.
Det används för att visualisera fördelningen och spridningen av data och hjälper till att identifiera potentiella outliers (värden som är betydligt avvikande från resten av datan).
Boxens längd representerar interkvartilavståndet (Q3 - Q1), och linjen inuti rutan är medianen. Eventuella utliggare representeras som punkter utanför “whiskers” som sträcker sig från boxen.
Scatterplot (punktdiagram):
Ett scatterplot används för att visualisera sambandet mellan två kontinuerliga variabler. Den ena variabeln placeras på x-axeln och den andra på y-axeln.
Scatterplot är användbara för att identifiera mönster, samband och outliers i datan och ger en visuell representation av hur de två variablerna relaterar till varandra.
Korrelation:
Korrelation är ett mått på hur två variabler relaterar till varandra. Det används för att kvantifiera graden och riktningen av sambandet mellan två variabler.
Två vanliga mått på korrelation är Pearsons produktmomentkorrelation och Spearmans rangkorrelationskoefficient.
Pearsons produktmomentkorrelation:
Mäter styrkan och riktningen av ett linjärt samband mellan två kontinuerliga variabler.
Kan variera från -1 (perfekt negativ korrelation) till +1 (perfekt positiv korrelation), med 0 som ingen korrelation.
Känslig för extremvärden och kräver normalfördelade variabler.
Spearmans rangkorrelationskoefficient:
Mäter graden av monoton (icke-linjär) samband mellan två variabler.
Använder rankade värden istället för de faktiska observationerna, vilket gör den mindre känslig för extremvärden.
Mindre kraftfull än Pearsons korrelation för att upptäcka linjära samband men mer flexibel för att identifiera andra typer av samband.
Regression:
Regression är en statistisk metod som används för att modellera sambandet mellan två variabler, vanligtvis en beroende variabel (Y) och en oberoende variabel (X). Den mest grundläggande formen av regression kallas enkel linjär regression
I en enkel linjär regression används följande formel
I en enkel linjär regression används följande formel för att modellera sambandet mellan två variabler, där ‘Y’ är den beroende variabeln och ‘X’ är den oberoende variabeln: Y=b0+b1X
Nominalskala:
Den nominala skalan används för att kategorisera data i olika grupper eller kategorier.
Data på nominalskalan är i form av namn eller etiketter som representerar olika kategorier, men det finns ingen rangordning eller naturlig ordning mellan kategorierna.
Exempel: Könsidentifikation (man, kvinna), favoritfärg (röd, blå, grön) eller länders namn.
Intervallskalan
intervallskalan bygger på en ordning mellan datapunkterna och har konstanta intervall mellan värdena.
Det finns ingen absolut nollpunkt på intervalskalan, vilket innebär att nollpunkten är arbiträr och representerar frånvaron av någonting. Man kan utföra addition och subtraktion på värden, men multiplikation och division saknar mening.
Exempel: Temperatur mätt i Celsius eller Fahrenheit, årtal (beroende av hur nollpunkten definieras).
Kvotskala:
Kvotskalan har samma egenskaper som intervalskalan, men har en absolut nollpunkt som representerar frånvaron av den mätta egenskapen. Det innebär att det går att utföra alla matematiska operationer på dessa värden (tillägg, subtraktion, multiplikation och division).
Kvotskalan är den mest informativa och kraftfulla av de fyra skalorna eftersom den möjliggör förhållanden och proportioner mellan värden att jämföras på ett meningsfullt sätt.
Exempel: Längd, vikt, tid, inkomst, ålder (när det inte finns negativa värden).
Ordinalskala:
Ordinalskalan används för att rangordna data i en hierarkisk ordning där vissa objekt eller observationer är mer eller mindre än andra, men avståndet mellan dessa rangordnade objekt är inte konstant eller mätbart.
Med andra ord, på en ordinalskala kan du fastställa vilket objekt som kommer före eller efter ett annat objekt, men du kan inte säga hur mycket de skiljer sig åt.
Ordinaldata kan representeras i form av rangordnade kategorier eller betygsskalor.
Exempel: Utbildningsnivå (låg, medel, hög), smärtgrad (ingen smärta, mild smärta, måttlig smärta, svår smärta), kundnöjdhet (mycket nöjd, nöjd, neutral, missnöjd, mycket missnöjd).
Normalfördelningen,
Normalfördelningen, även känd som Gaussisk fördelning, är en symmetrisk sannolikhetsfördelning med ett välkänt klockformigt mönster.
Den är kännetecknad av sitt medelvärde (centrum) och standardavvikelse (spridning).
Många naturliga och slumpmässiga fenomen följer en normalfördelning, vilket gör den mycket viktig inom statistik.
Normalfördelning beskriver hur mycket av datan som faller inom vissa standardavvikelseintervall från medelvärdet.
Standardavvikelsen
Standardavvikelsen mäter spridningen eller variationen av datan.
Den beräknas genom att ta roten ur varians (genomsnittlig kvadrerad avvikelse från medelvärdet).
En hög standardavvikelse indikerar att datan är mer spridd från medelvärdet, medan en låg standardavvikelse indikerar att datan är närmare medelvärdet.
Standardavvikelsen används ofta för att bedöma spridningen i en normalfördelning.
Typvärde (modus):
Typvärdet är det värde som förekommer oftast i en datamängd.
En datamängd kan ha en modus (unimodal), flera modus (multimodal), eller inga modus alls om alla värden är unika.
Typvärdet är särskilt användbart för att beskriva frekvensen av kategoriska eller diskreta värden.