Hoorcollege 3B: Inferentiële statistiek – de basis Flashcards
(10 cards)
- Wat betekent inferentiële statistiek?
2. Wat staat centraal in IS?
- IS= op basis van steekproefgegevens een representatieve uitspraak (schattingen) doen over de populatie.
- schattingen: met een bepaalde mate van zekerheid (meestal 95%).
- populatiekenmerken: kenmerken zoals ze werkelijk zijn, hoe ze in de de werkelijkheid voorkomen.
- steekproefgegevens: data die je verzamelt in je datamatrix, dit is een stukje uit de populatie. - CENTRAAL: Aan de hand van een steekproef (50 studenten cw: steekproefgemiddelde (M en SD), wil je uitspraken doen over de hele populatie studenten cw.(populatiegemiddelde bereken je dan dus U en sigma).
> > > De kern van inferentiele statistiek: is het waarschijnlijk dat onze steekproef representatief is voor de hele populatie. Oftewel: kunnen we onze steekproefgegevens generaliseren naar een groter geheel? > steekproef van 210 kinderen, naar alle kinderen?
- Wat zijn statistische modellen?
2. Wat wordt bedoeld met een hypothetische waarde?
- We gebruiken een statistisch model om te laten zien wat er in de ‘echte wereld’ gebeurt. Kijken of je data kunt toepassen op de werkelijkheid. In de statistiek proberen we modellen zo goed mogelijk op onze data te passen (model fit: zo goed mogelijk passend model). Belangrijk is om je foutmarge zo klein is. Hoe kleiner de fout/deviatie (afstand tussen individuele score en model), hoe beter het model past, dus een betere afspiegeling is van de werkelijkheid. Elke statistiek kun je reduceren naar de volgende vergelijking: Uitkomst i = (model) + fout i.
- Het gemiddelde kan gezien worden als een simpel statistisch model, maar het is geen werkelijke waarde maar een hypothetische waarde, je kunt geen 5,67 vrienden hebben. Het gemiddelde is dus een model dat gebruikt wordt om onze data te samenvatten. Hoe beter ons model past (fit), hoe beter we vanuit de steekproef een voorspelling kunnen doen over de hele populatie (IS).
Welke letters gebruik je voor de steekproefgemiddelde en standaarddeviatie EN voor populatie gemiddelde en standaarddeviatie?
Voor de steekproef (beschrijft alleen steekproef – waaruit ze uit getrokken worden) gebruik je de Latijnse letters:
M = gemiddelde in de steekproef
SD = standaarddeviatie in de steekproef
Voor de populatie (M en SD zijn bedoeld om de hele populatie te beschrijven (terwijl bij steekproef alleen de steekproef wordt beschreven)) gebruik je de Griekse letters:
μ = gemiddelde in de populatie (mu)
σ = standaarddeviatie in de populatie (sigma)
> > > Van steekproef naar populatie > Het gemiddelde (M) en de standaarddeviatie (SD) worden uit een steekproef getrokken, maar worden gebruikt om het gemiddelde (μ) en de standaarddeviatie (σ) in de populatie te schatten.
Wat is een steekproefverdeling?
Steekproefverdeling= resultaat van verschillende steekproeven. Stel dat je niet 1 steekproef, maar een paar steekproeven trekt. Dan kunnen we een overzicht maken van al onze steekproeven: steekproefverdeling. Hypothetisch trekken we een oneindig aantal steekproeven uit de populatie en berekenen daar steeds een waarde van . Dus 1 steekproef zit je er naast het gemiddelde, dus trek je meer steekproeven, waarbij steeds andere gemiddelde tevoorschijn komen. Hoe groter je steekproef is, hoe dichter je gemiddelde dichtbij komt bij je werkelijke populatiegemiddelde.
> > > Trekt eerst allerlei gemiddelden uit steekproef, dan trek je daar weer een gemiddelde uit van al die gemiddelden en dan kom je dichtbij je werkelijke gemiddelde. Gemiddelde van alle gemiddelden van de steekproeven = komt dichtbij de U=5,52. Gemiddelde dat best wel lijkt op het echte gemiddelde
Wat stelt het Centrale limietstelling (CLS)?
CLS:
- We kunnen niet oneindig veel steekproeven trekken, dus ‘doen we alsof we veel steekproeven trekken’. Dan spreken we nu van een steekproefverdeling.
- Als onze steekproef groot genoeg is (N=100 hanteren), dan zal het gemiddelde (M) van steekproef, een goede schatting zijn van het gemiddelde van de populatie (u). Hoe groter de steekproef is, hoe dichter het gemiddelde bij de werkelijke waarde in de populatie ligt, en hoe kleiner de deviatie is. Waardoor M een goede voorspelling kan geven voor de populatiegemiddelde, als de steekproef maar groot genoeg is ===
- Als m=u, dan is M een goede voorspeller voor u (dus zuivere schatter=hoe meer steekproeven we trekken, hoe dichter het gemiddelde van de steekproefresultaten zullen liggen bij de populatieparameter). Maar bij SD is het niet gelijk sigma. Je moet dus een standaardfout gaan uitrekenen.
- De spreiding (SD) wordt bij een steekproefverdeling uitgedrukt in de Standaardfout. (Standard Error – SE.
- Wat is een betrouwbaarheidsinterval?
2. Wat zijn de kenmerken hiervan?
- betrouwbaarheidsinterval= geeft een bepaalde mate van zekerheid op de data die je hebt.= Aan de hand van een steekproef een schatting geven wat, met een bepaalde mate van zekerheid, in de populatie de minimum- en maximumwaarde van een variabele zal zijn.
- Je wilt een zekerheid hebben van 95%. Wanneer je 100 steekproeven zou trekken, daar een gemiddelde en een betrouwbaarheidsinterval voor zou berekenen, ,dan zou in 95 van deze steekproeven het betrouwbaarheidsinterval de werkelijke waarde van het gemiddelde in de populatie bevatten.
- Steekproefgemiddelde als beginpunt.
- De rode markeringsstrepen geven het minimum- en maximumbereik van het interval aan. We noemen dit de kritieke grenswaarden of de overschrijdingskans.
- Overschrijdinskans= de kans op een waarde hoger of lager dan die bepaalde waarde. De overschrijdinskans bij 95% zekerheid is dan 1,96.
- Bij een normale verdeling geldt de overschrijdingskans:
95% van de observaties ligt tussen de -1,96 en 1,96
99% van observaties ligt tussen de -2,58 en de 2,58
99,9% van de observaties ligt tussen de -3,29 en de 3,29 - Die minteken bij het begin in de formule staat voor de minimumwaarde en de + is voor de maximumwaarde.
- Omdat je een uitspraak wil doen over de hele populatie en niet alleen van je steekproef, moet je de betrouwbaarheidsinterval zo formuleren: ‘met 95% zekerheid (kopen tantes) IN DE POPULATIE gemiddeld (tussen de 4,07 en 11,92 cadeautjes voor hun neefjes en nichtjes)’.
- Wat betekent statistische significantie?
- Wat is het doel van statistische significantie?
- Wat is gebeurd er als een resultaat statistisch significant is?
- Wat houden de null-en de alternatieve hypothese in?
- Hoe schrijf je de null-en alternatieve hypothese?
- significant is, oftewel of we het resultaat dat we hebben gevonden in de steekproef ook kunnen generaliseren naar de populatie. Wanneer iets ‘statistisch significant’ is, betekent dat, dat iets niet toe te schrijven is aan toeval.
- Doel= van statistische significantie is een resultaat te generaliseren van een aselecte, representatieve steekproef naar een populatie (en toetsen van de populatie).
- Gevolg als iets (statistisch) significant is= het verwerpen van de nullhyothese en alternatieve hypothese accepteren/aannemen.
- Nullhypothese= over het algemeen stelt dat iets in de populatie niks is, geen verband/geen effect/geen samenhang tussen variabelen. Met die nullhypothese schetst je een situatie hoe die in de populatie zou zijn. Je doet netalsof je die populatie kent en gaat dan toetsen of je nullhypothese waar is. Maar eigenlijk wil je wel iets zeggen dat er effect is. Dit houdt de alternatieve hypothese in= die zegt dat er wel een verband/effect/samenhang is. We verzamelen data om die nullhypothese te verwerpen. Het betekent alleen niet as je de nullhypothese verwerpt, dat de alternatieve 100% waar is, de alternatieve hypothese is dan een betere afspiegeling van de echte populatie.
- Nullhypothese: H0 : μ = getal »_space;> Er is geen verschil tussen het populatiegemiddelden tussen respondenten. (bv. iedereen werkt 27 uur per week).
Alternatieve hypothese: H1 : μ ≠ getal»_space;> Er is wel een verschil tussen het populatiegemiddelden tussen respondenten. (bv. iedereen werkt meer of minder dan 27 uur per week).
NHST (Null Hypothesis Signifance Testing).
- Wat wordt bedoeld met significantieniveau?
- Wat is de significantie (p)?
- Samenvatting van H0, H1 en significantie.
- Statistisch significant betekent dat je H0 mag verwerpen, met een maximale kans om dit ten onrechte te doen. Dus de kans a=0,05 (standaard afgesproken in sociale wetenschap) is dat je mag vergissen en H0 toch niet verwerpt. Deze maximale kans heet het significantieniveau. Hoe kleiner die kans, hoe meer kans dus om H1 aan te mogen nemen. Significantieniveau (a)= vooraf bepaalde kans.
> > > VOORBEELD: Maximale kans 5%. Dus valt die kans onder de 0,05? Dus p= 0,002 dan is het resultaat (statistisch) significant en dus verwerpen we de nullhypothese en dus nemen we H1 aan!
- =de kans dat we een model krijgen waarbij de nulhypothese waar zou zijn= uitkomst van de toets.
Dus als p < a (p is kleiner dan de standaard/afgesproken a)= statistisch significant resultaat, dus verwerpen we H0, en nemen we H1 aan. - We stellen een nulhypothese op (hypothetische waarde (je doet alsof je weet wat een bepaalde waarde in de populatie is) / geen verband / geen effect).
- We stellen een significantieniveau vast = a= 0,05
- We trekken een steekproef, liefst N=100 (vanwege CLS)
- We doen analyses met onze data in de steekproef, en vergelijken die met de nulhypothese.
- Hoe groter het verschil, hoe onwaarschijnlijker de H0 waar is
- We verwerpen de H0.
- We accepteren de H1.
- We noemen het (resultaat) significant.
- We stellen een nulhypothese op (hypothetische waarde (je doet alsof je weet wat een bepaalde waarde in de populatie is) / geen verband / geen effect).
(toets op één gemiddelde (t) (one sample t-test))
- Wanneer pas je een t-toets toe?
- Wat is toetsgrootheid?
- Welke standaard stappen moet je volgen bij het toetsen van t (+voorbeeld)?
- Hoeveel effect zijn er in getallen bij de effectgrootte? (Cohen’s d)
1 .
- bij 1 variabele, die op minimaal intervalniveau gemeten is.
- moet normaal verdeeld zijn, om kansen te kunnen berekenen. (N=100 door CLS).
> > > t-toets gebruik je wanneer je vanuit een steekproef een uitspraak wilt doen over de populatie.
> > > Toetsen of de nulhypothese waar kan zijn.
- Toetsgrootheid?
t. (toetsgrootheid= daar waar je een toets mee uitvoert, met bijhorende significantietabel, tabel met overschrijdingskansen). - Scenario: Vermoeden: jongeren besteden meer dan 5 uur per dag aan sociale media.
Variabele: aantal uur per dag sociale media = interval.
Steekproef onder 159 jongeren.
- Scenario: Vermoeden: jongeren besteden meer dan 5 uur per dag aan sociale media.
Stappen t-toets:
- Stap 1: welke nul- en alternatieve hypothesen moet ik opstellen?
H0: µ= 5. H1: µ≠ 5.
- Stap 2: welke toetsgrootheid heb ik nodig?
Toetsgrootheid: t. - Stap 3: wat is mijn significantieniveau (α)?
Standaard: α = 0,05 - Stap 4: wat is mijn overschrijdingskans (kritieke grenswaarde)?
Overschrijdingskans: die je opzoekt bij 0,05 is het dus 1,96 (tkrit). Bij t, is de overschrijdingskans afhankelijk van degress of freedom (df: dit is N-1 altijd). Dus N=159-1= 158. - Stap 5: wat is de waarde van de toetsgrootheid?
Steekproef: N=159, M=4,5 en SD=2,156.
t= formule. Dus t= -2,924. - Stap 6: vergelijk de overschrijdingskans met de waarde van de toetsgrootheid.
t = -2,924 tkrit = (-)1,96. Wanneer de toetsgrootheid (t) groter is dan je kritiekwaarde (rechteroverschrijdingskans of kleiner dan de linkeroverschrijdingskans), verwerp je de nulhypothese. Valt de toetsgrootheid in het grote vlak, verwerp je juist de alternatieve en niet meer de nullhypothese.
- Stap 7: trek een conclusie. De toetsgrootheid (t) valt in het verwerpingsgebied van H0. We verwerpen daarom H0. We hebben voldoende bewijs om aan te nemen dat H1 waar is. Conclusie: uit een steekproef op één steekproefgemiddelde blijkt dat jongeren minder dan 5 uur gebruik maken van sociale media (M=4,50, SD=2,16). Dit blijkt significant, t(158)=-2,93, p < 0,05, d=0,15 (
Hoe moet je de one sample t-test in spss doen?
(one sample t-test is in spss, dit dan ook in conclusie zeggen, steekproefgemiddelde: is met de hand).
In spss moet je klikken op ‘compare means’> one sample t-test. En dan moet je bij test value je H0 intypen. En je kan dan ook je betrouwbaarheidsinterval bij ‘options’ veranderen (dit staat meestal op 95%). Als je dus niet de tabel van overschijdingskansen kan bekijken, kun je kijken naar ‘sig 2 tailed = p: significantie). Is het onder de 0,05 (a), dan is het significant? Of je kan kijken onder de cel ‘‘t’= daar staat 2,052, dit is groter dan 1,96 (overschrijdingskans van 95%), dus significant, dus H0 verwerpen.
> > > De betrouwbaarheidsinterval kun je berekenen door H0 op te tellen met minimum en maximumwaarde.