belangrijk Flashcards
(25 cards)
WAAR OF NIET WAAR:
Bij de partiële verklaarde variantie, wordt gekeken naar het deel van y dat niet verklaard wordt door de andere IV’s
waar
Geen multicollineariteit
a. VIF lager dan 4<
b. VIF hoger dan 4>
C. VIF lager dan 1<
D. VIF hoger dan 1>
A
WAAR OF NIET WAAR:
de pooled standard deviation wordt gebruikt voor het schatten van de common standard deviation
WAAR: pooled sd geeft meer gewicht aan grotere groepen
WAAR OF NIET WAAR:
Als ANOVA gebruik wordt voor de vergelijking van 2 gemiddelden, dan is de F test statistic in ANOVA
gelijk aan t^2
WAAR
WAAR OF NIET WAAR:
Multicollineariteit = een extreem sterke correlaties tussen de afhankelijke variabelen
NIET WAAR: extreem sterke correlatie tussen ONafhankelijke variabelen (voorspellers)
WAAR OF NIET WAAR
hypotheses bij lineaire regressie
is R2 en/of beta toetsen tov 0!
WAAR
WAAR OF NIET WAAR:
Je voert een ANOVA uit met 4 voorspellers. Je stelt deze hypothese op:
H0 : μ1 = μ2 = μ3 = μ4 = 0
NIET WAAR. bij de one-way ANOVA,
vergelijken we de groepsgemiddelden
(van de between-factor) ten
opzichte van elkaar
EN NIET TOV 0!!!
Wat moet je doen als je de proportie unieke verklaarde variantie probeert uit te rekenen van de tweede
voorspeller uit Y,
wat niet verklaard wordt door de andere voorspeller?
a. De partiële correlatie
b. De semi partiële correlatie
c. De partiële correlatie en dit antwoord kwadrateren
d. De semi partiële correlatie en dit kwadrateren.
C
verklaarde variantie = correlatie kwadrateren!!!
(-0.486)2 =0.236 = verklaarde variantie!!
proportie verklaarde variantie kan nooit negatief zijn
want proporties liggen altijd tussen e 0 en de 1
Wat is, indien mogelijk, de beste manier om vast te stellen dat een waargenomen
associatie/samenhang het resultaat is van een oorzaak-gevolgrelatie?
a) Gebruik maken van een gerandomiseerd experiment
b) Onderzoeken van de gestandaardiseerde variabele in plaats van de oorspronkelijke
variabelen
c) Verkrijgen van de correlatiecoëfficiënt
d) Bestuderen van de least-squares regression line
a) Gebruik maken van een gerandomiseerd experiment
hoe bereken je de Overall error rate formule
k= Aantal groepen * (aantal groepen -1) /2
1-(1-alpha)^k
Waar of niet waar:
Model assumpties bij ANOVA
Homoscedasticiteit,
normaliteit en lineair
Niet waar:
Homoscedasticiteit: sd van alle groepen zijn gelijk (grootste sd is kleiner dan 2x kleinste sd)
Normaliteit: scores binnen groepen hebben een normaal verdeling
Simpel random samples (SRS): waarnemingen binnen groepen zijn onafhankelijk
Waar of niet waar:
Een F verdeling wordt altijd gekenmerkt met een DF van 3
Fout van 2
Assumpties bij MLR en wat je kunt doen:
- normale verdeling van uitschieters
- Homoscedasticiteit
- onafhankelijkheid van x
- lineaire relatie
- geen collineariteit
- Qq plot
- residuals bekijken
- ## steekproef mag niet worden beïnvloed
- geen correlatie tussen variabelen: mogen elkaar dus niet beïnvloeden
Hoe bereken je de sp
Met de formule of de wortel van de MSE
R2 berekenen
Ssm/sst
Wat gebeurt er met gestandaardiseerde regressiecoefficienten
Door gestandaardiseerde r wordt het eenheidsvrij en kun je zien of het groot effect of minder groot effect heeft
Alle waardes worden gestandaardiseerd, het gemiddelde wordt 0 en de SD wordt 1. Het intercept verdwijnt dus.
B1= b1SDx/SDy - beta 1
Een artikel in de studentenkrant van een grote universiteit had de kop “Hoge cijfers voor goede
evaluaties?” Het artikel bevatte de volgende alinea:
Volgens een nieuwe studie zouden docenten meer geneigd kunnen zijn om studenten hogere
cijfers te geven, in de hoop daarmee in de gunst te komen bij de universiteitsbestuurders die
de vaste aanstelling van docenten toekennen. De studie onderzocht het gemiddelde cijfer en
de onderwijsevaluatie in een groot aantal cursussen om de effecten van opgeblazen cijfers op
de evaluaties te onderzoeken. “Ik maak me zorgen over de studentenevaluaties omdat
onderwijs voor sommige docenten een populariteitswedstrijd is geworden,” zei professor
Smith, die de studie onlangs afrondde. Uit de resultaten bleek dat hogere cijfers direct
overeenkwamen met een positievere evaluatie.
Welke van de volgende conclusies zou een geldige conclusie zijn van deze studie?
a) Docenten van vakken waarvan het gemiddelde cijfer bovengemiddeld is, hebben blijkbaar
ook een bovengemiddelde onderwijsevaluatie
b) Een docent kan zijn of haar onderwijsevaluaties verbeteren door goede cijfers te geven
c) Een goede docent, gemeten aan de hand van onderwijsevaluaties, helpt studenten beter te
leren, wat resulteert in hogere cijfers
d) Alle opties zijn geldige conclusies
a) Docenten van vakken waarvan het gemiddelde cijfer bovengemiddeld is, hebben blijkbaar
ook een bovengemiddelde onderwijsevaluatie
Er is een vragenlijst gestuurd naar 100 sportende studenten aan de universiteit en er zijn antwoorden
van 35 studenten ontvangen. De onderzoekers wilden nagaan of de burgerlijke staat en het
geluksniveau van de ouders van de studenten een voorspellende factor waren voor het
zelfgerapporteerde sportniveau van de student.
De toetsingsgrootheid (test statistic) die wordt gebruikt om de nulhypothese te toetsen dat de
burgerlijke staat en het geluksniveau van de ouders geen invloed hebben op sportniveau van een
student, is gebaseerd op welke verdeling?
a) F verdeling
b) Binomiale verdeling
c) Normale verdeling
d) t verdeling
a) F verdeling
Welke van onderstaande opties is een aanname van het lineaire regressiemodel?
a) Onafhankelijkheid tussen afhankelijke variabele en predictor
b) Constante standaarddeviatie van de residuen voor elke waarde van de afhankelijke variabele
c) De residuen zijn normaal verdeeld
d) Alle opties zijn aannames van het lineaire regressiemodel
c) De residuen zijn normaal verdeeld
In een multipele regressie is de F-test voor het overall model zeer significant, maar geen van de twaarden voor de afzonderlijke predictors is significant.
Wat is een mogelijke oorzaak van deze situatie?
a) Multicollineariteit van de predictors
b) Heterogene variantie van de residuen
c) Niet-normaliteit van de residuen
d) Niet-lineaire relatie tussen de afhankelijke variabele en de predictors
a) Multicollineariteit van de predictors
Bij welke van de volgende onderzoeksvragen zou je een 2-weg ANOVA-model kunnen gebruiken voor
de analyse?
a) Bepalen je lievelingskleur (rood, groen, blauw, of roze) en je gewicht (overgewicht,
ondergewicht, of passend gewicht) of je eerste kind een jongen of een meisje zal zijn?
b) Is je score op het deeltentamen een goede voorspeller van je score op het eindtentamen?
c) Is het aantal dagen dat je per week sport van invloed op je gewichtsverlies?
d) Hebben je stressniveau (hoog of laag) en de mate van hechte vriendschappen (meerdere
hechte vrienden of weinig hechte vrienden) effect op het aantal dagen dat je ziek bent per
jaar?
d) Hebben je stressniveau (hoog of laag) en de mate van hechte vriendschappen (meerdere
hechte vrienden of weinig hechte vrienden) effect op het aantal dagen dat je ziek bent per
jaar?@
Welke van onderstaande uitspraken is JUIST?
a) De mediaan van de likelihood ligt altijd tussen de mediaan van de prior distribution en de
mediaan van de posterior distribution
b) De mediaan van de prior distribution ligt altijd tussen de mediaan van de posterior
distribution en de mediaan van de likelihood
c) De mediaan van de posterior distribution ligt altijd tussen de mediaan van de prior
distribution en de mediaan van de likelihood
d) Het hangt van de situatie af welk alternatief juist is
c) De mediaan van de posterior distribution ligt altijd tussen de mediaan van de prior
distribution en de mediaan van de likelihood@
Een onderzoeker verzamelt gegevens in batches van 25 metingen, berekent de p-waarde van zijn
onderzoek na elke batch en stopt met het verzamelen van gegevens zodra een significant resultaat is
gevonden.
Waarom is dit problematisch?
a) De kans op een type I-fout wordt hierdoor aanzienlijk vergroot
b) Dit is in strijd met de aanname van constante variantie
c) Op deze manier riskeert de onderzoeker dat hij al na de eerste batch een significant resultaat
vindt en n=25 is te laag voor betrouwbare resultaten
d) Het is mogelijk dat zelfs na vele batches de p-waarde nog steeds niet significant is. Deze
aanpak kan dus te veel vragen van de tijd en inspanning van de onderzoeker
a) De kans op een type I-fout wordt hierdoor aanzienlijk vergroot
Een onderzoeker verzamelt bij 500 mannen en vrouwen tussen 18 en 65 jaar gegevens over hun
houding ten opzichte van het milieu. Er werden geen van tevoren vastgelegde
onderzoekshypothesen geformuleerd. Na bestudering van de gegevens besluit de onderzoeker een
manuscript te schrijven met de titel “Grumpy old men: Waarom mannen van 50 jaar en ouder
negatief staan tegenover het milieu”.
Wat is hier gebeurd?
a) De onderzoeker doet aan optional stopping
b) Het onderzoek heeft waarschijnlijk een hoge power vanwege een grote steekproef
c) De onderzoeker doet aan HARKing
d) Alle bovenstaande
a) De onderzoeker doet aan HARKing @