Hva er konfidensintervall?
: En rekkevidde av verdier rundt en testobservator som er antatt å inneholde, i x % av utvalgene, den sanne verdien til observatoren.
kan si oss noe om nøyaktighet
Bruksområder
* Konfidensintervaller kan brukes som et alternativ til p-verdier
* Konfidensintervaller indikerer usikkerheten i estimatet
* r = 0.74, p < .001
* Eller * r = 0.74, 95% CI[0.51, 0.86]
Hva er korrelasjon?
Sammenhengen mellom to eller flere kontinuerlige variabler
Hva er eksempler på korrelasjonskoeffisienter og hva sier de?
Kom med et eksempel på hvordan man kan rapprotere pearsons r?
Det var en signifikant, positiv sammenheng mellom klokkenes alder og pris, r(30) = .73, p < .001
der n=32. husk kursiv r og p.
r([df]) = [r], p = [p] df = n – (antall variabler i analysen)
HVordan finner man signifikans i en korrelasjonsanalyse?
r regnes om til en t
kan sammenligne t med t-fordeling
gir signigikansnivå
t= r * sqrt(N-2)/sqrt(1-r^2)
hva kan forklare en korrelasjon?
Hva er partiell korrelasjon?
Modellert med mer enn to variabler
y = a1x1 + a2x2 + … + anxn + c + E
Hva er regresjonskoeffisienter?
Regresjonskoeffisienter: Testobservatoren til regresjonsanalysen
Altså stigningstallet
Finnes under coefficents-tabell i JASP under Unstandardized for M0, M1 osv.
I regresjon kaller vi ofte de uavhengige variablene for prediktorer, og den avhengige variabelen for utfallet (merk at dette impliserer kausalitet)
Hva er GLM og hvordan kommer man frem til den?
Y_i =b_0 + b_1X_1i + E_i
= den generelle lineære modellen
Linja kommer man fram til ved en algoritme som kalles ordinary least squares (OLS). Den finner linja som skaper minst residualer
altså minst kvadrater mellom punkter og linja
hvor finner man om de ulike relevante resultatene for enkel GLM regresjon i JASP med to variabler?
Under koeffisient tabell:
b_0 = c = skjæringspunkt = kolonne unstandardized, rad M1, intercept
b_1 = a1 = stigningstall = kolonne unstandardized, rad M1, variabel man ser på
p = signifikansniv = kolonne p, rad M1, intercept
(sier om det er signifikant smhng mel. 2 variabeler
kan vi undersøke kausalitet med regresjon?
ja, men avh. av forskningsdesign
og praktisk:
- hvor god er modell
kan vi si noe om populasjon
hva er effektstr.?
Hva er multippel regresjon?
Når vi har flere prediktorer i modellen, får vi en multippel regresjonsmodell
I det virkelige liv finner vi sjeldent forhold som er så enkle som X-> Y
- flere ting kan tenkes å påvirke y
y = a1x1 + a2x2 + … + anxn + c + E
Fra enkel lineær regresjon kan vi nå:
Vi kan nå snakke om modellens effekt og prediktorenes effekt.
* Vi kansammenlikne effekten av de to prediktorene
Hvordan kan man sammenligne effektstørrelse i multippel regresjon?
Vi lurer på: * Hvilken prediktor har sterkest effekt?
* Hvis prediktorene har samme skala, kan vi sammenlikne dem direkte.
ellers kan man sammenligne gj. standardisering
Hvordan kan man sammenligne regresjonskokeffisienter?
Akkurat som for korrelasjon blir pverdien regna ut ved å gjøre om β til t.
Hvor i JASP finner man de aktuelle resultatene:
Vi undersøkte effekten av trening og bruk av sosiale medier på opplevd glede. Modellen var signifikant, F(92, 2) = 8.96, p < .001, R2 = .16. Bruk av sosiale medier hadde sterkest effekt, β = -.31, p = .001, men også trening hadde en signifikant effekt, β = .21, p = .03
F(dfresidual, dfregression) = F-verdien, p = p-verdien, R2 = R2-verdien
F(92,2) = 8.96, p < .001, R2 = .16.
92 = Tabell ANOVA, kolonne df, rad M1, residual
2 =Tabell ANOVA, kolonne df, rad regression
8.96 = Tabell ANOVA, kolonne F, rad M1 øvserst
p = tabell ANOVA, kolonne p, rad M1
R2 = Tabell model summary for avhengig variabel, Kolonne R2, rad M1, bare gjør om fra 0.16 til 16
BETYR
* Modellen forklarer 16 % av variansen i glede, p < .001
Bruk av sosiale medier hadde sterkest effekt, β = -.31, p = .001,
-.31 = tabell coefficients, kolonne standardized, rad M1 sosmed
p = .001: tabell coefficients, kolonne p, rad M1 sosmed
men også trening hadde en signifikant effekt, β = .21, p = .03
.21 = tabell coefficients, kolonne standardized, rad M1 trening
p = tabell coefficients, kolonne p, rad M1 trening
Hva er poenget med regresjonsmodeller?
Hva er forutsetningene for OLS regresjon?
Hvis forutsetningene er brutt
* Avhenger av hvilke forutsetninger det gjelder
* Kan (vanligvis) fortsatt bruke regresjonskoeffisientene, med mindre estimatene er biased
*Signifikanstesting/konfidensintervaller påvirkes: kan dermed ikke generalisere
Hvordan vet man at modellen er korrekt spesifisert
= forutsetning for OLS regresjon
Variablene varierer. Ingen variabel har 0 i varians
Hva er polytom?
Polytom: kategorisk variabel med flere enn to kategorier
Hva betyr det at modellen er additiv og lineær?
= forutsetning for OLS modell
Håndtere brudd: * Bruk en annen modell
Undersøke: * Se på grafer med variablene
Hva er problemene med statistiske uteliggere?
Forutsetning for OLS: Ingen statistiske utliggere (ekstremverdier)
Undersøke:
Frekvensfordeling
Boxplot:
* Median er midten
* Boksen omfatter ca 50 % av skårene rundt midten
* «Bartene» omfatter topp og bunn ca25 % av skårene (foruten utliggere og ekstremskårer).
Håndtere:
* Fjerne utliggerne (trim)
* Transformere utliggerne (Windsorising)
* Transformere variablene (log-transform)
* Gjøre sensitivitetsanalyser uten utliggerne
Hva er innflytelsesrike tilfeller?
Relatert til statistiske uteliggere
* Influential cases.
* Modellen blir påvirka i stor grad av enkeltobservasjoner
* Fører til biased estimater
Hva er homoskedasitet?
Forutsetning for OLS
Homoskedastisitet: lik varians
* Heteroskedastisitet: ulik varians
* Blir Y påvirka av variasjonen i X?
* Hvis det er ulik variasjon i Y på de forskjellige nivåene av X, er forutsetninga brutt
Undersøke
* Levenestest
* H0: Det er lik varians
* H1: Det er ulik varians
* Signifikant Levenes test indikerer homoskedastisitet
* Plots: Standardiserte residualer vs. predikerte, standardiserte, verdier av Y.
-«Firkanta» grafer indikerer homoskedastisitet
Hva mener vi med at det må være normalfordeling i forutsetning for OLS?
Residual: Differansen mellom predikert (ut fra modellen) Y og observert Y. *
Dersom observasjonene er normalfordelte, er også residualene det.
* Antakelsen derfor ofte misforstått som «dataene må være normalfordelt»
* Ofte blir residualene standardisert for å lettere tolkes: via z-skårer
Undersøke :
* Kolmogorov-Smirnov og Shapiro-Wilker tester som sammenlikner observasjonene med en normalfordeling med samme snitt og standardavvik
* p> .05: Variablene er ikke normal-fordelte
* Om variablene er normalfordelte, er det sannsynlig at residualene også er det (men ikke motsatt).
* P-P plot (probability-probability): Den kumulative fordelinga til en variabel plottes mot en ideell fordeling (her: normalfordelinga). Begge gjøres om til z-skårer (standardiseres).
* Q-Q plot (quantile-quantile): P-P plot, men med fraktiler (quantiles)
* Fordelingen til alle residualene
Normalfordelt utvalgsfordeling
Utvalgsfordelinga: Vi trekker mange utvalg, regner ut en parameter per utvalg, og viser fordelinga til alle parameterne.