T4.3 Logistische regressie-analyse Flashcards

(36 cards)

1
Q

Waarom werkt lineaire regressie niet goed voor het voorspellen van dichotome variabelen?

A

Lineaire regressie is gebaseerd op continue uitkomsten en is niet geschikt voor het modelleren van kansverhoudingen, wat nodig is voor dichotome variabelen.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Wat is het logistisch regressiemodel en waar wordt het voor gebruikt?

A

Het logistisch regressiemodel wordt gebruikt voor het voorspellen van de kans op een dichotome uitkomst op basis van één of meerdere onafhankelijke variabelen.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Wat is de odds-ratio bij logistische regressie?

A

De odds-ratio bij logistische regressie is een maat voor de sterkte van de associatie tussen de onafhankelijke en afhankelijke variabelen, en geeft aan hoeveel keer meer kans er is op de uitkomst bij een eenheidstoename van de onafhankelijke variabele.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Hoe wordt de kwaliteit van een logistisch regressiemodel beoordeeld?

A

De kwaliteit van het model wordt beoordeeld aan de hand van statistieken zoals deviance, R-squared en Akaike-informatiecriterium (AIC), die aangeven hoe goed het model de data past en generaliseert naar nieuwe data.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Wat zijn enkele aannames bij logistische regressie?

A

Aannames bij logistische regressie omvatten onder andere afwezigheid van multicollineariteit tussen onafhankelijke variabelen, lineaire relatie tussen de logaritme van de kansverhouding en onafhankelijke variabelen, en afwezigheid van outliers en influential points.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Hoe verhouden de te volgen stappen bij het analyseren van een model met logistische regressie zich tot die van lineaire regressie?

A

De te volgen stappen zijn vergelijkbaar met die bij lineaire regressieanalyse, maar de onderliggende rekenmethode verschilt en vereist specifieke interpretatie van de uitkomsten.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Waarom werkt lineaire regressie niet goed voor het voorspellen van dichotome variabelen?

A

Lineaire regressie werkt niet goed voor het voorspellen van dichotome variabelen omdat het probeert een rechte lijn te passen aan data die alleen bestaat uit ‘geslaagd’ of ‘gezakt’, wat resulteert in voorspellingen buiten het bereik van 0 tot 1.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Hoe lost logistische regressie het probleem op dat lineaire regressie ondervindt bij dichotome variabelen?

A

Logistische regressie gebruikt een S-curve om de kans op een bepaalde uitkomst (bijvoorbeeld ‘geslaagd’) te modelleren, waarbij de curve een platte bodem heeft bij 0 en een plat plafond bij 1, waardoor het geschikt is voor dichotome variabelen.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Wat is de rol van de logistische curve in logistische regressie?

A

De logistische curve geeft de kans op een specifieke uitkomst weer (zoals ‘geslaagd’), waarbij de kans tussen 0 en 1 ligt, wat geschikt is voor dichotome variabelen.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Hoe verschillen de regressievergelijkingen van logistische regressie van die van lineaire regressie?

A

De regressievergelijkingen van logistische regressie zijn complexer dan die van lineaire regressie omdat logistische regressie geen lineaire functies gebruikt, wat resulteert in een andere output en het gebruik van andere termen dan bij lineaire regressie.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Wat is het doel van het logistische regressiemodel?

A

Het logistische regressiemodel wordt gebruikt om kansen te voorspellen in plaats van enkel binair (0 of 1) te voorspellen, waardoor meer flexibiliteit wordt geboden.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Wat is de logistische transformatie en waarom wordt deze gebruikt?

A

De logistische transformatie wordt gegeven door de formule ¯y = log(p/(1−p)). Het wordt gebruikt om de kans (p) te transformeren naar log-odds, wat geschikt is voor een lineair model in logistische regressie.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Hoe wordt de regressievergelijking van een logistisch model met twee predictoren weergegeven?

A

De regressievergelijking wordt weergegeven als log(p/(1−p)) = ^y = a + b1x1 + b2x2 + ϵ, waarbij x1 en x2 predictoren zijn, b1 en b2 de regressiecoëfficiënten zijn, a het intercept is, en ϵ de random error of het residu aangeeft.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Hoe kan de voorspelde log-odds worden omgezet naar een kans op succes?

A

De voorspelde log-odds worden omgezet naar een kans op succes met de formule p = exp(^y) / (1 + exp(^y)), waarbij exp verwijst naar de exponentiële functie.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Wat is het verschil tussen kansen en odds?

A

Kansen zijn een verhouding van een mogelijke uitkomst met het totaal van alle mogelijkheden, terwijl odds een verhoudingsmaat zijn tussen een gebeurtenis en de overige gebeurtenissen.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Hoe wordt de odds-ratio uitgedrukt in de output van een logistische regressie?

A

De odds-ratio wordt weergegeven als een verhouding en kan op twee manieren worden uitgedrukt: bijvoorbeeld als 1/12 of als 12/1, waarbij beide getallen vrijwel hetzelfde betekenen, maar anders worden gelezen afhankelijk van of ze hoger of lager zijn dan 1.

17
Q

Waarom is de interpretatie van regressiecoëfficiënten in het logistische model complexer dan bij gewone multiple regressie?

A

: In het logistische model betekent een stijging in x1 dat de log-odds met b1 stijgen, wat moeilijk te interpreteren is. Daarom wordt meestal alleen gekeken of de parameter b significant is en of deze de log-odds doet stijgen (b > 0) of dalen (b < 0).

18
Q

Hoe wordt de exponent van de regressiecoëfficiënten meestal weergegeven in de output van een logistische regressieanalyse?

A

De exponent van de coëfficiënten (exp(b)) wordt berekend en standaard weergegeven in de output van een logistische regressieanalyse.

19
Q

Wat wordt bedoeld met de odds-ratio in het kader van logistische regressie?

A

De odds-ratio is een verhouding tussen twee odds. Een odds-ratio groter dan 1 (b > 0, dus exp(b) > 1) duidt op een toename van de odds, terwijl een odds-ratio tussen 0 en 1 (b < 0, dus exp(b) < 1) een afname aangeeft.

20
Q

Hoe wordt de odds-ratio berekend en geïnterpreteerd?

A

De odds-ratio wordt berekend als exp(b) en geeft aan hoe de kansverhouding (odds) verandert wanneer de bijbehorende x met één eenheid stijgt. Als exp(b) > 1, neemt de kansverhouding toe, en als exp(b) < 1, neemt deze af.

21
Q

Wat betekent een exponent van de coëfficiënten (exp(b)) van meer dan 1?

A

Een exp(b) van meer dan 1 betekent dat de kansverhouding (odds) toeneemt wanneer de bijbehorende x met één eenheid stijgt.

22
Q

Wat is het doel van het voorbeeld van schoolsucces met betrekking tot logistische regressie?

A

Het doel is om te voorspellen of iemand slaagt op basis van zijn IQ-score met behulp van logistische regressie en om de interpretatie van de resultaten te begrijpen.

23
Q

Hoe wordt het logistische regressiemodel geformuleerd voor het voorbeeld van schoolsucces?

A

: Het model is log(p(uitslag=1)/(1−p(uitslag=1)))=a+b1IQ, waarbij IQ de predictor is en uitslag de afhankelijke variabele, met coëfficiënten a en b1.

24
Q

Wat wordt bedoeld met de log-odds in de context van het voorbeeld van schoolsucces?

A

De log-odds geeft de logaritme van de kansverhouding van het slagen versus niet slagen op basis van de IQ-score.

25
Hoe wordt de kans op slagen berekend voor een persoon met een IQ-score van 100 in het voorbeeld van schoolsucces?
De kans op slagen wordt berekend door de log-odds te gebruiken en deze om te zetten naar een kans met behulp van de formule p = exp(0.05) / (1 + exp(0.05)), wat resulteert in een kans van 51%.
26
Wat betekent de exponent van de regressiecoëfficiënten (exp(b1)) in dit voorbeeld?
De exponent van de regressiecoëfficiënten (exp(b1)) geeft aan hoe de odds van slagen veranderen wanneer de IQ-score met één eenheid stijgt. In dit geval is exp(0.16) gelijk aan 1.18, wat betekent dat de odds op slagen toenemen met een factor van 1.18 bij elke eenheid stijging in IQ-score.
27
Wat is de betekenis van de constante odds-ratio (1.18) in het voorbeeld van schoolsucces?
De constante odds-ratio van 1.18 betekent dat de verhouding tussen opvolgende odds (odds-ratio's) constant is. Met andere woorden, bij elke stijging van één eenheid in IQ-score neemt de kansverhouding (odds) op succes met een factor van 1.18 toe.
28
Wat is een classificatietabel en hoe wordt deze gebruikt om de kwaliteit van een model te evalueren?
Een classificatietabel wordt gebruikt om de voorspelde uitkomsten van een model te vergelijken met de werkelijke uitkomsten. Hiermee kunnen percentages correct geclassificeerde personen worden berekend, wat een maat is voor de kwaliteit van het model.
29
Wat is het belang van het percentage correct geclassificeerde personen bij het evalueren van de kwaliteit van een model?
Het percentage correct geclassificeerde personen geeft aan hoe goed het model voorspellingen maakt in vergelijking met de werkelijke uitkomsten. Dit percentage is een maat voor de kwaliteit van het model, maar kan variëren afhankelijk van het gekozen classificatiecriterium.
30
Wat is de Chi-kwadraat goodness of fit toets en hoe wordt deze gebruikt bij de evaluatie van een logistisch regressiemodel?
De Chi-kwadraat goodness of fit toets vergelijkt het logistische regressiemodel met een "leeg" model dat slechts een enkele constante bevat. Door de deviance te berekenen, kan worden vastgesteld of het toegevoegde model significant beter past dan het lege model, wat aangeeft of het toevoegen van voorspellers een verbetering in de voorspelling oplevert.
31
Waarom wordt de Nagelkerke’s R²n maat gebruikt bij logistische regressieanalyse en wat betekent een waarde van 0.54 voor deze maat in het voorbeeld?
Nagelkerke’s R²n is een pseudo-R² maat die de variabiliteit van de afhankelijke variabele verklaart. Een waarde van 0.54 betekent dat ongeveer 54% van de variabiliteit in de afhankelijke variabele wordt verklaard door het toegevoegde model, wat een redelijk goede verklaring van de variatie aangeeft.
32
Wat zijn de belangrijkste verschillen tussen de aannames van logistische regressie en lineaire regressie?
In tegenstelling tot lineaire regressie, maakt logistische regressie geen aannames over de verdeling van de residuen en veronderstelt het geen lineair verband tussen een predictor en de afhankelijke variabele. Echter, logistische regressie vereist wel een lineair verband tussen continue predictoren en de logistische transformatie van de afhankelijke variabele.
33
Waarom is het belangrijk om de lineariteit van de logit te controleren bij logistische regressie?
Het is belangrijk om de lineariteit van de logit te controleren omdat logistische regressie aanneemt dat er een lineair verband is tussen de continue predictoren en de logistische transformatie van de afhankelijke variabele. Een niet-lineair verband kan leiden tot verkeerde conclusies en slechte modelprestaties.
34
Waarom is de afwezigheid van multicollineariteit belangrijk bij logistische regressie?
De afwezigheid van multicollineariteit is belangrijk omdat hoge correlaties tussen predictoren de betrouwbaarheid van de schattingen kunnen verminderen en de kans op een type-2 fout kunnen verhogen. Het kan nodig zijn om hoog correlerende variabelen uit het model te verwijderen om deze problemen te voorkomen.
35
Doe verwerkingsopdracht 4.3!!!
36