H4 Dataverzameling & Sampling Flashcards
(34 cards)
Wat is een Corpus?
Corpus (mv. corpora) is datasets die bestaan uit een grote verzameling teksten. Vaak voorzien van verschillende soorten metadata (= info over de teksten)
Wetenschappelijke corpora worden beschreven in welke twee soorten publicaties?
- Studies volledig gericht op het samenstellen en beschikbaar stellen van een corpus. Vaak gepubliceerd in gespecialiseerde tijdschriften en overgedragen aan nationale instanties als Corpus Gesproken Nederland
- Studies die een corpus samenstellen om zelf iets te zeggen over de data. Vind je in alle gangbare tijdschriften binnen communicatiewetenschap
Wat is census?
Alle data die er bestaat verzamelen.
Waarom is een census niet altijd het best?
- Waarom meer verzamelen als je steekproef betrouwbare conclusies geeft?
- Coderen kan tijdrovend zijn, denk bij een tijdsberekening aan pauze en productiviteit
- Meestal simpelweg niet praktisch haalbaar
Wat is probability sampling?
Dat is een overkoepelde naam voor meerdere manieren samplen –> op basis van kans!!
Welke soorten probability sampling zijn er?
- Simple Random Sampling
- Stratified Random Sampling
- Systemic Sampling
- Cluster Sampling
- Multistage Sampling
Wat houdt Simple Random Sampling in?
Kandidaten volledig willekeurig selecteren
bv. met lootjes of een randomizer
Wat zijn de nadelen van Simple Random Sampling?
Nadeel: Vereist dat je toegang hebt tot de hele populatie
Nadeel: Kan voorkomen dat bepaalde sub-populaties niet voldoende vertegenwoordigd zijn
Wat houdt Stratified Random Sampling in?
Eerst verschillende strata (sub-populaties) onderscheiden en binnen elke deelgroep een steekproef nemen
Wat is een nadeel van Stratified Random Sampling?
Nadeel: Vereist een goed overzicht van de populatie met een lijst van alle leden van de verschillende sub-populaties
Wat houdt Systemic Sampling in?
Willekeurig startpunt + intervalwaarde n en vervolgens selecteer je iedere Nde item dat je tegenkomt. De N waarde is gebaseerd op de grote van de populatie
Wat is het nadeel van Systemic Sampling?
Nadeel: Kan een bias ontstaan in je selectie, bv. bij een vaste rotatie in een televisie programma
Wat is Cluster Sampling?
Groepeer alle berichten van interesse in clusters, selecteer dan een random cluster om verder te analyseren
Wat is een voordeel en wat is een nadeel van Cluster Sampling?
Voordeel: data is geconcentreerd in beperkte periode –> bespaart tijd en geld
Nadeel: Moet wel opletten dat je niet periode van uitzondering kiest (bv. reclames terwijl wk periode analyseert)
Wat is Multistage Sampling?
Combineert bovenstaande strategieën.
bv. eerst een aantal clusters selecteren, vervolgens binnen cluster Stratified Random Sampling uitvoeren.
- Multistage cluster sampling: cluster sampling in een geïdentificeerde cluster
Wat is non-probability sampling?
Alternatieve benadering die vaak minder generaliseerbaar zijn maar nog steeds relevante inzichten kunnen opleveren
(niet op basis van kans)
Welke soorten Non-probability sampling zijn er?
- Convenience sampling
- Purposive/judgement sampling
- Quota sampling
Wat is convenience sampling?
Kies gemakkelijk vergelijkbare gevallen
bv. studenten als doelgroep van een experimentele studie
Wat is een voordeel en nadeel van convenience sampling?
Voordeel: erg gemakkelijk
Nadeel: niet altijd representatief of goed doordacht
Wat is Purposive/ Judgement sampling?
Beoordeel als onderzoeker zelf of een item in het sample opgenomen moet worden of niet
- Ook belangrijk is om bij te houden wat niet voldoet aan de eisen, eventueel ook waarom!
Wat is Quota sampling?
Zelf items kiezen voor de dataset, waarbij je zorgt dat de numerieke verhoudingen tussen de items in je dataset overeenkomen met de verhouding in de populatie (niet-kans gedreven stratified sampling)
Wat is van belang om jezelf af te vragen als je spreekt over generaliseerbaarheid naar de populatie?
het is van belang dat je je afvraagt wie de populatie is.
In een experiment kunnen dit alleen levende wezens zijn. In een inhoudsanalyse ook levenloze dingen zoals boeken of reclames
Wat houdt representativiteit online in?
We weten niet hoe zoekresultaten bij ons komen, dus is het van belang om kritisch te kijken. Krijg jij bijvoorbeeld dezelfde resultaten als een ander met dezelfde zoekopdracht? (denk aan filterbubbels)
Hoe doe je kritisch kijken naar het platform, met welke stappen kun je daar over nadenken?
- Inclusie en uitsluiting (patterns of inclusion)
- De evaluatie van relevantie (The evaluation of relevance)
- Verstrengeling met het gebruik (entanglement with practice)