H4 Dataverzameling & Sampling Flashcards by Loes van der Zanden

Wat is een Corpus?

Corpus (mv. corpora) is datasets die bestaan uit een grote verzameling teksten. Vaak voorzien van verschillende soorten metadata (= info over de teksten)

How well did you know this?

Not at all

Perfectly

Wetenschappelijke corpora worden beschreven in welke twee soorten publicaties?

Studies volledig gericht op het samenstellen en beschikbaar stellen van een corpus. Vaak gepubliceerd in gespecialiseerde tijdschriften en overgedragen aan nationale instanties als Corpus Gesproken Nederland
Studies die een corpus samenstellen om zelf iets te zeggen over de data. Vind je in alle gangbare tijdschriften binnen communicatiewetenschap

How well did you know this?

Not at all

Perfectly

Wat is census?

Alle data die er bestaat verzamelen.

How well did you know this?

Not at all

Perfectly

Waarom is een census niet altijd het best?

Waarom meer verzamelen als je steekproef betrouwbare conclusies geeft?
Coderen kan tijdrovend zijn, denk bij een tijdsberekening aan pauze en productiviteit
Meestal simpelweg niet praktisch haalbaar

How well did you know this?

Not at all

Perfectly

Wat is probability sampling?

Dat is een overkoepelde naam voor meerdere manieren samplen –> op basis van kans!!

How well did you know this?

Not at all

Perfectly

Welke soorten probability sampling zijn er?

Simple Random Sampling
Stratified Random Sampling
Systemic Sampling
Cluster Sampling
Multistage Sampling

How well did you know this?

Not at all

Perfectly

Wat houdt Simple Random Sampling in?

Kandidaten volledig willekeurig selecteren
bv. met lootjes of een randomizer

How well did you know this?

Not at all

Perfectly

Wat zijn de nadelen van Simple Random Sampling?

Nadeel: Vereist dat je toegang hebt tot de hele populatie
Nadeel: Kan voorkomen dat bepaalde sub-populaties niet voldoende vertegenwoordigd zijn

How well did you know this?

Not at all

Perfectly

Wat houdt Stratified Random Sampling in?

Eerst verschillende strata (sub-populaties) onderscheiden en binnen elke deelgroep een steekproef nemen

How well did you know this?

Not at all

Perfectly

Wat is een nadeel van Stratified Random Sampling?

Nadeel: Vereist een goed overzicht van de populatie met een lijst van alle leden van de verschillende sub-populaties

How well did you know this?

Not at all

Perfectly

Wat houdt Systemic Sampling in?

Willekeurig startpunt + intervalwaarde n en vervolgens selecteer je iedere Nde item dat je tegenkomt. De N waarde is gebaseerd op de grote van de populatie

How well did you know this?

Not at all

Perfectly

Wat is het nadeel van Systemic Sampling?

Nadeel: Kan een bias ontstaan in je selectie, bv. bij een vaste rotatie in een televisie programma

How well did you know this?

Not at all

Perfectly

Wat is Cluster Sampling?

Groepeer alle berichten van interesse in clusters, selecteer dan een random cluster om verder te analyseren

How well did you know this?

Not at all

Perfectly

Wat is een voordeel en wat is een nadeel van Cluster Sampling?

Voordeel: data is geconcentreerd in beperkte periode –> bespaart tijd en geld
Nadeel: Moet wel opletten dat je niet periode van uitzondering kiest (bv. reclames terwijl wk periode analyseert)

How well did you know this?

Not at all

Perfectly

Wat is Multistage Sampling?

Combineert bovenstaande strategieën.
bv. eerst een aantal clusters selecteren, vervolgens binnen cluster Stratified Random Sampling uitvoeren.
- Multistage cluster sampling: cluster sampling in een geïdentificeerde cluster

How well did you know this?

Not at all

Perfectly

Wat is non-probability sampling?

Study These Flashcards

Alternatieve benadering die vaak minder generaliseerbaar zijn maar nog steeds relevante inzichten kunnen opleveren
(niet op basis van kans)

Welke soorten Non-probability sampling zijn er?

Study These Flashcards

Convenience sampling
Purposive/judgement sampling
Quota sampling

Wat is convenience sampling?

Study These Flashcards

Kies gemakkelijk vergelijkbare gevallen
bv. studenten als doelgroep van een experimentele studie

Wat is een voordeel en nadeel van convenience sampling?

Study These Flashcards

Voordeel: erg gemakkelijk
Nadeel: niet altijd representatief of goed doordacht

Wat is Purposive/ Judgement sampling?

Study These Flashcards

Beoordeel als onderzoeker zelf of een item in het sample opgenomen moet worden of niet
- Ook belangrijk is om bij te houden wat niet voldoet aan de eisen, eventueel ook waarom!

Wat is Quota sampling?

Study These Flashcards

Zelf items kiezen voor de dataset, waarbij je zorgt dat de numerieke verhoudingen tussen de items in je dataset overeenkomen met de verhouding in de populatie (niet-kans gedreven stratified sampling)

Wat is van belang om jezelf af te vragen als je spreekt over generaliseerbaarheid naar de populatie?

Study These Flashcards

het is van belang dat je je afvraagt wie de populatie is.
In een experiment kunnen dit alleen levende wezens zijn. In een inhoudsanalyse ook levenloze dingen zoals boeken of reclames

Wat houdt representativiteit online in?

Study These Flashcards

We weten niet hoe zoekresultaten bij ons komen, dus is het van belang om kritisch te kijken. Krijg jij bijvoorbeeld dezelfde resultaten als een ander met dezelfde zoekopdracht? (denk aan filterbubbels)

Hoe doe je kritisch kijken naar het platform, met welke stappen kun je daar over nadenken?

Study These Flashcards

Inclusie en uitsluiting (patterns of inclusion)
De evaluatie van relevantie (The evaluation of relevance)
Verstrengeling met het gebruik (entanglement with practice)

Wat houdt Inclusie in uitsluiting in? (kritisch kijken naar het platform)

Wat wordt er opgenomen in de index, wat wordt er uitgesloten en hoe wordt de data bewerkt? Exclusion & demotion

Wat betekenen de termen Exclusion & Demotion (bij inclusie en uitsluiting)

Exclusion = alles tegen de richtlijnen van een platform in wordt verwijderd Demotion = soms laat het systeem bepaalde info aan minder mensen zien

Wat houdt de evaluatie van relevantie in? (kritisch kijken naar het platform)

De criteria waarmee algoritmen bepalen wat relevant is. Computers zijn objectief, maar de ontwerpers achter de systemen niet. Hoe bepaal je wat bovenaan in de zoekresultaten staat?

Wat houdt Verstrengeling met het gebruik in? (kritisch kijken naar het platform)

We kunnen technologie niet los zien van de gebruikers van de technologie en hoe zij gebruik maken van (werkelijke of ingebeelde) eigenschappen van die technologie om hun doelen te bereiken bv. YouTubers maken een typefout in hun video's, zodat meer mensen commenteer en door meer engagement pakt het algoritme het sneller op en komt de video aan meer mensen hun homepage

Op welke manieren kan je data verzamelen?

1. Handmatige dataverzameling : zelf alles verzamelen (afhankelijk van de tijd die dit kost, kan je kijken of automatiseren het waard is) - Iemand anders moet kunnen reconstrueren hoe je de data verzameld hebt - Iemand anders moet zelf een vergelijkbare dataset kunnen samenstellen op basis van jouw opgeschreven instructies 2. Automatische dataverzameling: computers doet het werk, keuze uit -Bestaande hulpmiddelen: programma's die ontwikkeld zijn om data te verzamelen van een bepaalde website of online platform (bv. instalooter) - Een zelfgeschreven script: zelf programmeren om data automatisch te verzamelen, kost veel tijd, vaak wel gebruikt om data in het juiste formaat te krijgen

Wat sla je op van je data?

-URL -Auteur -Datum (van zoekopdracht en plaatsing) -Identifier (unieke code van bron in jouw verzameling) -Zoveel mogelijk andere info

Wat moet je doen als je social media accounts van meerdere groepen gebruikt?

Dan moet je uitleggen hoe je tot die groepering bent gekomen

Wat moet je aangeven als je een zoekmachine gebruikt?

- Welke zoektermen je gebruikt -Hoeveel zoekresultaten je hebt gevonden -Hoeveel items je daarvan gebruikt hebt -Hoe je die items geselecteerd hebt

Wat is de PRISMA- methode?

Fase 1 (Identification) Records identified through database searching (n= ) & Additional records identified through other sources (n= ) gaan naar Records after duplicates removed (n = ) Gaat naar fase 2 (Screening): Records screened (n= ) en --> records excluded (n= ) Naar fase 3 (Eligibility) Full-text articles assessed for eligibility (n =) en Full-text articles excluded, with reasons (n= ) Naar fase 4 (Included) Studies included in qualitative synthesis (n= ) naar Studies included in quantitative synthesis (meta-analysis) (n = ) (plaatje is duidelijker :))

H4 Dataverzameling & Sampling Flashcards

(34 cards)