examenvragen Flashcards
(83 cards)
Leg uit: “you shall know a word by the company it keeps”
distributionele hypothese in het taalmodel. We kunnen de betekenis van woorden afleiden uit de context, adhv de omringende woorden
Waarom is part-of-speech tagging een desambigueringstaak?
Woorden op zich zijn vaak ambigu en je kan de juiste betekenis bepalen door te kijken naar de omringende woorden. Door te kijken naar de context kan je de woordsoort bepalen waardoor de betekenis duidelijk wordt.
Wat zijn digital humanities?
- onderzoeksdomein op het kruispunt van computer- of digitale technologieën en de Humanities of geesteswetenschappen.
Humanities is een term uit de renaissance, er was toen een shift van god die centraal stond in het wereld beeld naar de mens die centraal staat.
Digital Humanities is dus een systematisch gebruik van digitale bronnen en methodes (databanken, tekstanalysetools, programmeertalen, visualisaties,…) in de geesteswetenschap en de analyse van hun toepassing.
Het doel ervan is om onderzoek in de humanities te verzamelen, organiseren, analyseren en presenteren met behulp van computationele methodes.
Het ultieme doel is om nieuwe vragen te stellen en te beantwoorden, en oude vragen op een nieuwe manier te behandelen.
Voorbeeldprojecten + kenmerken DH projecten
- Digital humanities @ Stanford
- informatie gelinkt aan geografische informatie zodat analyse op kaart mogelijk is - Ghent center for digital humanities
- interdisciplinair: onderzoekers uit geschiedenis, literatuurwetenschappen die samenwerken met informatici - Verdwenen zwinhavens
- wordt gedaan adhv niet invasieve methodes zoals virtual reality om het landschap intact te houden - Wechanged
- netwerken vinden van vrouwelijke editors van de 18e en 20ste eeuw
- database opgebouwd op basis van informatie over die editors en de informatie wordt op geografische manier gelinkt om patronen te ontdekken - CUNE-IIIF-ORM
- spijkerschrift automatisch omzetten naar transliteratie om eigenamen en belangrijke concepten uit de kleitabletten te extraheren op een automatische manier - Digital transgender archive
-vanuit 60 instellingen alle data samengebracht in 1 database - Torn Apart
- geospatial info linken aan tekst: info uit allerlei databanken aan elkaar linken en geografisch visualiseren
Beknopte geschiedenis van DH
- DH stamt af van het gebied van humanities computing
- 1966: eerste tijdschrift “computers and the humanities”, mensen houden zich steeds op een meer systematische manier bezig met digital humanities
- 1987: TEI (Text Encoding Initiative): protocol voor het tangen van digitale teksten: heeft mee veld van elektronische wetenschap vorm gegeven en heeft geleid tot XML-standaard, die de basis was voor het latere HTML. Er is hier voor het eerst echt een standaard.
- ‘90: digitale tekst en beeldarchieven
- Komst PCs en www: meer aandacht voor design en multimedia waardoor er een shift komt van puur tekst naar andere media die ook kunnen toegevoegd worden aan die databanken
- 2004: bundel A Companion to DH: eerste keer dat de term gebruikt wordt, vanaf dan spreekt men over de Computationele wending: gebruik van computers (op grote schaal) binnen de humanities
- 2009: MLA-conventie waar het vakgebied van de DH vormgegeven wordt
Voornaamste punten van kritiek op DH
- gebrek aan kritisch nadenken over implicaties van computationele denkbeelden
- ” zwarte doos”: wetenschappers gebruiken tools waarvan ze niet weten hoe ze ze moeten gebruiken
- gebrek aan diversiteit: vooroordelen die invloed hebben op de tools
- gebrek aan focus op pedagogiek: beurzen vooral gericht op onderzoek, minder op onderwijsinnovatie
Wat is digitale tekstanalyse?
Gebruik van digitale tools voor de automatische analyse van teksten
Verschil tussen close en distant reading
Close reading is het lezen en manueel analyseren van teksten. Distant reading is de computationele analyse van teksten om patronen te vinden in grote tekstcollecties (die je als mens niet opmerkt als je teksten leest).
Waar moet je op letten bij het verzamelen van corpora?
Het is belangrijk om aan het doel te denken, wat je achteraf met de teksten wilt doen. De tekstcollectie die je aanlegt moet relevant zijn voor je onderzoeksvraag en representatief zijn.
je moet er voor zorgen dat het een betrouwbare weergave geeft van wat je wilt onderzoeken, zorgen voor een mooie evenwichtige verdeling van verschillende kenmerken.
Verschil tussen “born digital” en “analoge” teksten
Born digital zijn teksten die direct in digitale vorm verschenen zijn.
Analoge teksten zijn teksten die nog moeten gedigitaliseerd worden
Hoe kan je teksten digitaliseren? Wat is OCR?
Digitaliseren kan via HTR of OCR. OCR is Optical Character Recognition. Het is het omzetten van een afbeelding in een tekst die kan ingelezen en bewerkt worden door een computer.
Wat is een bestandsformaat? Wat zijn de twee hoofdsoorten van bestandsformaten? Wat is een extensie?
Tekst die we verzamelen, gaan we opslaan in bestanden. Bestanden hebben een bepaald formaat die duidt op de wijze waarop de informatie in een computerbestand gecodeerd is. Het bepaalt wat je met een bestand kan doen, welke software je kan gebruiken.
De twee hoofdsoorten zijn tekst en binair. Tekst zijn de leesbare tekens en binair is de computercode die enkel door specifieke programma’s gelezen kan worden.
Een extensie is een toevoeging aan het einde van een bestandsnaam die meestal uit één of meer letters bestaat en aangeeft om welk bestandsformaat het gaat.
Wat is HTML? Waarvoor staat de afkorting HTML?
Tekstbestand die gebruikt wordt voor het weergeven van webpagina’s.
HyperText Markup Language.
Wat is een PNG/PDF bestand?
Beide binaire bestanden.
Een PNG bestand is een bestandsformaat voor het opslaan van afbeeldingen in digitale vorm en er is een specifieke software voor nodig.
PDF is een bestandsformaat dat is ontwikkeld door de firma Adobe om bestanden met opmaak op alle computersystemen op dezelfde wijze te kunnen tonen en afdrukken. De afkorting staat voor Portable Document Format.
Soorten zoekopdrachten, beperkingen letterlijke zoekopdrachten
Soorten: letterlijke zoekopdrachten, Google search, Google advanced search, reguliere expressies
Beperkingen letterlijke zoekopdrachten:
- Je kan niet alle voorkomens van een bepaald werkwoord of alle vormen van een adjectief zoeken.
-Je kan ook niet alle eigennamen vinden in een corpus adhv een letterlijke zoekopdracht of het woordgebruik in een bepaalde tijdsperiode.
oplossing: corpus annoteren met extra informatie
Verschillende niveaus van ambiguïteit in natuurlijke taal
- Morfologische ambiguïteit
- Lexicaal-semantische ambiguïteit
- Syntactische ambiguïteit
- Discoursniveau
- Pragmatiek en wereldkennis
Verschil tussen polysemie en homonymie
Bij polysemie zijn de verschillende betekenissen verwant, bij homonymie is er geen etymologisch verband.
Definitie annotatie, types annotaties, soorten taalkundige annotaties
Definite: Annotatie verwijst naar het proces zelf, het toevoegen van taalkundige (of andere) informatie aan een digitale tekstverzameling (gesproken of geschreven). Maar annotatie kan ook verwijzen naar het resultaat van het annoteren.
Types:
1. Taalkundige informatie
- zinssplitsing en tokeniseren
- morfologische annotaties
- syntactische annotatie
- semantische annotatie
2. Inhoudelijke informatie
3. Metadata
4. Structurele informatie
Sense inventories
Een sense inventory is een soort digitaal woordenboek waarin alle betekenissen van een woord een apart label krijgen.
- WordNet en Cornetto
Inter-annotator agreement (definitie + belang)
Alle annotatoren hetzelfde deel van een corpus laten annoteren om de labels daarna te vergelijken. Berekenen hoeveel procent van de annotaties overlappen.
Dit is om de betrouwbaarheid van annotaties na te gaan, je berekent dan hoe goed de annotatoren overeenkomen bij het labelen.
Collocaties
Collocaties zijn frequente en/of typische semivaste combinaties zoals een aanbod accepteren of afslaan.
Concordanties
Concordantie is het woordgebruik in context, de omringende woorden waarbij het woord vaak voorkomt.
Stylometrie (definitie, toepassingen en voorbeelden)
Stylometrie is de statistische analyse, het bestuderen van schrijfstijl (kijken naar lexicale en syntactische informatie).
Het wordt gebruikt bij het bepalen van auteurschap (authorship attribution) als je bijvoorbeeld probeert na te gaan of een auteur andere boeken heeft onder een schuilnaam en bij de forensische taalkunde waarmee ze ontdekt hebben wie de Unabomber was door de schrijfstijl te herkennen in zijn brieven.
Autorship attribution, forensische taalkunde
Bij het bepalen van auteurschap (authorship attribution) bepaal je op basis van lexicale en syntactische kenmerken wie de auteur is van een tekst. Bijvoorbeeld frequenties van functiewoorden, PoS-patronen, frequente opeenvolging van woorden. Bekend voorbeeld: JK Rowling die onder pseudoniem Robert Calbraith boeken schreef, ontdekt door de taalkundige handtekening.
De forensische taalkunde is alles wat met taal en wet/misdaad te maken heeft. Het doel is om te achterhalen wie de auteur is van anonieme teksten. Bekend voorbeeld: Unabomber case waarbij de broer de schrijfstijl herkend heeft.