Les 5 Deel 2: tekst Flashcards
(13 cards)
Tekstanalyse
de geautomatiseerde analyse van tekstuele data om daaruit informatie te halen, Maw het is de automatische herkenning van informatie in tekst die in natuurlijke taal is geschreven
Tekstgeneratie
Het proces waarbij tekst automatisch wordt gegenereerd
Informatiefusie
de automatische herkenning van informatie in tekst in combinatie met andere brontypes waarbij de informatie dan wordt geïntegreerd tot een geheel.
Drie methodes voor taalvewerking
Symbolische aanpak = steunt op een kennisgebaseerde modellering van de taal en vertrekt vanuit woordenboeken en grammaticaregels
Statische aanpak = deze gebruikt statistische technieken en methodes van machinaal leren, en maakt gebruik van grote geannoteerde corpora en handmatig gedefinieerde kenmerken (features)
aanpak met artificiele intelligentie = deze gebruikt een geschikte vorm van neurale netwerken en maakt eveneens gebruik van grote geannoteerde corpora, maar leert zelf de kenmerken MAW deze aanpak vereist geen manuele feature engineering
Recurrente neurale netwerken en LTSM netwerken
LTSM (long short-term memory network) is een variant van RNNs die zeer geschikt is voor taalanalyse.
Beschikt over cellen met geheugen die het systeem helpen om te leren welke informatie uit de reeds verwerkte tekst moet worden onthouden en welke informatie mag worden vergeten.
encoder-decoder-architectuur
Deze architectuur bestaat uit twee RNNs die achter elkaar functioneren.
Het eerste RRN (encoder) verwerkt de ingangssequentie, in een sequentie van interne of verborgen vectoren.
Het tweede RRN, de decoder, zet dan die sequentie van interne vectoren woord per woord om naar een uitgangssequentie
vooral voor automatische vertalingen.
Gebruik van attentiemechanisme
Transformernetwerken
Geen recurrente blokken, maar een combinatie van voorwaartse neurale netwerken in een encoder-decoder-structuur met gesofisticeerde meervoudige attentiemechanismen
tekstanalyse (=textmining)
Wordt voor uiteenlopende taken ingezet vb. de classificatie van teksten / de herkenning van argumenten / de vertaling van natuurlijke taal naar formele kennis.
Taalclassificatie
vb. nieuwsberichten indelen obv het feit of ze sterker aanleunen bij links, centrum, of rechts van het politiek-ideologische spectrum.
Hiervoor gebruiken we een FFNN, dat getraind moet worden obv heel veel voorbeelden.
De invoer bestaat uit het nieuwsbericht in een vereenvoudigde weergave en de uitgangslaag berekent op basis van het voorkomen van een aantal woorden de kans dat het tot een van de drie klassen behoort.
Herkenning van argumenten in teksten
eerste stap is argumentatie mining = extraheren van argumenten
tweede stap is de relaties tussen de argumenten voorspellen
Vertalen van tekst naar formele kennis
encoder-decoder architectuur
eerste stap = ingangszin wordt vertaald naar ruw schema
tweede stap = details worden ingevuld in het schema
Tekstgeneratie
De meest krachtige generatieve AI-programmas die tekst als uitkomst genereren zijn gebaseerd op grote taalmodellen (LLM = large language model)
Dat zijn diepe artificiele neuralee netwerken met transformergebaseerde encoder decoder of decodeerarchitectuur met meervoudige parallelle attentiemechanismen
Training is vereist op een enorm aantal modelparameters obv een enorme hoeveelheid teksten.
Hierdoor kunnen de programma’s steeds het meest waarschijnlijke volgende woord in een zin genereren aan de hand van de voorgaande woorden in die zin, voorgaande zinnen, de gebruikersinvoer en de context
kritische bedenkingen generatieve AI
Vooringenomenheid en transparantie
energieverbruik
plagiaat en auteursrecht
privacy