Basics Flashcards
(38 cards)
Beschreib das CL Paradigma
streben nach Erkenntnissen über bedeutungsdefinierende und bedeutungsunterscheidende Merkmale
Beschreib das CL Ziel
algorithmische Verarbeitung natürlicher Sprache mittels Computer
Liste die formale Grundlagen der CL
- Morphology
- Syntax
- Semantik
> Formale Sprachen > Mengenlehre > Grammatikformalism > Reguläre Sprachen und Ausdrücke > Endliche Automaten
Definiere Tokenisierung
Segmentierung eines Textes in Einheiten der Wortebene
Definiere PoS-Tagging
= part-of-speech tagging
> Zuordnung von Wörtern und Satzzeichen eines Textes zu Wortarten
Definiere Chunking
= light parsing
> Bestimmung des Typs eines Konstituenten (Phrasen)
Definiere Stemming
Extrahieren des Wortstammes
Erkläre den Begriff ‘formale Sprachen’
Ausdrucken einer Sprache in definierten, unverwechselbaren Form
Definiere Subsumieren
unterordnen
> A subsumiert B
= A ist untergeordnet an B
Erkläre der unterschied zwischen existensonale und intensionale Spezifikationen
existensional: Auflistung
intensional: spezifiziert Bedingungen, Merkmale, Eigenschaften
Liste die Möglichkeiten unendliche Sprachen intensional zu definieren
- über Generator > Muster - Quelle
- über Eigenschaften > Grundmenge - Erkenner (Filter)
Liste einige Anwendungen der Computerlinguistik
- Sprachübersetzung
- Prüfsoftware
- Sprachdialogsysteme und Sprachsteuerung
- Marktforschung
Erkläre die Funktion der Grammatikformalismen
- Beschreibung unendlicher Sprachen über endliches Regelsystem
> Grammatik G erzeugt formale Sprache L(G) - Bestimmung Sprachklasse (Chomsky-Hierarchie)
- einfachster Grammatikformalismus
> Reguläre Sprachen
> Beschreibung aller endlichen Sprachen
> kompakte Notation über regulären Ausdruck
Liste einige Anwendungen für reguläre Ausdrücke
- Durchsuchen von Texten
- Überprüfung von Nutzereingaben
- Text Mining
- Linguistische Korpussuche
- Tokenisierung und Satzgrenzenerkennung
- Wortlisten und Varianten
Erkläre die Unterschied zwischen ‘greedy’ und ‘non-greedy’ / ‘lazy’ matching
- greedy: so viel wie möglich
- lazy: minimaler Match
Erkläre den Konzept ‘Abgeschlossenheit’
(wort1) operation (wort2) = (wort3)
(reguläre Sprache 1) operation (reguläre Sprache 2) = (reguläre Sprache 3)
> Sprachklasse bleibt behalten
Erkläre die Unterschied zwischen FSA und FST
- FSA erkennt
- FST transformiert
> FST hat Ausgabealphabet
Erkläre die Unterschied zwischen nicht-Deterministische und Deterministische FSA
Nicht-Deterministisch
- per Zustand mehrere gleiche Übergangsrelationen in unterschiedliche Zustände
- leeres Wort als Übergangsrelation
- bilden keine eigene Sprachklasse
- lässt sich in einen äquivalenten deterministischen FSA überführen
> determinierungsalgorithmus
Deterministisch
- nur einmalige Übergangsrelationen per Zustand
- kein leeres Wort als Übergangsrelation
Liste einige Ziele / Anwendungen der morphologischen Analyse
Analyse und Generierung der Morphologie
- Tokenisierung
- Lemmatisierung, Stemming
- PoS-Tagging
- Identifikation morphosyntaktischer Merkmale (Flexion)
- Zerlegung komplexen Wörter
> ling. Korpussuche > Rechtschreibkorrektur > Information retrieval > maschinelle Übersetzung > syntaktische Analyse
Definiere Lemmatisierung
Extrahieren der Zitierform (Form des Wortes in Wörterbuch)
Erkläre die Unterschied zwischen Token und Typen
Token = Instanzen (ohne auf Wiederholungen zu achten) Typen = unterschiedliche Wörter
Erkläre die Unterschied zwischen Flexion und Wortbildung
Flexion
- Derivate eines Stammes (Lexem)
- keine Änderung der Grundbedeutung
- kodierung morphosyntaktische Merkmale
- Deklination, Konjugation, Komparation
Wortbildung
- neue Lexeme
- veränderte Bedeutung
- konkatenativ: Derivation, Komposition
- nichtkonkatenativ: Konversion, Reduplikation, Kurzwörter (clipping), Kofferwörter (blending)
- Abgrenzung Neologismen und kreativen Wortspielen
Liste einige morphosyntaktische Merkmale (Deutsch)
Substantivisch - Person: - Numerus: - Kasus: - Genus: > Kongruenz in Nominalphrasen > starke vs. schwache Adjektivdeklination (Bestimmtheit)
Verbale Kategorien - Tempus: - Modus: - (Genus Verbi: > Kongruenz mit Subjekt (Person, Numerus)
Definiere Flexionsparadigma
Gesamtheit der unterschiedlichen Flexionsformen einer Wortklasse