Vorlesung 10 - Einführung in Textmining / Wortassoziationen Flashcards
Text Mining und Analyse
- Text Mining ≈ Text Analyse
- Überführung von textuellen Daten in hoch qualitative
Informationen oder anwendbares Wissen
− Minimiert menschlichen Aufwand (beim Umgang mit textuellen Daten)
− Liefert Wissen um optimal Entscheidungen zu treffen - Hat einen Bezug zum Text Retrieval, welches eine essentielle Komponente jedes Text Mining-Systems ist
− Text Retrieval kann ein Vorverarbeitungsschritt für Text Mining sein
− Text Retrieval wird für die Herkunft des Wissens benötigt - Ziel: Muster und Trends erkennen, um
- Entwicklung und Vorhersage von Straftaten zu ermöglichen (Predictive Policing)
- inkriminierte Texte zu finden
- Informationen extrahieren, welche zur Aufklärung aller Tatumstände beitragen
Text vs. Nicht-Text-Daten
Der Mensch als subjektiver Sensor
reale Welt -> aufnehmen -> Sensor -> berichten -> Daten
Ereignis -> Wahrnehmung (Perspektive) -> menschlicher Sensor -> Ausdruck (Deutsch)-> Bericht
Forensisches Text Mining
bezeichnet das interdisziplinäre Feld, welches sich Methoden aus Informationsrückgewinnung, Verarbeitung natürlicher Sprache, Statistik, maschinellen Lernverfahren, Mustererkennung, Datenbanktechnologien, Netzwerkforschung, wissensbasierten Systemen, künstlicher Intelligenz, High Performance-Computing und Datenvisualisierung nutzbar macht, um große Mengen von Texten zu strukturieren, mit dem Ziel Muster und Trends zu erkennen, welche die Entwicklung und Vorhersage von Straftaten ermöglichen ( Predictive Policing) sowie inkriminierte Texte zu finden und daraus Informationen zu extrahieren, welche zur vollständigen Aufklärung aller Tatumstände einer Straftat beitragen.
Arten von Wissen durch Text Mining
- Mining von Wissen über Sprache
-> Word Association Mining & Analysis - Mining des Inhalts der Textdaten
-> Topic Mining & Analysis - Mining von Wissen über den Beobachter
-> Opinion Mining & Sentiment Analysis - Ableiten anderer Real World-Variablen
-> Text-based Prediction
Verschiedenen Textanalysemöglichkeiten die notwendige Textrepräsentation zuordnen
- Textrepräsentation
-> Generalität
-> Ermöglichte Analysen
-> Anwendungsbeispiele - String
-> #####
-> Stringverarbeitung
-> Kompression - Wörter
-> ####
-> Wortrelationsanalysen; Topic
Analysis; Sentiment Analysis
-> Thesaurus-Erzeugung;
Anwendungen mit Bezug zu
Topics und Opinions - Syntaktische Strukturen
-> ###
-> Analyse des Syntaxbaumes
-> Stilistische Analysen; strukturbasierte FeatureExtraktion - Entities & Relationen
-> ##
-> Analyse des Wissensgraphen, Informationsnetzwerkes
-> Aufklärung von Wissen und Meinungen über spezifische Entitäten - Prädikatenlogik
-> #
-> Integrierte Analyse von
verteiltem Wissen; logische Inferenz
-> Wissensassistent für Forensiker
Syntagmatische Relation:
Sprache, Satz
- Definition: Sprache
-> Sei 𝑳 = (𝑾, 𝑺) eine beliebige Sprache, wobei 𝑊 die Menge der Wörter und 𝑆 die Menge der bedeutungstragenden Sätze bezeichnet. - Definition: Satz
-> Jeder Satz aus 𝐿 kann dann als eine Menge einzelner Wörter repräsentiert werden: 𝑠 = {𝑤1, … , 𝑤𝑛}.
Syntagmatische Relation:
lokaler Kontext
- Der lokale Kontext 𝑪𝒔 𝒘 eines Wortes 𝑤 ist die Menge aller Wörter, die gemeinsam
mit 𝑤 im Satz 𝑠 auftauchen: 𝐶𝑠 𝑤 = 𝑠{𝑤}, 𝑤 ∈ 𝑠. - Wenn 𝑛 die Häufigkeit des Auftretens von 𝑤 ist, dann gibt es maximal 𝒏 Kontexte.
- Verschiedene Sätze können den gleichen Kontext teilen, wenn sie sich nur in ihrer
Repräsentation unterscheiden. - Da das Konzept des lokalen Kontexts auf dem Konzept des Satzes beruht, ist es
beschränkt auf die linguistische Ebene der Sätze.
Syntagmatische Relation:
Definition
- Zwei Wörter 𝑤𝑖 ∈ 𝑊 und 𝑤𝑗 ∈ 𝑊 stehen genau dann in syntagmatischer Relation,
wenn es mindestens einen lokalen Kontext gibt, der beide Wörter enthält:
𝑆𝑌𝑁 (𝑤𝑖, 𝑤𝑗) ↔ ∃𝑠: 𝑤𝑗 ∈ 𝐶𝑠(𝑤𝑖). - Das gemeinsame Auftreten zweier Wörter in einem lokalen Kontext wird auch als Kookkurrenz bezeichnet.
Statistisch Syntagmatische Relation: Definition
- Zwei Wörter 𝑤𝑖, 𝑤𝑗 ∈ 𝑊 stehen genau dann in statistisch syntagmatischer Relation 𝑺𝒀𝑵𝑺(𝒘𝒊, 𝒘𝒋), wenn sie in syntagmatischer Relation stehen und ihr gemeinsames Auftreten in Bezug auf ein Signifikanzmaß nicht zufällig ist.
- Satzkookkurrenzen
-> Dependenzen
-> Aufzählungen
-> Feste Wendungen - Nachbarschaftskookkurrenzen
-> Mehrwortbegriffe
-> Head-Modifier-Relations
-> Kategorie- und Funktionsbegriffe
Paradigmatische Relation
- ähnlicher Kontext
- Fragen im Zusammenhang mit Paradigmen:
-> Wie ähnlich sind Kontext(“cat”) und Kontext(“dog”)?
-> Wie ähnlich sind Kontext(“cat”) und Kontext(“computer”)?
Paradigmatische Relation:
globaler Kontext
- Der globale Kontext 𝑪𝑮 (𝒘𝒊) eines Wortes 𝑤𝑖 ∈ 𝑊 ist die Menge aller Wörter 𝑤 ∈ 𝑊 für die gilt: 𝐶𝐺 𝑤𝑖 = {𝑤|𝑆𝑌𝑁𝑆 𝑤𝑖, 𝑤 }.
- Aufgrund dieser Definition gibt es exakt einen globalen Kontext 𝐾𝐺(𝑤𝑖) für ein Wort 𝑤𝑖 in Abhängigkeit des gewählten Signifikanzmaßes und des zugrundeliegenden Korpus.
- Der globale Kontext 𝐶𝐺 𝑤𝑖 eines Wortes 𝑤𝑖 enthält alle Wörter, die statistisch
signifikant oft mit 𝑤𝑖 auftreten.
Paradigmatische Relation:
Definition
- Zwei Wortformen 𝑤𝑖, 𝑤𝑗 ∈ 𝑊 stehen genau dann in paradigmatischer Relation, wenn deren globale Kontexte, in Bezug auf ein gegebenes Ähnlichkeitsmaß und einen vorbestimmten Schwellwert, ähnlich zueinander sind :
PARA (𝑤𝑖, 𝑤𝑗) ↔ 𝑆𝐼𝑀𝑡(𝐾𝐺 𝑤𝑖,𝐾𝐺(𝑤𝑗)) - Der globale Kontext eines Wortes kann durch Filterfunktionen geändert werden
Paradigmatische Relation:
Filter
- Syntaktische Kategorie 𝑪𝑨𝑻:
𝑃𝐴𝑅𝐴 𝐶𝐴𝑇 (𝑤𝑖, 𝑤) ↔ 𝑃𝐴𝑅𝐴 (𝑤𝑖, 𝑤) & 𝐶𝐴𝑇(𝑤𝑖) = 𝐶𝐴𝑇(𝑤) - Semantische Kategorie 𝑺𝑬𝑴:
𝑃𝐴𝑅𝐴𝑆𝐸𝑀 (𝑤𝑖, 𝑤) ↔ 𝑃𝐴𝑅𝐴 (𝑤𝑖, 𝑤) & 𝑆𝐸𝑀 𝑤𝑖 = 𝑆𝐸𝑀(𝑤) - Gemeinsamer Begriff:
{𝑤│𝑆𝑌𝑁𝑆(𝑤𝑖, 𝑤) ∧ 𝑆𝑌𝑁𝑆(𝑤𝑘, 𝑤) }, 𝑤𝑜𝑏𝑒𝑖 𝑤𝑖 ≠ 𝑤𝑘 - Logische Bedingung 𝑳𝑶𝑮:
𝑃𝐴𝑅𝐴𝐿𝑂𝐺 (𝑤𝑖, 𝑤) ↔ 𝑃𝐴𝑅𝐴 (𝑤𝑖, 𝑤) & 𝐿𝑂𝐺 𝑤𝑖 = 𝐿𝑂𝐺(𝑤)
Warum analysiert man
Wortassoziationen?
- Verbesserung vieler Aufgaben aus der NLP
− POS-Tagging, Parsing, Entity Recognition, Acronym Expansion
− Grammar Learning - Nutzen in vielen Anwendungen aus Text Retrieval und Mining
− Text Retrieval (z.B. vorschlagen von Variationen einer Query)
− Forensische Textanalyse (z.B. Empfehlung von “überraschenden” Suchbegriffen)
− Automatische Konstruktion einer Topic Map als Navigationsstruktur: Wörter als Knoten
und Assoziationen als Kanten
− Analyse von Meinungen (z.B. welche Wörter sind in positiven und negativen Kommentaren
über Corona-Management am stärksten mit “Impfstoff” assoziiert?)
Generelle Ansätze
- Paradigmatische Relationen
-> Repräsentation eines Wort durch seinen globalen Kontext
-> Berechnung der Kontextähnlichkeit
-> Wörter mit hoher Kontextähnlichkeit stehen wahrscheinlich in paradigmatischer Relation - Syntagmatische Relationen
-> Wie oft treten zwei Wörter gemeinsam in einem lokalen Kontext auf (z.B. Satz oder Absatz)
-> Vergleich der Kookkurrenzen mit dem individuellen Auftreten
-> Wörter mit hoher Kookkurrenz aber relativ seltenem individuellem Auftreten stehen wahrscheinlich in syntagmatischer Relation - Gemeinsame Bestimmung
-> Wörter in paradigmatischer Beziehung stehen häufig auch in syntagmatischer Relation.
Wortkontext als Pseudo-Dokument
- Kontext = Pseudo-Dokument = “Bag of Words”
- kann adjazente oder/und nicht-adjazente Wörter beinhalten
Messen der Kontextähnlichkeit
- Hohe 𝑠𝑖𝑚(𝑊𝑜𝑟𝑡1, 𝑊𝑜𝑟𝑡2)
→ 𝑊𝑜𝑟𝑡1 und 𝑊𝑜𝑟𝑡2 stehen in paradigmatischer Beziehung.
Möglichkeiten der Detektion syntagmatischer und paradigmatischer Relationen
- Detektion paradigmatischer Relationen
-> Pseudo-Dokument aus Kontext eines Kandidatenwortes erstellen (BoW)
-> Ähnlichkeit der Kontextdokumente zweier Kandidatenwörter berechnen
-> Annahme: Wörter mit hoch ähnlichen Kontexten stehen wahrscheinlich in
paradigmatischer Relation - Detektion Syntagmatischer Relationen (Syntagmatische Relation = korreliertes Auftreten)
-> Entropie-Wortvorhersage (Korrellationsmessung zwischen dem Auftreten zweier Wörter)
-> Transinformation liefert einen Weg zur Detektion syntagmatischer Relationen
EOWC
Expected Overlap of Words in Context
Wie werden Vektoren berechnet?
𝒅𝟏 = 𝒙𝟏, … , 𝒙𝑵
𝒙𝒊 = 𝒄(𝒘𝒊, 𝒅𝟏)/ |𝒅𝟏|
𝒅𝟐 = 𝒚𝟏, … , 𝒚𝑵
𝒚𝒊 = 𝒄(𝒘𝒊, 𝒅𝟐)/ |𝒅𝟐|
Welche Ähnlichkeitsfunktion kommt zum Einsatz?
sim (d1,d2) = d1* d2 = x1y1 + … + xNyN
Wahrscheinlichkeit, dass zwei zufällig aus 𝑑1 und 𝑑2 gewählte Wörter identisch sind.
Probleme mit EOWC
- Intuitiv sinnvoll!
-> Je mehr Überlappung die beiden Kontextdokumente haben, desto höher ist die Ähnlichkeit. - Aber:
− Es bevorzugt die Übereinstimmung eines sehr häufigen Begriffs gegenüber
individuelleren Begriffen.
-> Sublineare Transformation der Termfrequenz (TF)
− Es betrachtet jedes Wort als gleichwertig (Überlappung von “the” ist nicht so
bedeutungsvoll wie “eats”).
-> IDF-Term-Gewichtung
BM25-Score
für syntagmatische Relationen
Die hoch gewichteten Begriffe im Kontextvektor eines Wortes w stehen
wahrscheinlich in syntagmatischer Beziehung zu w
𝑰𝑫𝑭 ∗ 𝒅𝟏 = (𝒙𝟏 ∗ 𝑰𝑫𝑭 (𝒘𝟏) , … , 𝒙𝑵 ∗ 𝑰𝑫𝑭 (𝒘𝑵))
Adaption BM25
sim (d1, 𝑑2) = Σ
( unten: 𝑖=1, oben: 𝑁) 𝐼𝐷𝐹 (𝑤𝑖) 𝑥𝑖𝑦i
TR-Modelle können zur Berechnung der Ähnlichkeit von Kontexten adaptiert werden
- BM25 + IDF-Weighting repräsentieren den State-of-the-Art
- Syntagmatische Relationen können als “Nebenbeiprodukt” ebenfalls bestimmt werden
Prinzip der Wortvorhersage
- Vorhersagefrage: Ist Wort 𝑊 in einem Segment vorhanden?
- Sind manche Wörter leichter vorherzusagen als andere?
-> 1) 𝑾 = “𝒎𝒆𝒂𝒕” 2) 𝑾 = “𝒕𝒉𝒆” 3) 𝑾 = “𝒖𝒏𝒊𝒄𝒐𝒓𝒏”