Paradigmatische Relationen -> Repräsentation eines Wort durch seinen globalen Kontext -> Berechnung der Kontextähnlichkeit -> Wörter mit hoher Kontextähnlichkeit stehen wahrscheinlich in paradigmatischer Relation Syntagmatische Relationen -> Wie oft treten zwei Wörter gemeinsam in einem lokalen Kontext auf (z.B. Satz oder Absatz) -> Vergleich der Kookkurrenzen mit dem individuellen Auftreten -> Wörter mit hoher Kookkurrenz aber relativ seltenem individuellem Auftreten stehen wahrscheinlich in syntagmatischer Relation Gemeinsame Bestimmung -> Wörter in paradigmatischer Beziehung stehen häufig auch in syntagmatischer Relation.

Vorlesung 10 - Einführung in Textmining / Wortassoziationen Flashcards by Unknown Unknown

Text Mining und Analyse

Text Mining ≈ Text Analyse
Überführung von textuellen Daten in hoch qualitative
Informationen oder anwendbares Wissen
− Minimiert menschlichen Aufwand (beim Umgang mit textuellen Daten)
− Liefert Wissen um optimal Entscheidungen zu treffen
Hat einen Bezug zum Text Retrieval, welches eine essentielle Komponente jedes Text Mining-Systems ist
− Text Retrieval kann ein Vorverarbeitungsschritt für Text Mining sein
− Text Retrieval wird für die Herkunft des Wissens benötigt
Ziel: Muster und Trends erkennen, um
Entwicklung und Vorhersage von Straftaten zu ermöglichen (Predictive Policing)
inkriminierte Texte zu finden
Informationen extrahieren, welche zur Aufklärung aller Tatumstände beitragen

How well did you know this?

Not at all

Perfectly

Text vs. Nicht-Text-Daten
Der Mensch als subjektiver Sensor

reale Welt -> aufnehmen -> Sensor -> berichten -> Daten

Ereignis -> Wahrnehmung (Perspektive) -> menschlicher Sensor -> Ausdruck (Deutsch)-> Bericht

How well did you know this?

Not at all

Perfectly

Forensisches Text Mining

bezeichnet das interdisziplinäre Feld, welches sich Methoden aus Informationsrückgewinnung, Verarbeitung natürlicher Sprache, Statistik, maschinellen Lernverfahren, Mustererkennung, Datenbanktechnologien, Netzwerkforschung, wissensbasierten Systemen, künstlicher Intelligenz, High Performance-Computing und Datenvisualisierung nutzbar macht, um große Mengen von Texten zu strukturieren, mit dem Ziel Muster und Trends zu erkennen, welche die Entwicklung und Vorhersage von Straftaten ermöglichen ( Predictive Policing) sowie inkriminierte Texte zu finden und daraus Informationen zu extrahieren, welche zur vollständigen Aufklärung aller Tatumstände einer Straftat beitragen.

How well did you know this?

Not at all

Perfectly

Arten von Wissen durch Text Mining

Mining von Wissen über Sprache
-> Word Association Mining & Analysis
Mining des Inhalts der Textdaten
-> Topic Mining & Analysis
Mining von Wissen über den Beobachter
-> Opinion Mining & Sentiment Analysis
Ableiten anderer Real World-Variablen
-> Text-based Prediction

How well did you know this?

Not at all

Perfectly

Verschiedenen Textanalysemöglichkeiten die notwendige Textrepräsentation zuordnen

Textrepräsentation
-> Generalität
-> Ermöglichte Analysen
-> Anwendungsbeispiele
String
-> #####
-> Stringverarbeitung
-> Kompression
Wörter
-> ####
-> Wortrelationsanalysen; Topic
Analysis; Sentiment Analysis
-> Thesaurus-Erzeugung;
Anwendungen mit Bezug zu
Topics und Opinions
Syntaktische Strukturen
-> ###
-> Analyse des Syntaxbaumes
-> Stilistische Analysen; strukturbasierte FeatureExtraktion
Entities & Relationen
-> ##
-> Analyse des Wissensgraphen, Informationsnetzwerkes
-> Aufklärung von Wissen und Meinungen über spezifische Entitäten
Prädikatenlogik
-> #
-> Integrierte Analyse von
verteiltem Wissen; logische Inferenz
-> Wissensassistent für Forensiker

How well did you know this?

Not at all

Perfectly

Syntagmatische Relation:
Sprache, Satz

Definition: Sprache
-> Sei 𝑳 = (𝑾, 𝑺) eine beliebige Sprache, wobei 𝑊 die Menge der Wörter und 𝑆 die Menge der bedeutungstragenden Sätze bezeichnet.
Definition: Satz
-> Jeder Satz aus 𝐿 kann dann als eine Menge einzelner Wörter repräsentiert werden: 𝑠 = {𝑤1, … , 𝑤𝑛}.

How well did you know this?

Not at all

Perfectly

Syntagmatische Relation:
lokaler Kontext

Der lokale Kontext 𝑪𝒔 𝒘 eines Wortes 𝑤 ist die Menge aller Wörter, die gemeinsam
mit 𝑤 im Satz 𝑠 auftauchen: 𝐶𝑠 𝑤 = 𝑠{𝑤}, 𝑤 ∈ 𝑠.
Wenn 𝑛 die Häufigkeit des Auftretens von 𝑤 ist, dann gibt es maximal 𝒏 Kontexte.
Verschiedene Sätze können den gleichen Kontext teilen, wenn sie sich nur in ihrer
Repräsentation unterscheiden.
Da das Konzept des lokalen Kontexts auf dem Konzept des Satzes beruht, ist es
beschränkt auf die linguistische Ebene der Sätze.

How well did you know this?

Not at all

Perfectly

Syntagmatische Relation:
Definition

Zwei Wörter 𝑤𝑖 ∈ 𝑊 und 𝑤𝑗 ∈ 𝑊 stehen genau dann in syntagmatischer Relation,
wenn es mindestens einen lokalen Kontext gibt, der beide Wörter enthält:
𝑆𝑌𝑁 (𝑤𝑖, 𝑤𝑗) ↔ ∃𝑠: 𝑤𝑗 ∈ 𝐶𝑠(𝑤𝑖).
Das gemeinsame Auftreten zweier Wörter in einem lokalen Kontext wird auch als Kookkurrenz bezeichnet.

How well did you know this?

Not at all

Perfectly

Statistisch Syntagmatische Relation: Definition

Zwei Wörter 𝑤𝑖, 𝑤𝑗 ∈ 𝑊 stehen genau dann in statistisch syntagmatischer Relation 𝑺𝒀𝑵𝑺(𝒘𝒊, 𝒘𝒋), wenn sie in syntagmatischer Relation stehen und ihr gemeinsames Auftreten in Bezug auf ein Signifikanzmaß nicht zufällig ist.
Satzkookkurrenzen
-> Dependenzen
-> Aufzählungen
-> Feste Wendungen
Nachbarschaftskookkurrenzen
-> Mehrwortbegriffe
-> Head-Modifier-Relations
-> Kategorie- und Funktionsbegriffe

How well did you know this?

Not at all

Perfectly

Paradigmatische Relation

ähnlicher Kontext
Fragen im Zusammenhang mit Paradigmen:
-> Wie ähnlich sind Kontext(“cat”) und Kontext(“dog”)?
-> Wie ähnlich sind Kontext(“cat”) und Kontext(“computer”)?

How well did you know this?

Not at all

Perfectly

Paradigmatische Relation:
globaler Kontext

Der globale Kontext 𝑪𝑮 (𝒘𝒊) eines Wortes 𝑤𝑖 ∈ 𝑊 ist die Menge aller Wörter 𝑤 ∈ 𝑊 für die gilt: 𝐶𝐺 𝑤𝑖 = {𝑤|𝑆𝑌𝑁𝑆 𝑤𝑖, 𝑤 }.
Aufgrund dieser Definition gibt es exakt einen globalen Kontext 𝐾𝐺(𝑤𝑖) für ein Wort 𝑤𝑖 in Abhängigkeit des gewählten Signifikanzmaßes und des zugrundeliegenden Korpus.
Der globale Kontext 𝐶𝐺 𝑤𝑖 eines Wortes 𝑤𝑖 enthält alle Wörter, die statistisch
signifikant oft mit 𝑤𝑖 auftreten.

How well did you know this?

Not at all

Perfectly

Paradigmatische Relation:
Definition

Zwei Wortformen 𝑤𝑖, 𝑤𝑗 ∈ 𝑊 stehen genau dann in paradigmatischer Relation, wenn deren globale Kontexte, in Bezug auf ein gegebenes Ähnlichkeitsmaß und einen vorbestimmten Schwellwert, ähnlich zueinander sind :
PARA (𝑤𝑖, 𝑤𝑗) ↔ 𝑆𝐼𝑀𝑡(𝐾𝐺 𝑤𝑖,𝐾𝐺(𝑤𝑗))
Der globale Kontext eines Wortes kann durch Filterfunktionen geändert werden

How well did you know this?

Not at all

Perfectly

Paradigmatische Relation:
Filter

Syntaktische Kategorie 𝑪𝑨𝑻:
𝑃𝐴𝑅𝐴 𝐶𝐴𝑇 (𝑤𝑖, 𝑤) ↔ 𝑃𝐴𝑅𝐴 (𝑤𝑖, 𝑤) & 𝐶𝐴𝑇(𝑤𝑖) = 𝐶𝐴𝑇(𝑤)
Semantische Kategorie 𝑺𝑬𝑴:
𝑃𝐴𝑅𝐴𝑆𝐸𝑀 (𝑤𝑖, 𝑤) ↔ 𝑃𝐴𝑅𝐴 (𝑤𝑖, 𝑤) & 𝑆𝐸𝑀 𝑤𝑖 = 𝑆𝐸𝑀(𝑤)
Gemeinsamer Begriff:
{𝑤│𝑆𝑌𝑁𝑆(𝑤𝑖, 𝑤) ∧ 𝑆𝑌𝑁𝑆(𝑤𝑘, 𝑤) }, 𝑤𝑜𝑏𝑒𝑖 𝑤𝑖 ≠ 𝑤𝑘
Logische Bedingung 𝑳𝑶𝑮:
𝑃𝐴𝑅𝐴𝐿𝑂𝐺 (𝑤𝑖, 𝑤) ↔ 𝑃𝐴𝑅𝐴 (𝑤𝑖, 𝑤) & 𝐿𝑂𝐺 𝑤𝑖 = 𝐿𝑂𝐺(𝑤)

How well did you know this?

Not at all

Perfectly

Warum analysiert man
Wortassoziationen?

Verbesserung vieler Aufgaben aus der NLP
− POS-Tagging, Parsing, Entity Recognition, Acronym Expansion
− Grammar Learning
Nutzen in vielen Anwendungen aus Text Retrieval und Mining
− Text Retrieval (z.B. vorschlagen von Variationen einer Query)
− Forensische Textanalyse (z.B. Empfehlung von “überraschenden” Suchbegriffen)
− Automatische Konstruktion einer Topic Map als Navigationsstruktur: Wörter als Knoten
und Assoziationen als Kanten
− Analyse von Meinungen (z.B. welche Wörter sind in positiven und negativen Kommentaren
über Corona-Management am stärksten mit “Impfstoff” assoziiert?)

How well did you know this?

Not at all

Perfectly

Generelle Ansätze

Paradigmatische Relationen
-> Repräsentation eines Wort durch seinen globalen Kontext
-> Berechnung der Kontextähnlichkeit
-> Wörter mit hoher Kontextähnlichkeit stehen wahrscheinlich in paradigmatischer Relation
Syntagmatische Relationen
-> Wie oft treten zwei Wörter gemeinsam in einem lokalen Kontext auf (z.B. Satz oder Absatz)
-> Vergleich der Kookkurrenzen mit dem individuellen Auftreten
-> Wörter mit hoher Kookkurrenz aber relativ seltenem individuellem Auftreten stehen wahrscheinlich in syntagmatischer Relation
Gemeinsame Bestimmung
-> Wörter in paradigmatischer Beziehung stehen häufig auch in syntagmatischer Relation.

How well did you know this?

Not at all

Perfectly

Wortkontext als Pseudo-Dokument

Kontext = Pseudo-Dokument = “Bag of Words”
kann adjazente oder/und nicht-adjazente Wörter beinhalten

Messen der Kontextähnlichkeit

Hohe 𝑠𝑖𝑚(𝑊𝑜𝑟𝑡1, 𝑊𝑜𝑟𝑡2)
→ 𝑊𝑜𝑟𝑡1 und 𝑊𝑜𝑟𝑡2 stehen in paradigmatischer Beziehung.

Möglichkeiten der Detektion syntagmatischer und paradigmatischer Relationen

Detektion paradigmatischer Relationen
-> Pseudo-Dokument aus Kontext eines Kandidatenwortes erstellen (BoW)
-> Ähnlichkeit der Kontextdokumente zweier Kandidatenwörter berechnen
-> Annahme: Wörter mit hoch ähnlichen Kontexten stehen wahrscheinlich in
paradigmatischer Relation
Detektion Syntagmatischer Relationen (Syntagmatische Relation = korreliertes Auftreten)
-> Entropie-Wortvorhersage (Korrellationsmessung zwischen dem Auftreten zweier Wörter)
-> Transinformation liefert einen Weg zur Detektion syntagmatischer Relationen

EOWC
Expected Overlap of Words in Context

Wie werden Vektoren berechnet?
𝒅𝟏 = 𝒙𝟏, … , 𝒙𝑵
𝒙𝒊 = 𝒄(𝒘𝒊, 𝒅𝟏)/ |𝒅𝟏|

𝒅𝟐 = 𝒚𝟏, … , 𝒚𝑵
𝒚𝒊 = 𝒄(𝒘𝒊, 𝒅𝟐)/ |𝒅𝟐|

Welche Ähnlichkeitsfunktion kommt zum Einsatz?
sim (d1,d2) = d1* d2 = x1y1 + … + xNyN

Wahrscheinlichkeit, dass zwei zufällig aus 𝑑1 und 𝑑2 gewählte Wörter identisch sind.

Probleme mit EOWC

Intuitiv sinnvoll!
-> Je mehr Überlappung die beiden Kontextdokumente haben, desto höher ist die Ähnlichkeit.
Aber:
− Es bevorzugt die Übereinstimmung eines sehr häufigen Begriffs gegenüber
individuelleren Begriffen.
-> Sublineare Transformation der Termfrequenz (TF)
− Es betrachtet jedes Wort als gleichwertig (Überlappung von “the” ist nicht so
bedeutungsvoll wie “eats”).
-> IDF-Term-Gewichtung

BM25-Score
für syntagmatische Relationen

Die hoch gewichteten Begriffe im Kontextvektor eines Wortes w stehen
wahrscheinlich in syntagmatischer Beziehung zu w

𝑰𝑫𝑭 ∗ 𝒅𝟏 = (𝒙𝟏 ∗ 𝑰𝑫𝑭 (𝒘𝟏) , … , 𝒙𝑵 ∗ 𝑰𝑫𝑭 (𝒘𝑵))

Adaption BM25

sim (d1, 𝑑2) = Σ
( unten: 𝑖=1, oben: 𝑁) 𝐼𝐷𝐹 (𝑤𝑖) 𝑥𝑖𝑦i

TR-Modelle können zur Berechnung der Ähnlichkeit von Kontexten adaptiert werden

BM25 + IDF-Weighting repräsentieren den State-of-the-Art
Syntagmatische Relationen können als “Nebenbeiprodukt” ebenfalls bestimmt werden

Prinzip der Wortvorhersage

Vorhersagefrage: Ist Wort 𝑊 in einem Segment vorhanden?
Sind manche Wörter leichter vorherzusagen als andere?
-> 1) 𝑾 = “𝒎𝒆𝒂𝒕” 2) 𝑾 = “𝒕𝒉𝒆” 3) 𝑾 = “𝒖𝒏𝒊𝒄𝒐𝒓𝒏”

Formale Definition

Binäre Zufallsvariable: 𝑋𝑤 ∈ {0,1} 𝑋𝑤 = { 1 𝑤 𝑒𝑥𝑖𝑠𝑡𝑖𝑒𝑟𝑡 0 𝑠𝑜𝑛𝑠 𝑝 (𝑋𝑤 = 1) + 𝑝 (𝑋𝑤 = 0) = 1 * Je zufälliger 𝑿𝒘 ist, desto schwieriger seine Vorhersage. * Wie kann man quantitativ die „Zufälligkeit“ einer Zufallsvariable wie 𝑋𝑤 messen?

Entropie 𝐻(𝑋) Maß der Zufälligkeit von X

𝐻 (𝑋w)= −𝑝(𝑋𝑤 = 0) log2 𝑝 (𝑋𝑤 = 0) − 𝑝(𝑋𝑤 = 1) log2 𝑝(𝑋𝑤 = 1)

Entropie zur Wortvorhersage

* Vorhersagefrage: Ist Wort 𝑊 in einem Segment vorhanden? * Sind manche Wörter leichter vorherzusagen als andere? -> 1) 𝑾 = “𝒎𝒆𝒂𝒕” 2) 𝑾 = “𝒕𝒉𝒆” 3) 𝑾 = “𝒖𝒏𝒊𝒄𝒐𝒓𝒏” * Was ist höher/niedriger? 𝑯 𝑿𝒎𝒆𝒂𝒕 , 𝑯 𝑿𝒕𝒉𝒆 , 𝒐𝒓 𝑯(𝑿𝒖𝒏𝒊𝒄𝒐𝒓𝒏)? -> 𝑯(𝑿𝒕𝒉𝒆) ≈ 𝟎 → keine Unsicherheit, weil 𝒑(𝑿𝒕𝒉𝒆 = 𝟏) ≈ 1 * Wörter mit hoher Entropy sind schwerer vorherzusagen!

Würden mehr Informationen über ein Textsegment helfen?

* Vorhersagefrage: Ist Wort 𝑊 in einem Segment vorhanden? * Hilft das Vorhandensein von “eats” für die Vorhersage des Auftretens von “meat”? Wird die Unsicherheit bezüglich “meat”, also 𝑯(𝑿𝒎𝒆𝒂𝒕) reduziert? Was wäre wenn wir wüssten, dass “eats” nicht auftritt?

Bedingte Entropie vollständige Definition

Für jede diskrete Zufallsvariable 𝑿 und 𝒀 ist 𝑯(𝑿) ≥ 𝑯 𝑿 𝒀 !

Identifikation syntagmatischer Relationen

* For each word 𝑊1 -> For each other word 𝑊2, -> compute conditional entropy 𝐻(𝑋𝑊1|𝑋𝑊2) -> Sort all the candidate words in ascending order of 𝐻(𝑋𝑊1|𝑋𝑊2) -> Take the top-ranked candidate words as words that have potential syntagmatic relations with 𝑊1 (Notwendigkeit eines Schwellwertes für jedes 𝑊1) * 𝐻(𝑋𝑊1|𝑿𝑾𝟐) und 𝐻(𝑋𝑊1|𝑿𝑾𝟑) sind vergleichbar, 𝐻(𝑋𝑊1|𝑿𝑾𝟐) und 𝐻(𝑋𝑊3|𝑿𝑾𝟐) aber nicht!

Transinformation I(X;Y) Messung der Entropiereduktion

* Wieviel kann die Entropy von 𝑿 durch Kenntnis von 𝒀 reduziert werden? * Transinformation: 𝑰 𝑿; 𝒀 = 𝑯 𝑿 − 𝑯 𝑿 𝒀 = 𝑯 𝒀 − 𝑯(𝒀|𝑿) * Eigenschaften: -> Nicht-Negativ: 𝐼 𝑋; 𝑌 ≥ 0 -> Symmetrisch: 𝐼 𝑋; 𝑌 = 𝐼 𝑌; 𝑋 -> 𝐼 ( 𝑋; 𝑌) = 0 𝑤𝑒𝑛𝑛 𝑋 & 𝑌 𝑢𝑛𝑎𝑏ℎä𝑛𝑔𝑖𝑔 𝑠𝑖𝑛d * Bei Bestimmung der Rangfolge verschiedener 𝑌s, ergeben 𝐼(𝑋; 𝑌) und 𝐻(𝑋|𝑌) dieselbeReihenfolge, sofern 𝑋 fix ist. * 𝐼(𝑋; 𝑌) erlaubt es aber verschiedene (𝑋,𝑌)-Paare zu vergleichen

Transinformation 𝐼(𝑋; 𝑌) für syntagmatische Relationen

* Transinformation: 𝑰 𝑿; 𝒀 = 𝑯 𝑿 − 𝑯 𝑿 𝒀 = 𝑯 𝒀 − 𝑯(𝒀|𝑿) -> Wenn “eats” auftritt, welches andere Wort tritt tendenziell auch auf? * Welche Wörter haben eine hohe Transinformation mit “eats”? 𝑰(𝑿𝒆𝒂𝒕𝒔; 𝑿𝒎𝒆𝒂𝒕𝒔) = 𝑰(𝑿𝒎𝒆𝒂𝒕𝒔; 𝑿𝒆𝒂𝒕𝒔) > 𝑰(𝑿𝒆𝒂𝒕𝒔; 𝑿𝒕𝒉𝒆) = 𝑰(𝑿𝒕𝒉𝒆; 𝑿𝒆𝒂𝒕𝒔) 𝑰(𝑿𝒆𝒂𝒕𝒔; 𝑿𝒆𝒂𝒕𝒔) = 𝑯(𝑿𝒆𝒂𝒕𝒔) ≥ 𝑰(𝑿𝒆𝒂𝒕𝒔; 𝑿𝒘)

Umformulierung der Transinformation mit Kullback-Leibler-Divergenz

Transinformation misst die Divergenz der tatsächlichen gemeinsamen Verteilung von der erwarteten Verteilung unter der Unabhängigkeitsvermutung. Je größer die Divergenz ist, desto größer ist die Transinformation. beobachtete gemeinsame Verteilung von 𝑋𝑤1 und 𝑋𝑤2 / Erwartete gemeinsame Verteilung von 𝑋𝑤1 und 𝑋𝑤2 , wenn 𝑿𝒘𝟏 und 𝑿𝒘𝟐 unabhängig sind.

Glättung

* Hinzufügen von Pseudodaten, so dass jedes Ereignis mindestens einmal vorkommt (Vortäuschen beobachteter Zusatzdaten) 𝑝 (𝑋𝑤1 = 1) = 𝑐𝑜𝑢𝑛𝑡 (𝑤1) + 0.5 / 𝑁 + 1 𝑝 (𝑋𝑤2 = 1) = 𝑐𝑜𝑢𝑛𝑡 (𝑤2) + 0.5 / 𝑁 + 1 𝑝 (𝑋𝑤1 = 1, 𝑋𝑤2 = 1) = 𝑐𝑜𝑢𝑛𝑡 𝑤1, 𝑤2 + 0.25 / 𝑁 + 1

Schätzung der Wahrscheinlichkeiten auf Basis vorhandener Daten

𝑝 (𝑋𝑤1 = 1) = 𝑐𝑜𝑢𝑛𝑡(𝑤1) / 𝑁 𝑝 (𝑋𝑤2 = 1) = 𝑐𝑜𝑢𝑛𝑡(𝑤2) / 𝑁 𝑝 (𝑋𝑤1 = 1, 𝑋𝑤2 = 1) = 𝑐𝑜𝑢𝑛𝑡(𝑤1, 𝑤2) / N

Berechnung der Transinformation

An-/Abwesenheit 𝒘𝟏: 𝒑(𝑿𝒘𝟏 = 𝟏) + 𝒑(𝑿𝒘𝟏 = 𝟎) = 𝟏 An-/Abwesenheit 𝒘𝟐: 𝒑(𝑿𝒘𝟐 = 𝟏) + 𝒑(𝑿𝒘𝟐 = 𝟎) = 1 Kookkurrenzen von 𝒘𝟏 und 𝒘𝟐: 𝒑 (𝑿𝒘𝟏 = 𝟏, 𝑿𝒘𝟐 = 𝟏) + 𝒑 (𝑿𝒘𝟏 = 𝟏,𝑿𝒘𝟐 = 𝟎) + 𝒑 (𝑿𝒘𝟏 = 𝟎, 𝑿𝒘𝟐 = 𝟏 ) + 𝒑 (𝑿𝒘𝟏 = 𝟎, 𝑿𝒘𝟐 = 𝟎) = 𝟏 Nebenbedingungen: 𝒑 (𝑿𝒘𝟏 = 𝟏,𝑿𝒘𝟐 = 𝟏) + 𝒑 (𝑿𝒘𝟏 = 𝟏,𝑿𝒘𝟐 = 𝟎) = 𝒑(𝑿𝒘𝟏 = 𝟏) 𝒑 (𝑿𝒘𝟏 = 𝟎,𝑿𝒘𝟐 = 𝟏) + 𝒑( 𝑿𝒘𝟏 = 𝟎,𝑿𝒘𝟐 = 𝟎) = 𝒑(𝑿𝒘𝟏 = 𝟎) 𝒑 (𝑿𝒘𝟏 = 𝟏,𝑿𝒘𝟐 = 𝟏 )+ 𝒑( 𝑿𝒘𝟏 = 𝟎,𝑿𝒘𝟐 = 𝟏) = 𝒑(𝑿𝒘𝟐 = 𝟏) 𝒑 (𝑿𝒘𝟏 = 𝟏,𝑿𝒘𝟐 = 𝟎) + 𝒑 ( 𝑿𝒘𝟏 = 𝟎,𝑿𝒘𝟐 = 𝟎) = 𝒑(𝑿𝒘𝟐 = 𝟎) Wir brauchen nur 𝒑(𝑿𝒘𝟏 = 𝟏), 𝒑(𝑿𝒘𝟐 = 𝟏) und 𝒑 𝑿𝒘𝟏 = 𝟏,𝑿𝒘𝟐 = 𝟏 zu schätzen.