Datenintegrationsprozess Flashcards

Question

Was ist die Voraussetzung für das Finden und Eliminieren von Duplikaten auf Datenebene?

Answer 1

Ein Verfahren zur Lösung des Entity Identification Problems

Answer 2

Besteht darin zu erkennen, dass mehrere Datensätze aus unterschiedlichen Datenquellen dasselbe Realweltobjekt beschreiben Das analoge Problem zum Schema Mapping nur auf Instanzebene

Answer 3

Eine Ähnlichkeit zwischen Datensätzen mittels einer Distanzfunktion berechnen und einen Schwellenwert für Gleichheit festlegen

Answer 4

Vergleich einzelner Attributwerte: Textuelle Attribute: Hamming Distanz, Levenshtein Distanz Numerische Attribute: Minkowski Distanz Vergleich der gesamten Datensätze: Jaccard Distanz

Answer 5

Zählt bei Texten gleicher Länge die Anzahl unterschiedlicher Zeichen

Answer 6

Zählt die Anzahl an notwendigen Änderungsoperationen (Einfügen, Ersetzen und Löschen von Zeichen) um einen Text in einen anderen Text zu überführen

Answer 7

Z.B. bei Freitextfeldern die manuell mit Daten befüllt wurden wenn sich die Zeichenketten in ihrer Länge unterscheiden

Answer 8

Die Levenshtein Distanz eignet sich gut, um manuell angelegte textuelle Attributwerte auf Ähnlichkeit zu überprüfen und dabei beispielsweise Tippfehler zu berücksichtigen

Answer 9

Mit der Minkowski Distanz können Cluster von ähnlichen Entitäten mehrdimensionaler numerischer Attribute berechnet werden. Ist eine Metrik, gibt also die Distanz zwischen Punkten im Raum an Parametrische Funktion: d.h. man kann mit einem Parameterwert P einstellen, wie genau die Distanz zwischen den Punkten berechnet wird.

Answer 10

``` Zwei Vektoren (Tupel) von Zahlen X und Y. Vektoren müssen gleiche Länge n aufweisen. ``` Minkowski Distanz berechnet einen Zahlenwert für die Distanz zwischen X und Y

Answer 11

Ist die Manhattan Distanz. Absolutbetrag der Differenzen zwischen zwei Stellen der Vektoren wird aufsummiert. (In einem Koordinatensystem sind nur Bewegungen in vert. und hor. Richtung zulässig) M-Distanz ist dann die Länge des kürzesten zulässigen zwischen den zwei Punkten.

Answer 12

Die so genannte Euklidische Distanz die auch in der euklidischen Geometrie Anwendung findet. Die Absolutbeträge der Differenzen zwischen je zwei Stellen der Vektoren werden vor dem Aufsummieren quadriert und anschließend die Quadratwurzel der gebildeten Summe berechnet. Tatsächliche räumliche Distanz zwischen zwei Punkten in einem n dimensionalen Raum berechnet werden, wenn beliebige räumliche Bewegungen zulässig sind (also auch diagonal).

Answer 13

Wird die Funktion auch als Tschebyschew Distanz bezeichnet und liefert dann lediglich die Entfernung zwischen zwei Punkten in derjenigen Dimension, in der sie am weitesten voneinander entfernt sind. Liegen zwei Punkte also beispielsweise in einer zweidimensionalen Ebene drei Längeneinheiten in horizontaler und zwei Längeneinheiten in vertikaler Richtung auseinander, so beträgt die Tschebyschew Distanz lediglich 3 weil nur diejenige Dimension mit der größten Entfernung im Ergebnis Berücksichtigung findet.

Answer 14

Hängt davon ab, welches Distanzmaß in der konkreten Situation sinnvoll erscheint. Da es sich bei der Minkowski Distanz um eine Metrik handelt, also eine Funktion zur Bestimmung von Distanzen in einem geometrischen Raum, sind die berechneten Distanzen relativ zueinander immer gleich geordnet, sie unterscheiden sich nur in ihren absoluten Werten. Es ist also bei drei Punkten A B und C nicht möglich, dass die Distanz zwischen A und B für bestimmte Werte von p größer ausfällt als diejenige zwiscqhen A und C für andere Werte von p hingegen kleiner. Daher ist die Wahl von p für die relative Bestimmung von Ähnlichkeiten zwischen numerischen Attributwerten im Prinzip unerheblich, es sollte lediglich darauf geachtet werden, dass der Schwellenwert für die Duplikatbestimmung entsprechend angepasst wird

Answer 15

Damit können ähnliche Objekte durch den Vergleich ihrer Attributwerte identifiziert und zusammengeführt werden. Erfasst den Anteil ähnlicher Attributwerte an der Menge aller Attributwerte.

Answer 16

Ist erforderlich um unterschiedliche Datensätze zusammenzuführen, die das gleiche Realweltobjekt beschreiben also um Duplikate zu beseitigen.

Answer 17

Gleichheit: Die Attribute und Attributwerte der Datensätze sind komplett identisch In diesem Fall ist keine besondere Aktion erforderlich, es kann einfach eine Kopie der Datensätze verwendet werden. Subsumption: Die Datensätze verfügen über die gleichen Attribute, allerdings enthält einer der Datensätze mehr Attributwerte, die in den anderen Datensätzen fehlen, also Nullwerte sind. In diesem Fall müssen alle Nullwerte durch den jeweils vorhandenen Wert ersetzt werden, ehe der Datensatz übernommen wird. Komplementierung: Die Datensätze weisen zwar unterschiedliche Attribute auf, es gibt jedoch kein Attribut, für das zwei unterschiedliche Werte vorliegen. In diesem Fall muss die Obermenge aller Attributmengen gebildet werden und es müssen den Attributen ihre jeweiligen Werte zugewiesen werden, ehe der Datensatz übernommen werden kann. Konflikt: In allen anderen Situationen liegt ein Konflikt vor, weil mindestens ein Attribut in den Datensätzen verschiedene Werte aufweist. Bevor ein solcher Datensatz übernommen werden kann, ist somit zunächst eine Konfliktlösung erforderlich, für die erneut vier mögliche Strategien existieren.

Answer 18

Beide Werte behalten: Im Zieldatensatz tauchen beide Werte, die den Konflikt verursachen, nebeneinander auf. Einen Wert löschen: Einer der Werte, der den Konflikt verursacht hat, wird zugunsten des anderen Wertes entfernt. Gesamtes Attribut entfernen: Falls unklar ist, welcher Wert stimmig ist, und eine Beibehaltung beider Attributwerte nicht vorgesehen oder nicht erwünscht ist, kann auch eine Möglichkeit darin bestehen, dass gesamte Attribut zu löschen. Wert manuell festlegen: Selbstverständlich ist es auch möglich, einen neuen Wert manuell festzulegen, wenn dies zur Lösung des Konflikts beiträgt

Answer 19

Ein integrierter und redundanzfreier Gesamtdatenbestand liegt vor, der dann für Analysen zum betrieblichen Wissensgewinn zur Verfügung steht. Bevor dieser weiterverwendet wird, sollte jedoch mithilfe der nachfolgend vorgestellten Verfahren noch seine Informationsqualität überprüft werden.

Answer 20

Unter der Vollständigkeit eines Datenbestands wird das Produkt aus dessen Deckung und Dichte verstanden. Die Deckung (coverage) 𝒄(𝑹) einer Relation R ist der Anteil relevanter Realweltobjekte, die in R enthalten sind. Die maximale Deckung liegt vor, wenn alle relevanten Objekte, die im Datenbestand enthalten sein sollen, auch tatsächlich dort vorkommen. Die Dichte (density)( 𝒅(𝑹) einer Relation R bemisst die Genauigkeit, mit der die im Datenbestand enthaltenen Objekte beschrieben werden. Sie ist maximal, wenn zu jeder Kombination aus Entität und Attribut ein entsprechender Attributwert vorliegt, was bedeutet, dass es keine Nullwerte gibt

Answer 21

Mit einer Konfusionsmatrix und daraus resultierend Precision und Recall. X Achse der Matrix: Objekt in der Realwelt vorhanden? Y Achse der Matrix: Objekt im Datenbestand vorhanden?

Answer 22

Es existieren somit vier mögliche Fälle, die in einer Konfusionsmatrix notiert werden können True Positive ( Das Objekt ist richtigerweise im Datenbestand enthalten False Positive ( Das Objekt ist zu Unrecht im Datenbestand enthalten False Negative ( Das Objekt fehlt zu Unrecht im Datenbestand True Negative ( Das Objekt existiert weder real noch im Datenbestand

Answer 23

Die Precision gibt an, wie hoch der Anteil falscher Objekte im Datenbestand ist. Sie wird berechnet als der Anteil an True Positives unter allen „positives" also allen im Datenbestand vorhandenen Objekten. Liegt sie bei eins, bedeutet das, dass kein fehlerhaftes Objekt im Datenbestand vorkommt. Dieses Ziel ließe sich allerdings bereits dadurch erreichen, dass der Datenbestand nur einen (korrekten) Eintrag enthält, sodass die Precision für sich genommen noch kein hinreichendes Qualitätsmaß ist

Answer 24

Stattdessen sollte auch der Recall ermittelt werden. Dieser gibt den Anteil fehlender Objekte im Datenbestand an und wird als der Anteil an True Positives unter allen „True" Werten berechnet. Liegt er bei eins, bedeutet das, dass im Datensatz keine Werte fehlen Der Recall sagt aber nichts darüber aus, ob zusätzliche, fehlerhafte Datensätze vorkommen.

Answer 25

Um die Korrektheit der Datenbasis zu bestimmen, sollten daher sowohl Precision als auch Recall ermittelt werden. Je nachdem, welches Ziel verfolgt wird, sind die beiden Größen dabei jedoch nicht notwendigerweise gleich wichtig. Wenn es nämlich besonders wichtig ist, dass keine fehlerhaften Daten vorkommen, sollte vorwiegend die Precision optimiert werden. Ist es dagegen von besonderer Bedeutung, dass keine Einträge fehlen, sollte sich die Optimierung auf die Erhöhung des Recalls konzentrieren

Answer 26

Wenn der den zweck erfüllt für den er vorgesehen ist. "Fitness for use".

Datenintegrationsprozess Flashcards

(50 cards)