Datenintegrationsprozess Flashcards

1
Q

Was sind Problemstellungen der Datenintegration?

A

Vollständigkeit (Alle relevanten Informationen müssen im integrierten Datenbestand enthalten sein)

Datenfehler (Datensätze müssen inhaltlich fehlerfrei und konsistent sein)

Duplikate (Nicht mehrere Datensätze zu demselben Realweltobjekt)

Qualität (Integrierter Datenbestand muss eine hohe Informationsqualität aufweisen)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Aus welchen Schritten besteht der betriebliche Informationsintegrationsprozess?

A

Extract, Transform, Load

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Was ist Extract?

A

Auswahl der für die Datenintegration relevanten Datenquellen, Erstellung eines globalen Datenschemas und Abfragen der relevanten Datenquellen

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Was ist Transform?

A

Mapping und Integration der Quellschemata zu einem semantisch eindeutigen Zielschema (Ontologie), Ermittlung und Beseitigung von Datenfehlern und Erkennung und Fusion von Duplikaten

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Was ist Load?

A

Zusammenführung der transformierten Datensätze in einen aggregierten und häufig historisierten Datenbestand und Einfügen (Laden) dieses Datenbestands in ein geeignetes DBMS

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Was ist die charakteristische Fragestellung zu Extract?

A

Welche Datensätze aus den Datenquellen sind für die Datenintegration überhaupt relevant?

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Was ist die charakteristische Fragestellung zu Transform?

A

Wie müssen diese Daten aufbereitet werden, sodass sie zum integrierten Datenbestand passen?

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Was ist die charakteristische Fragestellung zu Load?

A

Wie können die aufbereiteten Datensätze zu einem integrierten Datenbestand zusammengeführt werden?

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Wo können Datenfehler entstehen beim Datenintegrationsprozess?

A

Auf Schema- sowie auf Datenebene und sowohl in einzelnen Datenquellen aus auch bei der Integration mehrerer Datenquellen

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Welche Fehler treten im Regelfall bei einzelnen Datenquellen auf Schemaebene auf und wie werden sie behoben?

A
  • Unzulässige Werte
  • Verletzung von strukturellen oder referenziellen Integritätsbedingungen

Behebung durch Schemagenerierung und -validierung

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Welche Fehler treten im Regelfall bei einzelnen Datenquellen auf Datenebene auf und wie werden sie behoben?

A
  • Fehlende Werte
  • Falsche Werte
  • Falsche Referenzen
  • Kryptische Werte

Behebung durch Datenreinigung und -aufbereitung

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Welche Fehler treten im Regelfall bei integrierten Datenquellen auf Datenebene auf und wie werden sie behoben?

A
  • Duplikate
  • Unterschiedlich repräsentierte Werte
  • Unterschiedliche Aggregationsebenen

Behebung durch Datentransformation, -aggregation und -fusion

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Welche Fehler treten im Regelfall bei integrierten Datenquellen auf Schemaebene auf und wie werden sie behoben?

A
  • Schematische oder strukturelle Heterogenität
  • Semantische Heterogenität

Behebung durch Schema Mapping und semantische Integration

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Was sind Ursachen für Datenfehler?

A

Dateneingabe und Erfassung (z.B. Tippfehler, Dummy Werte..)

Alterung (Mangelhafte Pflege z.B. Adressänderungen)

Transformation (Fehler bei Spezifikation oder Datentransformationen z.B. Umrechnungsfehler)

Integration (Fehler bei semantischer Integration z.B. Erzeugung von Duplikaten)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Was sind Auswirkungen von Datenfehlern?

A

Wirtschaftlicher Schaden (z.B. falsche Bestellungen/Lieferungen)

Imageschaden (Negative Resonanz der Kunden z.B. fehlerhafte Verarbeitung Kundendaten)

Rechtliche Probleme (Verstoß gegen Gesetze und Regeln z.B. bei Abrechnung)

Ethische Probleme (Diskriminierung von Personen, z.B. bei fehlerhaften datengetriebenen Personalentscheidungen)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Welche Phasen umfasst ein systematischer betrieblicher Umgang mit Datenfehlern um diese frühzeitig zu erkennen und zu vermeiden?

A

Profiling
Assessment
Monitoring

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
17
Q

Was ist Profiling?

A

Erkundigung der Datenbestände durch Experten

Überprüfung von Stastitiken zu den Daten wie z.B. Häufigkeitsverteilungen und Ausreißer

Suche nach auffälligen Fehlermuster in den Datenbeständen

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
18
Q

Was ist Assessment?

A

Festlegung von Kriterien die die Datenbestände erfüllen sollen

Messung, wie gut die Bedingungen tatsächlich erfüllt sind

Erstellung eines Berichts zur Anzahl und Verteilung von Fehlern in den Datenbeständen

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
19
Q

Was ist Monitoring?

A

Einleitung von Maßnahmen zur Reduktion der Fehlerzahl durch Fehlerbehebung oder Beseitigung von Fehlerquellen

Regelmäßiges Assessment des Erfolgs dieser Maßnahmen und Vergleich mit vorigen Fehlerquoten

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
20
Q

Was gelingt Unternehmen mit den drei Prozessschritten Profiling, Assessment und Monitoring?

A

Datenfehler möglichst vorzubeugen durch periodische Qualitätskontrolle die ein frühzeitiges Finden und Beseitigen der Datenfehler ermöglicht.

Ohne die Schritte wird es früher oder später zu negativen Konsequenzen durch Datenfehler kommen

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
21
Q

Was ist Data Scrubbing?

A

Bedeutet einzelne Datensätze so aufzubereiten, dass diese für die weiteren Schritte des Datenintegrationsprozesses nutzbar werden.

22
Q

Was sind Aufgaben des Data Scrubbing?

A

Datennormalisierung: Datenwerte werden in ein einheitliches Format überführt (Sprache, Syntax etc)

Datenkonvertierung: Numerische Datenwerte werden in einheitliche Einheiten (z B Meter, US Dollar, etc) überführt

Beseitigung fehlender Werte: Fehlende Datenwerte werden durch ein
Verfahren beseitigt

Entfernen von Ausreißern: Werte, die nicht zu den anderen Werten einer Gruppe passen, werden erkannt und ggf entfernt

23
Q

Welche Verfahren gibt es für die Beseitigung fehlender Werte?

A

Attribut oder Entität löschen: Attribute oder Entitäten mit vielen fehlenden sollten mangels Aussagekraft gelöscht werden

Nullwert verwenden: Wenn das Zielschema dies zulässt, kann für fehlende Werte ein Nullwert hinterlegt werden

Verwendung eines Dummy Werts: Anstelle eines Nullwerts kann auch ein (einheitlicher!)( Dummy Wert (z B sonstige) verwendet werden

Statistische Imputation: Fehlende numerische Werte können geschätzt werden (z B Mittelwert oder Median der anderen relevanten Werte)

24
Q

Was passiert nach dem Data Scrubbing?

A

Die Datensätze können fusioniert werden und in das einheitliche Schema übertragen werden.

Duplikaterkennung ist wichtig vor der tatsächlichen Fusion!

25
Q

Was ist die Voraussetzung für das Finden und Eliminieren von Duplikaten auf Datenebene?

A

Ein Verfahren zur Lösung des Entity Identification Problems

26
Q

Was ist das Entity Identification Problem?

A

Besteht darin zu erkennen, dass mehrere Datensätze aus unterschiedlichen Datenquellen dasselbe Realweltobjekt beschreiben

Das analoge Problem zum Schema Mapping nur auf Instanzebene

27
Q

Wie kann man Duplikate finden?

A

Eine Ähnlichkeit zwischen Datensätzen mittels einer Distanzfunktion berechnen und einen Schwellenwert für Gleichheit festlegen

28
Q

Was sind mögliche Verfahren zur Erkennung von Duplikaten?

A

Vergleich einzelner Attributwerte:

Textuelle Attribute: Hamming Distanz, Levenshtein Distanz
Numerische Attribute: Minkowski Distanz

Vergleich der gesamten Datensätze:
Jaccard Distanz

29
Q

Was ist die Hamming Distanz?

A

Zählt bei Texten gleicher Länge die Anzahl unterschiedlicher Zeichen

30
Q

was ist die Levenshtein Distanz?

A

Zählt die Anzahl an notwendigen Änderungsoperationen (Einfügen, Ersetzen und Löschen von Zeichen) um einen Text in einen anderen Text zu überführen

31
Q

Wann stößt die Hamming Distanz schnell an ihre Grenzen?

A

Z.B. bei Freitextfeldern die manuell mit Daten befüllt wurden wenn sich die Zeichenketten in ihrer Länge unterscheiden

32
Q

Wofür eignet sich die Levenshtein Distanz gut?

A

Die Levenshtein Distanz eignet sich gut, um manuell angelegte textuelle Attributwerte auf Ähnlichkeit zu überprüfen und dabei beispielsweise Tippfehler zu berücksichtigen

33
Q

Was ist die Minkowski Distanz?

A

Mit der Minkowski Distanz können Cluster von ähnlichen Entitäten mehrdimensionaler numerischer Attribute berechnet werden.

Ist eine Metrik, gibt also die Distanz zwischen Punkten im Raum an

Parametrische Funktion: d.h. man kann mit einem Parameterwert P einstellen, wie genau die Distanz zwischen den Punkten berechnet wird.

34
Q

Was erhält die Minkowski Distanz als Eingabe?

A
Zwei Vektoren (Tupel) von Zahlen X und Y.
Vektoren müssen gleiche Länge n aufweisen.

Minkowski Distanz berechnet einen Zahlenwert für die Distanz zwischen X und Y

35
Q

Was passiert wenn der Parameter p = 1 ist?

A

Ist die Manhattan Distanz. Absolutbetrag der Differenzen zwischen zwei Stellen der Vektoren wird aufsummiert. (In einem Koordinatensystem sind nur Bewegungen in vert. und hor. Richtung zulässig)

M-Distanz ist dann die Länge des kürzesten zulässigen zwischen den zwei Punkten.

36
Q

Was passiert wenn der Parameter p = 2 ist?

A

Die so genannte Euklidische Distanz die auch in der euklidischen
Geometrie Anwendung findet. Die Absolutbeträge der Differenzen zwischen je zwei Stellen der Vektoren werden vor dem Aufsummieren quadriert und anschließend die Quadratwurzel der gebildeten Summe berechnet.

Tatsächliche räumliche Distanz zwischen zwei Punkten in einem n dimensionalen Raum berechnet werden, wenn beliebige räumliche Bewegungen zulässig sind (also auch diagonal).

37
Q

Was passiert wenn der Parameter p gegen unendlich konvergiert?

A

Wird die Funktion auch als Tschebyschew Distanz bezeichnet und liefert dann lediglich die Entfernung zwischen zwei Punkten in derjenigen Dimension, in der sie am weitesten voneinander entfernt sind.

Liegen zwei Punkte also beispielsweise in einer zweidimensionalen Ebene drei Längeneinheiten in horizontaler und zwei Längeneinheiten in vertikaler Richtung auseinander, so beträgt die Tschebyschew Distanz lediglich 3 weil nur diejenige Dimension mit der größten Entfernung im
Ergebnis Berücksichtigung findet.

38
Q

Wie entscheidet man welches Berechnungsverfahren sinnvoll ist?

A

Hängt davon ab, welches Distanzmaß in der konkreten Situation sinnvoll erscheint. Da es sich bei der Minkowski Distanz um eine Metrik handelt, also eine Funktion zur Bestimmung von Distanzen in einem
geometrischen Raum, sind die berechneten Distanzen relativ zueinander immer gleich geordnet, sie unterscheiden sich nur in ihren absoluten Werten.

Es ist also bei drei Punkten A B und C nicht möglich, dass die Distanz zwischen A und B für bestimmte Werte von p größer ausfällt als diejenige zwiscqhen A und C für andere Werte von p hingegen kleiner. Daher ist die Wahl von p für die relative Bestimmung von Ähnlichkeiten zwischen numerischen Attributwerten im Prinzip unerheblich, es sollte lediglich darauf geachtet werden, dass der Schwellenwert für die Duplikatbestimmung entsprechend angepasst wird

39
Q

Was ist die Jaccard DIstanz?

A

Damit können ähnliche Objekte durch den Vergleich ihrer Attributwerte identifiziert und zusammengeführt werden.

Erfasst den Anteil ähnlicher Attributwerte an der Menge aller Attributwerte.

40
Q

Was ist Datenfusion?

A

Ist erforderlich um unterschiedliche Datensätze zusammenzuführen, die das gleiche Realweltobjekt beschreiben also um Duplikate zu beseitigen.

41
Q

Welche Szenarieren gibt es zur Struktur und Inhalt der Datensätze bei der Datenfusion?

A

Gleichheit: Die Attribute und Attributwerte der Datensätze sind komplett identisch In diesem Fall ist keine besondere Aktion erforderlich, es kann einfach eine Kopie der Datensätze verwendet werden.

Subsumption: Die Datensätze verfügen über die gleichen Attribute, allerdings enthält einer der Datensätze mehr Attributwerte, die in den anderen Datensätzen fehlen, also Nullwerte sind. In diesem Fall müssen alle Nullwerte durch den jeweils vorhandenen Wert ersetzt werden, ehe der Datensatz übernommen wird.

Komplementierung: Die Datensätze weisen zwar unterschiedliche Attribute auf, es gibt jedoch kein Attribut, für das zwei unterschiedliche Werte vorliegen. In diesem Fall muss die Obermenge aller Attributmengen gebildet werden und es müssen den Attributen ihre jeweiligen Werte zugewiesen werden, ehe der Datensatz übernommen werden kann.

Konflikt: In allen anderen Situationen liegt ein Konflikt vor, weil mindestens ein Attribut in den Datensätzen verschiedene Werte aufweist. Bevor ein solcher Datensatz übernommen werden kann, ist somit zunächst eine Konfliktlösung erforderlich, für die erneut vier mögliche Strategien existieren.

42
Q

Welche Strategien gibt es für die Konfliktlösung bei der Datenfusion?

A

Beide Werte behalten: Im Zieldatensatz tauchen beide Werte, die den Konflikt verursachen, nebeneinander auf.

Einen Wert löschen: Einer der Werte, der den Konflikt verursacht hat, wird zugunsten des anderen Wertes entfernt.

Gesamtes Attribut entfernen: Falls unklar ist, welcher Wert stimmig ist, und eine Beibehaltung beider Attributwerte nicht vorgesehen oder nicht erwünscht ist, kann auch eine Möglichkeit darin bestehen, dass gesamte Attribut zu löschen.

Wert manuell festlegen: Selbstverständlich ist es auch möglich, einen neuen Wert manuell festzulegen, wenn dies zur Lösung des Konflikts beiträgt

43
Q

Was liegt nach der Datenfusion vor?

A

Ein integrierter und redundanzfreier Gesamtdatenbestand liegt vor, der dann für Analysen zum betrieblichen Wissensgewinn zur Verfügung
steht. Bevor dieser weiterverwendet wird, sollte jedoch mithilfe der nachfolgend vorgestellten Verfahren noch seine Informationsqualität überprüft werden.

44
Q

Wie kann die Vollständigkeit eines Datenbestands ermittelt werden?

A

Unter der Vollständigkeit eines Datenbestands wird das Produkt aus dessen Deckung und Dichte verstanden.

Die Deckung (coverage) 𝒄(𝑹) einer Relation R ist der Anteil relevanter Realweltobjekte, die in R enthalten sind. Die maximale Deckung liegt vor, wenn alle relevanten Objekte, die im Datenbestand enthalten sein sollen, auch tatsächlich dort vorkommen.

Die Dichte (density)( 𝒅(𝑹) einer Relation R bemisst die Genauigkeit, mit der die im Datenbestand enthaltenen Objekte beschrieben werden. Sie ist maximal, wenn zu jeder Kombination aus Entität und Attribut ein entsprechender Attributwert vorliegt, was bedeutet, dass es keine Nullwerte gibt

45
Q

Wie kann man die Korrektheit eines Datenbestands bestimmen?

A

Mit einer Konfusionsmatrix und daraus resultierend Precision und Recall.

X Achse der Matrix: Objekt in der Realwelt vorhanden?
Y Achse der Matrix: Objekt im Datenbestand vorhanden?

46
Q

Was ist in der Konfusionsmatrix enthalten?

A

Es existieren somit vier mögliche Fälle, die in einer
Konfusionsmatrix notiert werden können

True Positive ( Das Objekt ist richtigerweise im Datenbestand enthalten

False Positive ( Das Objekt ist zu Unrecht im Datenbestand enthalten

False Negative ( Das Objekt fehlt zu Unrecht im Datenbestand

True Negative ( Das Objekt existiert weder real noch im Datenbestand

47
Q

Was ist Precision?

A

Die Precision gibt an, wie hoch der Anteil falscher Objekte im Datenbestand ist. Sie wird berechnet als der Anteil an True Positives unter allen „positives” also allen im Datenbestand vorhandenen Objekten. Liegt sie bei eins, bedeutet das, dass kein fehlerhaftes Objekt im Datenbestand vorkommt. Dieses Ziel ließe sich allerdings bereits dadurch erreichen, dass der Datenbestand nur einen (korrekten) Eintrag enthält, sodass die Precision für sich genommen noch kein hinreichendes Qualitätsmaß ist

48
Q

Was ist Recall?

A

Stattdessen sollte auch der Recall ermittelt werden. Dieser gibt den Anteil fehlender Objekte im Datenbestand an und wird als der Anteil an True Positives unter allen „True” Werten berechnet.
Liegt er bei eins, bedeutet das, dass im Datensatz keine Werte fehlen Der Recall sagt aber nichts darüber aus, ob zusätzliche, fehlerhafte Datensätze vorkommen.

49
Q

Wann sollte man Recall oder Precision nehmen?

A

Um die Korrektheit der Datenbasis zu bestimmen, sollten daher sowohl Precision als auch Recall ermittelt werden. Je nachdem, welches Ziel verfolgt wird, sind die beiden Größen dabei jedoch nicht notwendigerweise gleich wichtig.

Wenn es nämlich besonders wichtig ist, dass keine fehlerhaften Daten
vorkommen, sollte vorwiegend die Precision optimiert werden. Ist es dagegen von besonderer Bedeutung, dass keine Einträge fehlen, sollte sich die Optimierung auf die Erhöhung des Recalls konzentrieren

50
Q

Wann weist ein int. Datenbestand eine hohe Informationsqualität auf?

A

Wenn der den zweck erfüllt für den er vorgesehen ist.

“Fitness for use”.