Semantische Integration Flashcards

1
Q

Wozu dienen syntaktische Standards?

A

syntaktischen Standards ermöglichen zwar die einheitliche Abbildung und Strukturierung von Informationen im Web, wodurch die automatische Verarbeitung sowohl von lokal vorliegender Information als auch aus entfernten Quellen stammender Information erheblich erleichtert wird.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Syntaktische Homogenität ist eine notwendige, aber nicht hinreichende Bedingung für die … .

A

gemeinsame Informationsnutzung

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Abstrakt betrachtet können die oben beschriebenen Heterogenitätskonflikte folgen-den Ebenen zugeordnet werden:

A
  • Datenmodellebene
  • Datenschemaebene
  • Dateninstanzebene
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Heterogenitätskonflikte zwischen Datenmodellen:

A

Datenquellen können sich deutlich in der Darstellung von Daten unterscheiden

Syntaktische Ebene wird angesprochen

Das Abgleichen heterogener Datenquellen macht ein gemeinsames Daten-Modell erforderlich.

Es müssen geeignete Transformationen gefunden werden

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Heterogenitätskonflikte zwischen Datenschemata

A

Auf der strukturellen Ebene stellt sich das Abgleichen unterschiedlicher schematischer Repräsentationen ein und desselben Objekts oder Merkmals als problematisch dar.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Unterscheidung der Heterogenitätskonflikte zwischen Datenschemata

A
  • bilaterale Konflikte
  • multilaterale Konflikte
  • metalevel Konflikte
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Bilaterale Konflikte:

A

Bilaterale Konflikte betreffen in der Regel genau ein Objekt. Dieses eine Objekt wird in unterschiedlichen Informationsquellen durch unterschiedliche, beschreibende Strukturen abgelegt.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Arten von bilateralen Konflikten:

A
  • Namenskonflikte (Bezeichnerkonflikte)
  • Datentypkonflikte
  • Integritätskonflikte
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Namenskonflike:

A

Namenskonflikte treten in allen Fällen auf, in denen Quellen unterschiedliche Namen für dasselbe Objekt der realen Welt (real world object) verwenden. Ein typischer Fall ist die Verwendung unterschiedlicher Namen für das gleiche Attribut in relationalen Datenbanken (Synonyme). Ebenso können Homonyme, also syntaktisch gleiche Bezeichner, aber semantisch unterschiedliche Relationen, zu Namenskonflikten führen.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Datentypkonflikte:

A

Als Datentypkonflikt bezeichnet man den Fall, dass verschiedene Datentypen für denselben Wert verwendet werden, z. B. der Preis für eine Unterkunft einmal im integer-, in einer anderen Datenquelle jedoch im real- oder string-Format angegeben wird.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Integritätskonflikt:

A

Die Verwendung unter-schiedlicher Identifikatoren für dasselbe Objekt erschwert es, Information über das Objekt aus verschiedenen Quellen zusammenzufassen und führt zum Integritätskonflikt.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Multilaterale Konflikte:

A

Multilaterale Konflikte sind Konflikte, die mehr als ein Objekt einer Repräsentation berühren. Sie treten auf, wenn eine Information, welche in einer Quelle durch ein einzelnes Objekt repräsentiert wird, in einer anderen Quelle auf mehrere Objekte verteilt ist.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Arten Multilateraler Konflikte

A
  • multilateral attribute correspondences
  • multilateral entity correspondances
  • missing values
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

multilateral attribute correspondences:

A

Als multilateral attribute correspondances werden Konflikte bezeichnet, die durch Verteilung von Informationen auf mehrere Eigenschaften (Prädikate) auftreten.

In anderen Quellen könnte dieselbe Information durch die zwei Eigenschaften city und country beschrieben werden.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

multilateral entity correspondances

A

Als multilateral entity correspondances bezeichnet man Konflikte, die entstehen, wenn einzelne oder mehrere Ressourcen verwendet werden, um eine bestimmte Information darzustellen.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

missing values:

A

Als missing values werden Konflikte bezeichnet, die entstehen, wenn bestimmte Teile einer Information, die in einer Informationsquelle enthalten sind, in einer anderen Informationsquelle fehlen.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
17
Q

Meta-Level-Konflikte:

A

Diese Konflikte sind bedingt durch die Verwendung unterschiedlicher Modellierungselemente zur Repräsentation von Information derselben Art. In konzeptionellen Datenmodellen sind diese Grundelemente Dateneinheiten (entities), Attribute und Daten, in RDF-Ressourcen sind es Ressourcen, Eigenschaften und Datentypen/Literale. Die Vermischung dieser Modellierungselemente bei der Repräsentation kann zu Konflikten führen.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
18
Q

Heterogenitätskonflikte zwischen Dateninstanzen

A

Es kann hier zwischen zwei Konflikttypen unterschieden werden. Datenkonflikte gehen aus unterschiedlicher Codierung hervor und Domänenkonflikte erwachsen aus der unterschiedlichen Konzeptionierung des jeweiligen Wissensbereiches

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
19
Q

Was bezeichnet man als different scales?

A

Im Einzelnen spricht man von unterschiedlichen Skalen (different scales), wenn ins-besondere numerische Werte auf verschiedenen Maßstäben basieren. (Datenkonflikte)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
20
Q

Was bezeichnet man als different value ranges?

A

Besitzt man keine Kenntnis über die zugrunde liegende Skala, ist auch kein Vergleich der Merkmale bzw. deren Abstraktion als Werte möglich. (Datenkonflikte)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
21
Q

Was bezeichnet man als surjective mapping?

A

Wenn ein Wert einer Quelle auf mehrere Werte der anderen Quelle abgebildet wird, spricht man von dem Konflikttypen des surjective mappings. (Datenkonflikte)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
22
Q

Was bezeichnet man als schema mapping?

A

Beim Vergleich voneinander unabhängiger Dokumente müssen Elemente, die entweder in Beziehung zueinander stehen oder dasselbe beschreiben, schon während der Integration bestimmt werden. Dieser Konfliktfall wird als schema mapping oder schema matching bezeichnet. (Datenkonflikte)

23
Q

Domänenkonflikte:

A

Domänenkonflikte treten auf, wenn sich verschiedene Konzeptualisierungen bestimmter Wissensbereiche der realen Welt widersprechen und somit ein Vergleich unmöglich wird.

24
Q

Vier Typen von Domänenkonflikten:

A

Zum einen ist hier der Fall der Subsumption zu nennen. Dieser liegt vor, wenn eine Klasse von Objekten alle Objekte, die in einer anderen Klasse enthalten sind, einbezieht.

Der zweite Konflikttyp stellt den etwas komplexeren Fall der Überlappung vor. Wenn sich zwei Klassen teilweise überlappen (overlap)

wenn dies gerade nicht der Fall ist, d. h. Klassen per definitionem disjunkt sind. Ein Beispiel für diesen dritten Konflikttyp (inconsistency)

Ein weiterer möglicher Konflikt auf Ebene der Domäne (domain-level) ist bedingt durch die unterschiedlichen Abstraktionsebenen, die dazu führen können, dass Daten in verbundener Form auftreten (aggregation)

25
Q

Informationsintegration

A

Informationsintegration kann dabei als Verbindung von Daten- und Funktionsintegration angesehen werden.

26
Q

Datenintegration

A

Datenintegration zielt auf die Zusammenführung heterogener Datenbestände ab. Das Ziel von Datenintegration ist es, die Daten aus den verteilten, heterogenen Datenquellen zu einer einheitlichen Beschreibung, dem globalen Schema, zusammenzuführen.

27
Q

Funktionsintegration:

A

Funktionsintegration bezeichnet das Verfügbarmachen lokaler Funktionen bzw. Dienste aus den einzelnen Systemen in einer einheitlichen Form

28
Q

Lösen von Heterogenitätskonflikten

A

Um Heterogenitätskonflikte aufzulösen, müssen zunächst Übereinstimmungen (sog. matches) zwischen den Schemata der verschiedenen Datenquellen aufgezeigt wer-den. Dies können 1:1 oder 1:n (bzw. n:n) matches sein (vgl. Schema matching bzw. mapping).

29
Q

Lösen von Heterogenitätskonflikten

A

Um Heterogenitätskonflikte aufzulösen, müssen zunächst Übereinstimmungen (sog. matches) zwischen den Schemata der verschiedenen Datenquellen aufgezeigt wer-den. Dies können 1:1 oder 1:n (bzw. n:n) matches sein (vgl. Schema matching bzw. mapping).

30
Q

Wrapper:

A

Wrapper sind Softwarekomponenten, die den Inhalt einer Datenquelle zur Vereinheitlichung in einem anderen Datenmodell oder Schema repräsentieren. Ein Beispiel dafür wäre ein XML-Wrapper für eine relationale Datenbank.

31
Q

Mediatoren:

A

Mediatoren sind Softwarekomponenten, die der Vereinfachung, Reduzierung, Kombination und Erklärung von Daten dienen. Sie werden v. a. zur Bereitstellung einer gemeinsamen Anfragemöglichkeit auf unterschiedliche Datenquellen genutzt. Aufgabe des Mediators ist es, Anfragen an das globale Schema in Anfragen an die Quellen zu transformieren sowie die Ergebnisse zu sammeln und zu verknüpfen.

32
Q

Erfassen von Semantik über die Struktur

A

Ein weit verbreiteter Weg, um die Bedeutung von Information zu erfassen, ist die Beschreibung ihrer Struktur. Die Verwendung von konzeptionellen Modellen der gespeicherten Information ist von Datenbanksystemen bekannt (Entity-Relationship-Modell).

33
Q

Struktur-Ähnlichkeit (structure resemblance)

A

Es wird ein logisches Modell erstellt und in einer Sprache codiert, die automatisches, logisches Schließen ermöglicht. Das Modell stellt eine 1:1 Kopie der konzeptionellen Struktur der Datenbank dar.

34
Q

Term-Definition (Definition of terms)

A

Um die Semantik von Ausdrücken in einem Datenbankschema greifbar zu machen, reicht eine Kopie desselben nicht aus.
Ansatz, dar, der ein Datenmodell zur Definition von Termen aus der Datenbank oder dem Datenbankschema verwendet, die nicht unmittelbar mit deren Struktur korrespondieren, sondern lediglich mit den entsprechenden Informationen verlinkt sind.

35
Q

Struktur-Anreicherung (structure enrichment)

A

Hier wird ein logisches Modell konstruiert, welches die Struktur der Informationsquelle abbildet und zusätzlich Definitionen von Konzepten enthält.

36
Q

Meta-Annotation:

A

Dies ist ein relativ junger Ansatz, der den Gegebenheiten des Webs Rechnung trägt, wo semantische Informationen häufig in Form von Kommentaren bzw. Anmerkungen hinzugefügt werden. Diese Konstrukte werden genutzt, um Zugang zur Semantik zu gewinnen.

37
Q

Information Retrieval:

A

Begriff des Information Retrieval ist gewöhnlich die vage Suche auf Dokumentinhalte und deren unspezifische Bewertung zu verstehen.

Eine Besonderheit des Information Retrieval im Web stellt die Tatsache dar, dass nicht von bestehenden Dokumentmengen ausgegangen werden kann, sondern diese im Web eingesammelt werden müssen (crawling).

38
Q

Deskribierung:

A

Die Deskribierung beschreibt die Transformation eines Textdokuments in eine Dokumentbeschreibung aufgrund von Metadaten und Schlagworten über Stichworte aus dem Text, den sogenannten indexierten Termen.

39
Q

Disambiguierung:

A

Die Aufgabe, die beabsichtigte Bedeutung der Terme im jeweiligen Zusammenhang zu ermitteln, wird als Disambiguierung (disambiguation) bezeichnet.

40
Q

latent semantic analysis

A

Eine zusätzliche Verbesserung der Erfassung semantischer Zusammenhänge kann durch Betrachtung des jeweiligen Kontextes, in dem ein Term vorkommt, erreicht werden. Dies erfolgt unter Berücksichtigung und Entscheidung zwischen verschiedenen möglichen Interpretationen, basierend auf dem Vorkommen anderer Wörter in diesem Zusammenhang. Daraus kann sich zu-gleich ein Hinweis auf eine bestimmte Bedeutung ergeben. Die Ausnutzung dieser impliziten Strukturen wird als verborgenes semantisches Indexieren (latent semantic analysis) bezeichnet

41
Q

Boole’sches Retrieval

A

Im einfachsten Fall, dem Boole’schen Retrieval, gibt der Wert true an, dass die recherchierten Terme im Dokument vorkommen.

42
Q

Vektorraum-Modell

A

Im Vektorraum-Modell werden die Such- und Dokument-Terme jeweils als Vektoren im mehrdimensionalen Suchraum aufgefasst.

43
Q

Relevance Feedback

A

In probabilistischen Modellen werden Wahrscheinlichkeiten hinsichtlich der Relevanz eines Dokuments in Abhängigkeit zur Anfrage berechnet.

44
Q

Nutzen von semantischen Modellen:

A

In Hinblick auf die Integration von Datenquellen können semantische Modelle somit zur Identifizierung und Verbindung von sich semantisch entsprechenden Informationskonzepten verwendet werden (semantic matching).

45
Q

Erklären Sie den Begriff der „Ontologie“ wie er bislang hier definiert und vorgestellt wurde.

A

Ontologien sind ein Mittel zur Konzeptionalisierung bzw. zur Beschreibung von komplexen Konzepten über das Wissen einer Domäne und sind eine wesentliche Methode für die interoperable Repräsentation im Semantic Web.

46
Q

Hypernym

A

Den Oberbegriff eines Begriffes nennt man Hypernym.

47
Q

Hyponym

A

Unter Hyponym versteht man den Unterbegriff eines Begriffs.

Dabei ist der Begriffsumfang des Hyponyms kleiner als der des Hyperonyms, aber der Begriffsinhalt des Hyponyms ist größer als der des Hyperonyms.

48
Q

Holonym

A

Als Holonym wird ein Begriff bezeichnet, der das Ganze einer „Teil-von-Beziehung“ zwischen zwei zusammengehörigen Begriffen darstellt.

49
Q

Meronym

A

Die Umkehrung dieser Relation bezeichnet man als Meronymie. So stellt der Begriff Hand ein Holonym von dem Begriff Finger dar, und der Begriff Finger ist ein Meronym von dem Begriff Hand.

50
Q

Wie unterstützt die semantische Integration das Informationsmanagement?

A

Die semantische Integration unterstützt das Informationsmanagement, indem sie Daten aus heterogenen, verteilten Quellen vergleichbar macht.

51
Q

Wie erfolgt der Zugang zur Semantik?

A

Der Zugang zur Semantik kann über die Struktur, über die Metadaten der Datenquellen oder aber über die natürlich-sprachliche Verarbeitung des Ursprungstextes erfolgen.

52
Q

Warum ist der Ansatz, sich der Semantik über die Struktur der Datenquellen zu nähern, für das Web oft ungeeignet.?

A

Da bei nicht oder wenig strukturierten Informationsquellen meist kein konzeptionelles Modell vorhanden ist, ist der Ansatz, sich der Semantik über die Struktur der Datenquellen zu nähern, für das Web oft ungeeignet.

53
Q

Synonyme, Homonyme, Hyperonyme, Hyponyme:

A

Homonyme: Gleiches Wort hat unterschiedliche Bedeutung, je nach Kontext. Beispiel: Messe für Gottesdienst / Messe für einen speziellen Raum

Synonyme: Ggf. ähnliche, aber unterschiedliche Worte haben gleiche Bedeutung. Beispiel: Messe / Mette, oder Messe / Ausstellung

Hyperonym: Ist der Oberbegriff zu einem anderen. Beispiel: Messe / Fachmesse, Besuchermesse, etc.

Hyponym: Brautmesse / Messe