Graphorientierte und webbasierte Datenverwaltung Flashcards

1
Q

Was sind Grenzen des relationalen Datenmanagements?

A

Häufige Änderungen/Erweiterungen zu erwarten

Schema zu Beginn nicht (vollständig) bekannt

Große oder dynamisch erweiterbare Attributmengen
(z.B. nur ein Produkt hat ein bestimmtes Attribut)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Was ist der Entity-Attribute-Value-Ansatz?

A

Die Grundidee hinter dem EAV Ansatz besteht darin, die im zu modellierenden Datenbestand vorkommenden Attribute nicht explizit im Datenbankschema zu kodieren, sondern stattdessen als Werte einer generischen Spalte namens Attribute zu listen.

Dazu wird eine Datenbanktabelle angelegt, die aus den drei Spalten Entity, Attribute und Value besteht, wobei alle drei Spalten den zusammengesetzten Primärschlüssel der Tabelle bilden.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Was enthält die Spalte Entity?

A

Die Spalte Entity enthält jeweils eine eindeutige Bezeichnung der Instanz eines Entitätstypen, also z B die ID einer Mitarbeitenden

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Was enthält die Spalte Attribute?

A

Die Spalte Attribute enthält jeweils eine eindeutige Bezeichnung eines Attributs des Entitätstypen.

Dabei kann es sich um ein einfaches Attribut (z B birthdate) oder eine Referenz auf eine andere Entität (z B job_id) handeln

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Was enthält die Spalte Value?

A

Die Spalte Value enthält schließlich den Wert des jeweiligen Attributs für die betreffende Entität,
also z B das Geburtsdatum oder die ID des von der Mitarbeitenden ausgeübten Berufs

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Was erlaubt die Verwendung des EAV Schemas?

A

Im Prinzip alle zu verwaltenden Daten in einer einzigen
Tabelle zu speichern, deren Schema völlig unabhängig vom E/R Modell des Datenbestands ist.

Sämtliche Entitätstypen und Attribute können dynamisch definiert und eingefügt werden, ohne dass eine Festlegung des Schemas zu Beginn des Datenbankeinsatzes erforderlich ist.

Diese Vorgehensweise ist insbesondere dann geeignet, wenn sich das Datenbankschema häufig ändert oder es über eine so große Zahl an möglichen Attributen verfügt, dass eine herkömmliche Datenbanktabelle zu groß würde bzw zu viele Nullwerte enthalten würde

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Warum sollte ein EAV Schema nur eingesetzt werden wenn die Voraussetzungen zutreffen?

A

Zugleich gehen durch die Verwendung des EAV Ansatzes jedoch zahlreiche Vorzüge relationaler Datenbanksysteme verloren, da durch das fehlende explizite Datenbankschema die Formulierung von
Integritätsbedingungen, insbesondere zur Wahrung referenzieller Integrität (= Korrektheit von Referenzen auf andere Entitäten) innerhalb der DB nicht mehr möglich ist.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Was sind Vorteile des EAV Ansatzes?

A

Erhöhte Flexibilität

Platzsparsame Speicherung von Datensätzen mit wenigen Attributwerten

Einfaches, selbsterklärendes Datenmodell (ist immer gleich)

Gute Unterstützung von Anfragen zu bestimmten Entitäten (Es müssen keine Verbünde von Tabellen gebildet werden)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Was sind Nachteile des EAV Ansatzes?

A

Erhöhter manueller Programmieraufwand (Keine referenzielle Integrität durch Fremdschlüssel)

Effizienzverlust bei Massenanfragen (Die Abfrage großer Datenmengen wird verlangsamt)

Komplexität attributbasierter Filter ( Filter auf der EAV Tabelle zu definieren ist nicht einfach)

Großer Overhead
(Fixkosten für Implementierung durch die Nachteile lohnen sich nicht für einfache Anwendungen.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Was bildet die Idee Daten in EAV Form zu modellieren?

A

Die Grundlage des Graphenmodells

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Was ist ein gerichteter Graph?

A

Besteht aus einer Menge von Knoten und einer Menge von Knoten

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Was stellt eine Kante dar?

A

Eine gerichtete Verbindung zwischen zwei Knoten des Graphen

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Wie kann eine Instanz des E/R-Modells in das Graphenmodell überführt werden?

A

Jede Entität wird durch einen separaten Knoten mit eindeutiger Bezeichnung modelliert.

Jede Beziehung wird durch eine gerichtete Kante zwischen den betreffenden Knoten modelliert.

Die Attribute eines Entitätstypen stellen Eigenschaften der entsprechenden Knoten dar. Häufig werden Attribute ebenfalls als Kanten und Attributwerte als Knoten modelliert.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Was ist die Analogie Graphenmodell & EAV?

A

Jede Zeile der EAV Tabelle entspricht einer Verbindung zwischen zwei Knoten im Graphenmodell

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Wie wird eine 1:1 Beziehung modelliert?

A

Der 1:1 Beziehungstyp wird durch eine gerichtete Kante zwischen den betroffenen Knoten modelliert, deren Richtung eindeutig zu definieren ist.

Dies geschieht analog zur Auswahl der Relation im Relationenmodell, die das Fremdschlüsselattribut enthält, welches die andere Relation referenziert

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Wie wird eine 1:N Beziehung modelliert?

A

Der 1:N Beziehungstyp wird durch gerichtete Kanten zwischen den betroffenen Knoten modelliert, die den Knoten der 1 Seite als Startpunkt und den Knoten der N Seite als Endpunkte aufweisen

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
17
Q

Wie wird eine N:M Beziehung modelliert?

A

Der M:N Beziehungstyp wird durch gerichtete Kanten zwischen den betroffenen Knoten modelliert, deren Richtung erneut eindeutig zu definieren ist

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
18
Q

Wie wird das Graphenmodell implementiert?

A

Durch Graphdatenbanken

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
19
Q

Welche Eigenschaften haben Graphdatenbanken?

A

Die Datenbasis der Graphdatenbank wird ebenso wie das Schema als Graph (entsprechend der graphentheoretischen Definition) abgebildet.
Dabei werden die Entitäten durch eindeutig
identifizierbare und ggf attribuierte Knoten und ihre Beziehungen zueinander durch entsprechende Kanten modelliert

Datenmanipulationen werden als Graph Transformationen ausgedrückt. Dabei handelt es sich
um Operationen, welche die Struktur des Graphen verändern, also Knoten oder Kanten hinzufügen oder löschen oder die Eigenschaften (also Namen oder Attribute) der Knoten oder Kanten verändern.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
20
Q

Was umfasst die Konsistenzprüfung bei Graphdatenbanken?

A

Im Falle der Graphdatenbanken umfasst die Konsistenzprüfung neben der Überprüfung der
referenziellen Integrität der Kanten unter anderem auch die Sicherstellung der folgenden strukturellen Integritätsbedingungen:

Eindeutigkeitsbedingung: Jeder Knoten und jede Kante kann im Graphen eindeutig identifiziert werden

Wertebereichsbedingung: Die Merkmale der Knoten sowie die Merkmale der Kanten unterliegen den spezifizierten Datentypen, d h sie stammen aus wohldefinierten Wertebereichen

Zusammenhang: Ein Graph wird zusammenhängend genannt, wenn es zu je zwei Knoten im Graphen einen Pfad gibt. Diese Eigenschaft wird für alle in der Graphdatenbank enthaltenen (Teil) Graphen garantiert

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
21
Q

Was sind Vorteile der Graphdatenbanken?

A

Unterstützung impliziter Schemata
(Graphdatenbank kann ohne vorher bekanntes Schema erstellt/befüllt werden)

Indexfreie Nachbarschaft
(Nachbarn eines Knoten können ohne Indexstruktur schnell gefunden werden)

Triviale Vereinigung von Teilgraphen
Teilgraphen können durch Vereinigung von Knoten und Kantenmengen ohne Bildung von Joins vereinigt werden)

Indexe als Subgraphen
Indexe = Bäume = Graphen können also direkt innerhalb der Graphdatenbank gespeichert werden

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
22
Q

Was sind Nachteile der Graphdatenbanken?

A

Nichtintuitives Datenmodell

Problematische Fragmentierung (Keine effizienten Algorithmen für die Zerteilung von Graphen zur dezentralen Speicherung)

Fehlende Transaktionssicherheit (Keine Realisierung des Transaktionskonzepts)

Keine einheitliche Zugriffsschnittstelle (Keine einheitliche Datenabfragesprache)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
23
Q

Was sind Probleme beim Einsatz zentralistischer DMBS in Unternehmen?

A

Begrenzte Hardwarekapazitäten des zentralen DB Servers

Begrenzter Durchsatz des Netzwerks an den der DB Server angeschlossen ist

Unterschiedliche Arten von Datensätzen/Schemata in einzelnen Unternehmensbereichen

Bereits existierende Datenmanagementsysteme in einzelnen Abteilungen des Unternehmens

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
24
Q

Was sind Herausforderungen für das dezentrale Datenmanagement?

A

Welches Medium eignet sich für verteiltes Datenmanagement als Ersatz für zentrale DBMS?

Wie können Datensätze unternehmensweit (evtl sogar weltweit) eindeutig identifiziert werden?

Wie kann auch ohne zentrales DBMS eine einheitliche Zugriffsschnittstelle geschaffen werden,
die von verschiedenen Anwendungssystemen unterstützt wird?

Wie können Anwendungssysteme über eine solche Schnittstelle Daten austauschen und manipulieren?

25
Q

Was kann genutzt werden um Herausforderungen für das dezentrale Datenmanagement zu lösen?

A

Das World Wide Web.

26
Q

Was ist das WWW?

A

Internet ist ein weltweites dezentrales Netzwerk über das angeschlossene Computer mittels festgelegter Verfahren (Protokolle) kommunizieren.

Das WWW besteht aus sehr vielen Computern (Webserver) die über das Internet verbunden sind und Protokolle und Technologien zum Datenaustausch mi t Anwendern (Clients) nutzen

27
Q

Welche Technologien nutzt das WWW?

A

Uniform Resource Identifier

Hypertext Transfer Protocol

Representational State Transfer

28
Q

Was ist Uniform Resource Identifier?

A

Wie bereits bei zentralen Datenbanken ist insbesondere auch in verteilten Umgebungen die Möglichkeit zur eindeutigen Identifizierung von Entitäten essenziell für jegliche Form des Datenmanagements.

Im Web Kontext werden Entitäten verallgemeinert auch als Ressourcen bezeichnet und sind mithilfe von URIs weltweit eindeutig identifizierbar

29
Q

Was ist Hypertext Transfer Protocol?

A

Das Hypertext Transfer Protocol enthält eine Reihe von Befehlen, welche denjenigen einer Datendefinitions und Datenmanipulationssprache aus dem
Datenbankkontext ähneln.

Da es von allen Webservern sowie allen Anwendungsprogrammen, welche das WWW nutzen, unterstützt wird, stellt es eine einheitliche Schnittstelle für den Datenaustausch im World Wide Web dar.

30
Q

Was ist Representational State Transfer?

A

Beim Representational State Transfer handelt es
sich um eine abstrakte Beschreibung des Datenzugriffsverfahrens, welches innerhalb des WWW
verwendet wird.

Webbasierte Anwendungssysteme, die das REST Paradigma umsetzen, um Daten über das Web auszutauschen oder zu manipulieren, zeichnen sich dadurch aus, dass sie URIs verwenden, um auf Ressourcen zuzugreifen oder diese zu verändern, und darüber hinaus in der Lage sind, den aktuellen Zustand ( einer Ressource im Rahmen einer (üblicherweise
HTTP basierten) Server Client Kommunikation in Form einer textuellen Repräsentation der Ressource übermitteln können

31
Q

Welche Bestandteile hat ein URI?

A

Schema - Kontext, in dem der URI auftritt

Authority - Instanz, welche den URI verwaltet

Pfad - hierarchisch organisierte Angabe zur Identifikation der Ressource

Abfrage - ergänzende Daten zur Auffindbarkeit der Ressource

Fragment - Referenz auf eine Stelle innerhalb der Ressource

32
Q

Was ist die Organisationsebene im WWW?

A

Authority

33
Q

Was ist die Datenbasissebene im WWW?

A

Pfad

34
Q

Was ist die Datensatzsebene im WWW?

A

Fragment

35
Q

Aus was besteht eine HTTP Anfrage?

A

Der Nachrichtenkopf enthält allgemeine Informationen über die Nachricht Hierzu zählen insbesondere die auszuführende Anfragemethode request method der URI der angeforderten Ressource und weitere Informationen wie etwa die verwendete Kodierung oder der Datentyp der angeforderten Ressource

Der Nachrichtenrumpf enthält die eigentlichen Daten, die mit der Nachricht transportiert werden sollen.
Falls keine Daten transportiert werden, sondern lediglich eine Anfrage gesendet wird, ist der Nachrichtenrumpf leer

36
Q

Welche Anfragemethoden gibt es bei HTTP?

A

GET Methode zum Abfragen vorhandener Daten

POST Methode zum Erstellen neuer Daten

PUT Methode zum Modifizieren vorhandener Daten

DELETE Methode zum Löschen vorhandener Daten

37
Q

Was beschreibt das Paradigma des Representional State Transfer (REST)?

A

Wie Anwendungssysteme über das WWW Daten austauschen.

38
Q

Was sind die Prinzipien des REST?

A

Adressierbarkeit von Ressourcen
(Jede relevante Ressource kann anhand eines URI eindeutig ident. werden)

Repräsentierbarkeit von Ressourcen
(Zustand einer Ressource muss textuell repräsentierbar & übertragbar sein)

Selbstbeschreibende (HTTP) Nachrichten
(Zugriff auf Ressourcen erfolgen durch (HTTP-)Nachrichten mit Standardmethoden)

Zustandslosigkeit
(Server muss keine Informationen über fertig abgearbeitete Anfragen speichern)

39
Q

Was ist Hypermedia as the Engine of Application State (HATEOAS)?

A

Beschreibt den Ansatz, dass sämtliche Interaktionsmöglichkeiten von Anwendungsprogrammen mit einer webbasierten Datenbank über vom Webserver bereitgestellte URIs erfolgen. Das bedeutet konkret, dass sich das als Client agierende Anwendungsprogramm im Rahmen eines HTTP Nachrichtenaustauschs bei dem Webserver erkundigt, welche Datenabfrage und Datenmanipulationsoperationen zum aktuellen
Zeitpunkt vom Server unterstützt werden, und dieser dann dem Client als Antwort die vorhandenen
Interaktionsmöglichkeiten in Form von entsprechenden HTTP Anfragemethoden und den zugehörigen
URIs zusendet.

Der Client kann dann entscheiden, welche der verfügbaren Operationen er ausführen möchte, und dafür einfach die passende HTTP Anfrage schicken Als Antwort erhält er dann sowohl das Ergebnis der Operation als auch eine erneute Auflistung der nun vorhandenen Interaktionsmöglichkeiten
(die sich aufgrund der letzten Operation oder anderer zwischenzeitlich erfolgter Ereignisse durchaus von
der vorigen unterscheiden kann)

40
Q

Was sind Vorteile der dezentralen Architektur?

A

Unterstützung dezentraler Informationssysteme
(IS mit dezentraler Architektur & dezentrales Datenmanagement sind naheliegend)

Bessere Skalierbarkeit (höherer Durchsatz & Performance)

Reduktion der Serverlast (Aufgrund der Zustandslosigkeit von REST müssen keine TA Daten von Servern gespeichert werden)

41
Q

Was sind Nachteile der dezentralen Architektur?

A

Verzögerung durch Netzwerkübertragung (Alle abzufragenden Daten müssen textuell repräsentiert werden & über Netzwerk übertragen werden)

Geringere TA Kontrolle (ACID Eigenschaften zentralistischer Systeme können in dezentralen Umgebungen nicht sichergestellt werden)

Performanzverlust bei komplexen Anfragen (Falls Daten auf versch. Servern liegen -> dauert länger)

42
Q

Was ist das Resource Description Framework?

A

Eine Möglichkeit, eine dezentrale webbasierte

Datenverwaltung auf Basis des Graphenmodells zu realisieren

43
Q

Welche Grundlage bildet das RDF?

A

Bereitstellung maschinell lesbarer Daten im Web

44
Q

Was ist der Unterschied zwischen Web of Documents und Web of Data?

A

Web of Doc.: Bereitstellung von untereinander verlinkten HTML Dokumenten (Webseiten)
Darstellung in Webbrowsern
Lesbar für Menschen

Web of Data (Semantic Web):
Bereitstellung von strukturierten RDF Dateien mit URIs als Identifikator für Ressourcen
-> Maschinenlesbare, strukturierte Daten
Lesbar für maschinelle Anwender

45
Q

Was ist Linked Open Data?

A

Daten im RDF Format, welche Bestandteil der so entstehenden, weltweit offen zugreifbaren Graphstruktur sind, werden daher auch als Linked Open Data bezeichnet.

In Linked Open Data Cloud

46
Q

Was ist ein CURIE?

A

Compact URI

Da URIs im Vergleich zu typischen ID Schlüsselwerten jedoch oft sehr lang und umständlich zu lesen
sind, werden bei der textuellen oder graphischen Repräsentation der URIs häufig Abkürzungen
eingeführt.

Diese werden als CURIE (Compact URI) bezeichnet und erlauben es, Schema, Authority und Pfad eines URI durch eine beliebige Folge von Kleinbuchstaben und Ziffern, das so genannte Präfix zu ersetzen. Um CURIEs nutzen zu können, muss jedes verwendete Präfix zu Beginn eines Dokuments oder in der Legende einer graphischen Darstellung einmalig deklariert werden:

@prefix name: .

47
Q

Was sind Rssourcen in URI?

A

verbinden Beziehungstypen zwei Entitäten miteinander, welche beide wie oben beschrieben als Ressourcen abgebildet und durch URIs repräsentiert werden

48
Q

Was sind Literale im RDF?

A

Während Attribute einer Entität bestimmte

Eigenschaften zuweisen, welche durch atomare Werte (im RDF auch als Literale bezeichnet) repräsentiert werden,

49
Q

Welche besondere Regel gibt es in RDF?

A

Attribute von Ressourcen und Beziehungstypen zwischen zwei Ressourcen wird ebenfalls als
Ressourcen betrachtet und erhalten daher ebenso wie Entitäts Ressourcen einen eindeutigen Namen, der durch einen Uniform Resource Identifier (URI) repräsentiert werden kann

50
Q

Wie wird ein Datensatz im RDF repräsentiert?

A

Im RDF werden Datensätze in Form von Tripeln repräsentiert Dabei handelt es sich um Gefüge der Form Subjekt - Prädikat - Objekt

51
Q

Was ist ein Subjekt?

A

Das Subjekt wird durch eine Ressource gebildet, also eine Entität, deren Eigenschaften oder Beziehungen gespeichert werden sollen

52
Q

Was ist ein Prädikat?

A

Als Prädikat kommen Attribute oder Ressourcen infrage, welche dazu geeignet sind, dem Subjekt
eine Eigenschaft oder eine Beziehung zu einer anderen Ressource zuzuordnen

53
Q

Was ist ein Objekt?

A

Das Objekt wird entweder durch ein Literal, also einen atomaren (Attribut –) oder durch eine weitere Ressource gebildet, die mit der Subjektressource in der durch das Prädikat spezifizierten Beziehung steht

54
Q

Wie erfolgt der Aufbau von RDF Tripeln?

A

Subjekt (Entität (URI/CURIE))
->
Prädikat (Attribut (URI/CURIE) oder Beziehung (URI/CURIE))
->
Objekt (Attributwert (lit) oder Entität (URI/CURIE))

Literale sind nur in der Objekt Position zulässig!
URIs sind als Bezeichner für Ressourcen in allen drei Positionen ( Prädikat, Objekt) zulässig!

55
Q

Welche zwei Eigenschaften ergeben sich durch die Strukturregeln des RDF?

A

LinkedData Principles

Property Graph

56
Q

Was ist Linked Data Principles?

A

Da alle Ressourcen durch URIs identifiziert werden, können die Daten zu diesen Ressourcen bei der Verwendung geeigneter URIs für deren Bezeichnung durch eine HTTP GET Anfrage auf die entsprechende URI sofort abgerufen werden.

Diese Vorgehensweise bei der Datenmodellierung wird in der Literatur als Linked Data Principles (Bizer et al 2011 bezeichnet.
Aus dieser Eigenschaft folgt, dass sich das RDF zur Umsetzung des REST Paradigmas eignet

57
Q

Was ist Property Graph?

A

Da auch Prädikate (Attribute und Beziehungstypen) als Ressourcen betrachtet werden, können diesen ebenso wie Entitäten selbst Eigenschaften zugewiesen werden, weil sie gleichermaßen als Ressourcen behandelt werden.

Das hieraus entstehende Graphenmodell, bei dem auch die Kanten ihrerseits wieder Eigenschaften und Beziehungen zueinander aufweisen, wird in der Literatur als Property Graph bezeichnet und eignet sich
zur Erstellung eines Schemas für die Entitäten und Beziehungen, die im RDF Graphen vorkommen

58
Q

Wie ist der Entscheidungsweg zur verteilten Datenverwaltung im Web?

A
Nachteile des trad. rel. Datenmanagent 
-> (motiviert)
EAV Ansatz
-> (entspricht)
Graphenmodell
-> (Grundlage für)
Resource Description Framework (RDF)
Nachteile der zentral. Datenverwaltung
-> (motivieren)
Dezentrales Datenmanag. im Web (URIs/HTTP/REST)
-> (realisiert durch)
Resource Description Framework (RDF)