Das multidimensionale Datenmodell Flashcards
(34 cards)
Wie erfolgt bei operativen Anwendungssystemen meist die Darstellung der Daten?
Bei operativen Anwendungssystemen erfolgt die Darstellung der Daten meist in relationaler Form. Die zugehörige Metapher ist die einer zweidimensionalen Tabelle. Die Zeilen der Tabelle stellen Entities dar (z.B. Kunden), die Spalten enthalten die Werte dieser Entities bezüglich ihrer einzelnen Attribute (z.B. Name)
Wie erfolgt bei DWHS meist die Darstellung der Daten?
Die Darstellung eines Data-Warehouse erfolgt in multidimensionaler Form. Die zugehörige Metapher ist die eines mehrdimensionalen Kubus (Hypercube), dessen Elemente Werte einer bestimmten entscheidungsrelevanten Kennzahl (auch Kenngröße, Maßzahl,
Variable, Fakt oder Metrik genannt; z.B. Umsatz) darstellen. Die Werte der Kennzahl sind entlang der Dimensionen des Hypercube klassifiziert (z.B. Produkt, Geographie, Zeit).
Jeder im Hypercube auftretende Wert der Kennzahl ist jeder Dimension eindeutig zugeordnet (z.B. Umsatz: € 63,92; Produkt: Software-Paket A; Filiale: München-Süd; Tag: 2002-07-16). Dimensionen können hierarchisch aggregiert sein. Zum Beispiel stellt Tag-Monat-Jahr eine zulässige Dimensionshierarchie dar. Tag-Kalenderwoche-Monat ist
hingegen nicht zulässig, da eine Kalenderwoche in zwei Monate fallen kann und damit eine hierarchische Aggregation nicht möglich ist.
Wann kann ein bzw. müssen mehrere Hypercubes verwendet werden?
Im Allgemeinen sind mehrere Kennzahlen entscheidungsrelevant. Besitzen diese Kennzahlen identische Dimensionen, so können die zugehörigen Werte gemeinsam in einem Hypercube verwaltet werden.
Unterscheiden sich die Dimensionen, so müssen mehrere Hypercubes aufgebaut werden.
Welche Meta-Ebenen gibt es beim Multidimensionales Datenmodell?
Metaebene 2: Metamodell des multidimensionalen Datenmodells
Metaebene 1: Multidimensionales Datenschema
Metaebene 0: Multidimensionale Datenstruktur
Was umfasst das Metamodell des multidimensionalen Datenmodells?
Das Metamodell des multidimensionalen Datenmodells (Metaebene 2) umfasst die Meta-Objekttypen Kennzahl sowie Dimension, Attribut und Dimensionshierarchie.
Was umfasst das Multidimensionales Datenschema?
Das multidimensionale Datenschema (Metaebene 1) umfasst die Kennzahl sowie Dimensionen mit ihren zugehörigen Attributen und Dimensionshierarchien. z.B. Umsatz und Geographie_: Filiale -> Ort -> Land
Was umfasst die Multidimensionale Datenstruktur?
Die multidimensionale Datenstruktur (Metaebene 0) enthält die Ausprägungen der Kennzahl Umsatz (Umsatzwerte) sowie die Ausprägungen der einzelnen Attribute.
Wie erfolgt die Standardisierung von Metamodellen für multidimensionale Datenstrukturen?
Die Standardisierung von Metamodellen für multidimensionale Datenstrukturen wird u.a. von der OMG (Object Management Group) im Rahmen des CWM (Common Warehouse Metamodel) betrieben (siehe www.omg.org).
Was machen die Operatoren: Drill Down und Roll Up?
Die Operatoren Drill Down und Roll Up dienen zum Navigieren innerhalb einer Dimensionshierarchie.
Drill Down navigiert eine Ebene nach unten (z.B. von Umsätzen je
Produktkategorie zu Umsätzen je Produkthauptgruppe oder von Monatsumsätzen zu Tagesumsätzen). Roll Up navigiert umgekehrt eine Ebene nach oben.
Was ist die Aggregationsstufe Gesamt?
Befindet man sich bezüglich aller Dimensionshierarchien auf der Aggregationsstufe Gesamt, so erscheint der Hypercube in Form eines einzigen Wertes einer Kennzahl.
Durch Navigation entlang der Dimensionshierarchien nach unten (rot gekennzeichnet) wird der Hypercube schrittweise disaggregiert bis hin zu den elementaren Kennzahlwerten.
Sind alle Attribute aggregierbar?
Es sei darauf hingewiesen, dass nicht alle Kennzahlen aggregierbar sind bzw. ihre Aggregation sinnvoll interpretiert werden kann.
Zum Beispiel ist das Attribut Semester eines Data-Warehouse zur Studentenverwaltung nicht sinnvoll aggregierbar. Eine
Summenbildung der Studierendenzahlen über mehrere Semester hinweg liefert keinen interpretierbaren Wert, da z.B. die Mehrzahl der im Wintersemester 2008/09 eingeschriebenen Studierenden auch im Sommersemester 2009 eingeschrieben ist und somit Studierende mehrfach erfasst würden.
Was machen die Operatoren Selection und die Spezialisierungen Slice und Dice?
Die hier dargestellten Operatoren dienen der Selektion von Daten aus einem Hypercube.
Der Operator Selection ermöglicht eine Auswahl von Kennzahlwerten oder Attributen anhand vorgegebener Kriterien (z.B. finde die drei Produktgruppen mit den höchsten Monatsumsätzen im Jahr 2008; finde die Filiale mit dem höchsten Tagesumsatz im Monat 07/2008).
Slice und Dice stellen Spezialisierungen des Operators Selection dar.
Slice ermöglicht das „Herausschneiden einer Scheibe“ aus dem Hypercube (z.B. alle Umsätze in den Dimensionen Geographie und Zeit für das Produkt „Softwarepaket A“). Das Anfrageergebnis weist dabei eine gegenüber dem Hypercube um eins reduzierte Anzahl
an Dimensionen auf (z.B. wird aus einem dreidimensionalen Würfel eine zweidimensionale Tabelle selektiert).
Der Operator Dice selektiert einen Teilwürfel des Hypercube; die
Anzahl der Dimensionen bleibt dabei unverändert (z.B. Umsätze aller deutschen Filialen im Jahre 2002 in einer bestimmten Produktkategorie
Was macht der Operator Rotate?
Der Operator Rotate dreht den Hypercube durch Vertauschen von zwei Dimensionen (z.B. Vertauschen der Dimensionen Zeit und Produkt). Dadurch ergibt sich eine veränderte Sicht auf die Datenstruktur, die quantitativen Daten selbst bleiben dabei unverändert. Der Operator ist insbesondere bei der Gestaltung der Anordnung von Werten in Kreuztabellen nützlich.
Welche Operatoren gibt es?
Drill Down
Roll Up
Selection
Slice
Dice
Rotate
Welche Realisierungsformen des multidimensionalen DM gibt es?
MOLAP: Multidimensionales OLAP
ROLAP: Relationales OLAP
HOLAP: Hybrides OLAP
Was ist MOLAP: Multidimensionales OLAP?
Aus den in einem relationalen Datenbanksystem gespeicherten Daten wird „auf Vorrat“ eine multidimensionale Datenstruktur (mehrdimensionaler ARRAY) aufgebaut und gespeichert.
Anfragen an das Data-Warehouse-System werden direkt aus dieser multidimensionalen Datenstruktur bedient.
Was ist ROLAP: Relationales OLAP?
Die multidimensionale Datenstruktur ist eine nicht-materialisierte Sicht (View) auf die Tabellen des relationalen Datenbanksystems. Anfragen an das Data-Warehouse-System werden in SQL-Anfragen an das relationale Datenbanksystem umgesetzt; die Ergebnisse werden an der OLAP-Schnittstelle in Form multidimensionaler Datenstrukturen präsentiert.
Was ist HOLAP: Hybrides OLAP?
Kombination aus MOLAP und ROLAP.
Wie funktioniert Multidimensionales OLAP (MOLAP)?
In einem (einmaligen) Ladevorgang wird aus den in einem relationalen Datenbanksystem gespeicherten Daten „auf Vorrat“ eine multidimensionale Datenstruktur in einem mehrdimensionalen ARRAY
aufgebaut. Anfragen an das Data-Warehouse-System werden direkt aus der multidimensionalen Datenstruktur bedient.
Ein erneutes Laden von Daten aus dem Data-Warehouse in den mehrdimensionalen ARRAY wird erforderlich, wenn sich die Inhalte des Data-Warehouse-Systems ändern. Im Allgemeinen ist dann ein völliger Neuaufbau der multidimensionalen Datenstruktur erforderlich.
Was sind Vor-/Nachteile von MOLAP?
Vorteil: schnellere Zugriffe und kurzer Antwortzeiten
Nachteil: schwerfälligen Handhabung von Datenänderungen
Wie ist das Adressierungsschema des mehrdimensionalen ARRAY?
Wie bereits erwähnt, wird die multidimensionale Datenstruktur in einem mehrdimensionalen ARRAY aufgebaut. Die Implementierung des ARRAY erfolgt in der Form ARRAY [1..n] OF <Kennzahltyp>.</Kennzahltyp>
Die Elemente des ARRAY speichern die Zellen der multidimensionalen Datenstruktur. Die Obergrenze n ergibt sich aus dem Produkt der
Kardinalitäten der einzelnen Dimensionen, d.h. als |D1| . |D2| . … . |Dn|. Im Beispiel soll eine dreidimensionale Datenstruktur realisiert werden, bei der die Dimensionen D1 und D2 jeweils 4 Elemente umfassen, die Dimension D3 umfasst 3 Elemente. Es wird ein ARRAY der Länge 4 . 4 . 3 = 48 benötigt. Der Index des ARRAYElements,
in dem eine Zelle mit Attributwerten x1, x2, x3 der drei Dimensionen D1, D2, D3
gespeichert ist, wird mithilfe der dargestellten Formel ermittelt. Das durch die Formel
realisierte Adressierungsschema ist zusätzlich in tabellarischer Form verdeutlicht.
Wie erfolgt die Verwaltung aggregierter Daten gemäß MOLAP?
Grundsätzlich enthält ein Data-Warehouse ausschließlich elementare Daten, d.h. die Werte der Kenngrößen bezüglich der detailliertesten Stufe aller Dimensionshierarchien.
Werden aggregierte (verdichtete) Daten benötigt, wie das wohl bei der Mehrzahl der Anfragen an ein Data-Warehouse-System der Fall ist, so werden diese aus den elementaren Daten berechnet. Aus der Sicht des Nutzers können diese aggregierten Daten bei Bedarf mithilfe des Operators Drill-Down dann sukzessive in elementare Daten aufgelöst werden.
Was ist der Nachteil bei der Berechnung aggregierter Daten (MOLAP)?
Die Berechnung aggregierter Daten kann in Abhängigkeit von der Struktur und dem Umfang des Data-Warehouse sehr zeitaufwändig sein. Aus diesem Grund kann es sinnvoll sein, aggregierte Daten „auf Vorrat“ in das Data-Warehouse aufzunehmen.
In der Realisierungsform MOLAP muss dabei für jede Aggregation ein separater mehrdimensionaler ARRAY auf Vorrat aufgebaut und verwaltet werden. Die Definition von Aggregationen stößt dadurch rasch an ihre speicher- und verarbeitungstechnischen Grenzen und sollte deshalb nur in besonders begründeten Fällen vorgesehen werden.
Wie funktioniert Relationales OLAP (ROLAP)?
Die multidimensionale Datenstruktur ist in diesem Fall eine nicht materialisierte Sicht (View) auf die Tabellen des relationalen Datenbanksystems. Im Gegensatz zu MOLAP findet kein Aufbau der
Datenstruktur „auf Vorrat“ statt.
Anfragen an das Data-Warehouse-System werden in SQL-Anfragen an das relationale Datenbanksystem umgesetzt. Die Anfrageergebnisse werden aufbereitet und an der OLAP-Schnittstelle in Form von multidimensionalen Datenstrukturen präsentiert.