Modellierung multidimensionaler Data-Warehouse-Schemata Flashcards
(31 cards)
Was sind Kennzahlen?
Kennzahlen sind Wertgrößen, die einen quantitativ messbaren Sachverhalt wiedergeben und relevante Tatbestände sowie Zusammenhänge in einfacher, konzentrierter Form erfassen.
Wie lassen sich Kennzahlen unterscheiden?
Absolute Zahlen: z.B. Umsatz, Anzahl der Studierenden im Studiengang vawi.
Verhältniszahlen
Wie lassen sich Verhältniszahlen unterteilen?
Beziehungszahlen: setzen zwei verschiedenartige Größen zueinander in Beziehung, z.B. Rentabilität als Gewinn zu Kapital, Absolventen je Professor.
Gliederungszahlen: setzen zwei gleichartige Größen in Beziehung und geben den Anteil einer Größe an der Gesamtgröße an, z.B. Anteil der Materialkosten an den Gesamtkosten, Anteil der weiblichen Studierenden
Indexzahlen: setzen inhaltlich gleichartige, aber zeitlich oder örtlich verschiedene Größen zueinander in Beziehung, z.B. Preissteigerungsindex, eingeworbene Drittmittel im Vergleich zum Vorjahr oder zum Landesdurchschnitt.
Was sind Kennzahlensysteme?
Im Allgemeinen werden zur Beurteilung eines bestimmten Sachverhaltes nicht nur eine, sondern mehrere Kennzahlen herangezogen. Stehen diese Kennzahlen zueinander in Beziehung, so entsteht ein Kennzahlensystem. Seine Darstellung dient dazu, die Beziehungen zwischen den als wichtig und entscheidungsrelevant erachteten Größen wiederzugeben.
Wie lassen sich Kennzahlensysteme herleiten?
*logisch anhand von definitorischen Beziehungen
*empirisch-theoretisch anhand einer Theorie und zugehörigen Hypothesen, die empirisch bestätigt werden
*empirisch-induktiv ausgehend von vorliegenden empirischen Befunden
*modellgestützt auf der Grundlage eines Entscheidungsmodells
Was ist ein Beispiel für ein Kennzahlensystem?
Ein bekanntes Beispiel für ein logisch anhand von Definitionsgleichungen abgeleitetes Kennzahlensystem ist das Dupont-Kennzahlensystem, das auszugsweise hier wiedergegeben ist.
ROI = Umsatzrentabilität * Kapitalumschlage
Umsatzrentabilität: Umsatz / Gewinn
Gewinn: DB - Fixe Kosten
Kapitalumschlag: Umsatz / Investiertes Kapital
Was ist das zweite Metaobjekt multidimensionaler Datenschemata?
Dimension
Was ist die Extension des Objekts auf der Metaebene (2)?
Seine Extension besteht auf der Schemaebene (1) aus der Dimensionshierarchie
Was ist die Extension der Schemaebene (1)?
Die Ausprägungsebene z.B. WIINFO, INF, BWL wenn auf Ebene 1 Studiengang steht
Wie kann entlang der Dimensionshierarchie aggregiert werden?
Angenommen, die zugehörige Kennzahl sei die Anzahl der
Studierenden, so wird deutlich, dass diese Kennzahl entlang der Dimensionshierarchie beliebig aggregiert (Operator Roll-Up) und disaggregiert (Operator Drill-Down) werden kann.
Welche Dimensionshierarchien gibt es?
Standardhierarchie
Parallele Hierarchien
Unbalancierte Hierarchien
Anteilige Verrechnung
Wann liegt eine parallele Hierarchie vor?
In einer Dimension kann es mehr als eine Hierarchie geben. In diesem Fall liegen parallele Hierarchien vor. Parallele Hierarchien spezifizieren alternative Verdichtungswege und erlauben es, unterschiedliche, zueinander komplementäre Perspektiven innerhalb einer Dimension einzunehmen.
Wann liegt eine Standardhierarchie vor?
In einer Dimension auch nur eine Hierarchie
Wie ist bei Parallele Hierarchien die Aggregation von Kennzahlen möglich?
Eine Aggregation von Kennzahlen ist in diesem Fall jeweils entlang eines Weges in der Dimensionshierarchie möglich. Parallele Wege schließen sich gegenseitig aus
Wann liegt eine unbalancierte Hierarchie vor?
Eine unbalancierte Hierarchie liegt vor, wenn in einer Dimensionshierarchie vom Wurzelknoten bis zu einem Blattknoten Wege unterschiedlicher Länge auftreten.
Im Beispiel liegen die Einwohnerzahlen für die einzelnen Bundesländer der Bundesrepublik Deutschland vor, für die anderen Staaten sind jedoch nur die Gesamtzahlen verfügbar.
Unbalancierte Hierarchien verletzen die nachfolgend vorgestellten Bedingungen für die Aggregierbarkeit. Ausgehend von der Gesamteinwohnerzahl ist zunächst ein Drill-Down auf die Ebene der Staaten möglich. Eine weitere Auflösung kann jedoch nur bezüglich der
Einwohnerzahlen der Bundesrepublik Deutschland durchgeführt werden. Eine Lösung besteht in der Einführung von Dummy-Werten für die übrigen Staaten auf der Dimensionsstufe Bundesland.
Was ist die anteilige Verrechnung?
Bei der anteiligen Verrechnung wird auf der Ausprägungsebene von der Baumstruktur abgewichen. Dies ist dann nötig, wenn eine eindeutige Zuordnung von Dimensionselementen auf der nächsthöheren Hierarchiestufe nicht möglich ist.
Im Beispiel fallen 4 Arbeitstage der Kalenderwoche 5/2019 in den Januar, 1 Arbeitstag fällt in den Februar. Analog fallen 4 Arbeitstage der Kalenderwoche 9/2019 in den Februar und einer in den März.
Dadurch wird auf Ausprägungsebene vom Prinzip der eindeutigen Zuordnung abgewichen und somit eine Bedingung für die Aggregierbarkeit verletzt. Die dadurch bewirkte Anomalie zeigt sich etwa darin, dass es nicht möglich ist, den Operator Drill-Down in konsistenter Weise auf die Anzahl der Kundenkontakte im Februar 2019 anzuwenden. Diese Operation wirkt sich in Seiteneffekten auf die Monate Januar und März us.
Wie löst man das Problem bei der anteiligen Verrechnung?
Für das Problem der anteiligen Verrechnung werden häufig pragmatische Lösungen gewählt. Eine Lösung besteht darin, mehrfach zugeordnete Dimensionselemente aufzuteilen, etwa in KW 5/2019-Januar und KW 5/2019-Februar. Eine andere Lösung wäre, die Kalenderwoche jeweils dem Monat zuzuordnen, in den die Mehrzahl der Arbeitstage fällt. Die erste Lösung erschwert Vergleiche auf der Ebene der Kalenderwochen, die zweite Lösung führt zu fehlerhaften Ergebnissen.
Welche Bedingungen für die Aggregierbarkeit von Kennzahlen entlang der einzelnen Stufen einer Dimensionshierarchie gibt es?
Disjunktheit
Vollständigkeit
Typverträglichkeit
Was ist Disjunktheit?
Bei der Definition von Aggregationen muss beachtet werden, dass ein konkreter Wert einer Kennzahl nur genau einmal in das Ergebnis eingeht.
Wenn ein bestimmter Datensatz in mehreren Aggregationsstufen auftaucht, kann dies zu fehlerhaften Ergebnissen führen
Was ist Vollständigkeit?
Kennzahlen auf höherer Aggregationsebene sollten sich immer komplett aus Werten tieferer Stufen berechnen lassen.
Fehlende Daten können zu Verzerrungen in den Aggregatergebnissen führen.
Was ist Typverträglichkeit?
Durch Anwendung einer Aggregationsfunktion auf Kennzahlwerte erfolgt ein Übergang von einer Stufe einer Dimensionshierarchie zur nächsten. Die Kennzahl, die Aggregationsfunktion und die Dimensionselemente der beiden Hierarchiestufen müssen dabei typverträglich sein.
Probleme treten insbesondere bei der Dimension Zeit auf, bezüglich derer Bestandsgrößen häufig nicht aggregierbar sind, während Bewegungsgrößen verdichtet werden können. Z.B. führt eine Summierung von Lagerbeständen [Mengeneinheiten] über die Dimension Zeit zu Mehrfachzählungen, während Lagerbestandsveränderungen [Mengeneinheiten/Zeiteinheit] über die Zeit hinweg summierbar sind
Wie lassen sich vier- und mehrdimensionale Datenstrukturen darstellen?
Dabei lässt sich ein vierdimensionaler Hypercube durchaus darstellen, auch wenn dem Menschen die zugehörige vierdimensionale Raumvorstellung nicht möglich ist.
Die Begrenzung eines n-dimensionalen Hypercube besteht aus (2*n) Bausteinen, von denen jeder wiederum ein (n-1)-dimensionaler Hypercube ist. Eine Gerade (1-dim.) wird durch 2 Punkte (0-dim.) begrenzt, ein Quadrat (2-dim.) durch 4 Geraden (1-dim.), ein Würfel (3-dim.) durch 6 Quadrate (2-dim.).
Entsprechend wird ein vierdimensionaler Hypercube, auch als Tesseract bezeichnet, durch 8 Würfel (3-dim.) begrenzt.
Wie sieht die Schemaarchitektur von Data-Warehouse-Systemen aus?
Grundsätzlich stellt ein Data-Warehouse-System ein Datenmanagementsystem dar, das auf der im Modul
Datenmanagement eingeführten Drei-Ebenen-Schemaarchitektur beruht.
Externe Ebene
Konzeptuelle Ebene
Interne Ebene
Was ist auf der Konzeptuelle Ebene?
Unterstellt man, dass nicht nur bei der Realisierungsform ROLAP, sondern auch bei MOLAP ein relationales Datenbankverwaltungssystemen (DBVS) zur grundlegenden Datenspeicherung eingesetzt wird, so wird auf der konzeptuellen Ebene ein relationales konzeptuelles Datenbankschema eingesetzt.
Dieses ist in der Regel als Star- oder Snowflake-Schema konzipiert.