BI All Flashcards
Wie grenzt man ein Data Warehouse von einem Business intelligence System ab?
Data Warehouse sorgt für das sammeln der Daten, BI führt gesammelte Daten zusammen und wertet sie aus.
Aus welchen Komponenten besteht ein DW?
Arbeitsbereich, Basisdatenbank (Core), Ableitungsdatenbank, Auswertungsdatenbank, Metadaten, Datawarehouse Manager
Welche Aufgaben?
Extract, Transform, Load (ETL)
Mit welchen Datenqualitätsproblemen sieht man sich konfrontiert und wie lassen sich diese beheben?
Konsistenz, Zuverlässigkeit, Granularität, Dokumentation
additive Kennzahlen
-Optimalfall
-(additive) Berechnung zwischen allen
Konsolidierungsebenen der Dimensionen möglich
-D.h. Standard-Aggregationsmethode „Summation“
ist über alle Dimensionen hinweg sinnvoll
-Flussgrößen wie Umsätze oder Kosten sind
im Normalfall vollständig additiv
-Können z.B. über den Zeitverlauf und über
verschiedene Regionen hinweg addiert werden
-z.B. Einkaufswert, Bestellmenge eines Artikel pro Tag
Semi-additive Kennzahlen
-(additive) Berechnung nur für ausgewählte Menge
von Hierarchieebenen
-D.h. Bestandsgrößen sind meistens über alle
Dimensionen außer der Zeit additiv aggregierbar
-z.B. Lagerbestand, Kontostand, Einwohnerzahl pro Stadt
Nicht-additive Kennzahlen
additive Berechnung nach keiner denkbaren Dimension sinnvoll möglich -Im Allgemeinen Durchschnitts- oder prozentuale Werte -Beispiele gemessene Temperatur im Zeitverlauf oder über Orte hinweg aufzusummieren Noten können ebenfalls nicht sinnvoll addiert werden Wechselkurs Steuersatz
Hub and Spoke
Standard SQL Abfrage
SELECT: Welche Attribute
FROM: Welche Tabellen
WHERE: Bedingungen
GROUB BY: Gruppierung
QUBE Syntax
RollUp Syntax
Slicing
Dicing
Drill up and drill down
Pivoting
Nicht volatilität
Nicht-Volatilität: Daten im DWH werden dauerhaft abgelegt und für die Analyse zur Verfügung gestellt. DWH-Daten werden somit in der Regel nicht mehr geändert, überschrieben oder entfernt.
ME/R Diagram
Star Schema
Geben Sie an, was man unter einer Referenzarchitektur versteht und
erläutern Sie deren Ziele.
Ein Referenzmodell stellt ein Modellmuster dar,
das als idealtypisches Modell für die Klasse der
zu modellierenden Sachverhalte angesehen wird.
- Unterstützung des Vergleichs
- Planungserleichterung für konkrete DWH-Implementierung
- Erhöhung der Übersicht und Komplexitätsverringerung
- Visualisierung und Homogenisierung von Begriffen
Aus welchen Stufen besteht die vierstufige DW-Grundarchitektur? Erläutern
Sie deren einzelnen Komponenten und die zugehörigen Transformationsschritte.
• Quellsystem -> Staging Area
o Zugriff über View Layer für Unabhängigkeit von Strukturänderungen
• Staging Area
o Daten werden gespeichert, wie sie ausgeliefert werden
• Staging Area -> Cleansing Area:
o Filtern von fehlerhaften Daten
Korrigieren oder Defaultwerte
o Form vereinheitlichen
• Cleansing Area
• Cleaning Area -> Core
o Versionierung der Stammdaten
o Laufend neue Daten
o Gleiche Detaillierungsstufe wie geliefert
o Keine Aggregation
• Core
o Speichern über langen Zeitraum
o Themenspezifisch strukturiert
o Historische Daten
o Keine direkten Zugriffe
• Core -> Mart
o Fachliche Aufbereitung der Daten in gewünschte Hierarchiestufen
o Aggregation der Bewegungsdaten
• Data Mart
o Teilmengen der Daten
o Für die jeweilige Anwendung relevant
• ETL-Prozesse: Die Datenflüsse. Extrahieren, Transformieren, Laden
• Metadaten: Fachlich und technisch. „Daten über Daten“
Geben Sie verschiedene Monitoring-Strategien an und erläutern Sie diese.
Trigger- Replikations- Log- Zeitstempel- Snapshot-basiert