Einheit 3 Flashcards
(37 cards)
Einbettung von Data Warehouses in den Gesamtkontext der BI
Stufe 1: Datenquellen (Daten aus den operativen Systemen, externen Datenbanken, internetbasierte Daten)
Stufe 2: Staging (Extraktion, Transformation und Laden der Daten)
Stufe 3: Data Warehouse (+Metadatenbank + Data Marts)
Stufe 4: Entscheidungsunterstützung (Ad-hoc-Abfragen, Berichte, OLAP-Werkzeuge, Data-Mining-Werkzeuge)
Gesamtarchitektur eines Data Warehouse Systems
- Ebene der operativen Systeme
- Datenerfassungsebene
- Datenhaltungsebene
- Datenbereitstellungsebene
- Präsentationsebene
- Ebene der operativen Systeme
- Enthält die Datenquellen, die Daten in das DWH-System einspeisen (operative/externe)
- Gehört nicht zum eigentlichen DWH-System
- Datenerfassungsebene
- Erste Ebene im DWH-System: Arbeitsbereich
- Schnittstelle zu operativen Systemen
- Verwendung der ETL-Komponente zur Extraktion (Bereinigung, Harmonisierung und Zusammenführung) der Daten
- Datenhaltungsebene
- Hauptelement ist das DWH
- ODS erweitert das DWH
- Unterteilung in zwei Schichten: Basisschicht: Tabellen direkt aus Quellsystemen + Aggregationsschicht: Tabellen optimiert für OLAP-Anfragen, mit Aggregationshierarchien
- Daten gelangen durch das Laden (Teil der ETL-Komponente) vom DWH in die Analysekomponente
- Datenbereitstellungsebene
- Schnittstelle zur Präsentationsebene
- Zweckmäßige Aufbereitung der Informationen für Entscheidungsträger
- Analysekomponente selektiert und bereitet Daten auf (z.B. OLAP)
- Präsentationsebene
- Aufgabe: Adäquate Aufbereitung und Präsentation der Daten
- Nutzung von Analysekomponenten und Data Mining-Anwendungen
- Unterstützung durch Tabellenkalkulationsprogramme
- Kritische Überwachung der Erfolgsgrößen, Benachrichtigung bei Überschreitung kritischer Wertgrenzen (z.B. durch Data Access)
SINT-Eigenschaften
- Themenorientierung: themenorientierte Haltung der Daten im DWH
- Integration: von Daten aus verschiedenen Quellen; oft schwierig wegen unterschiedlicher Datenformate und -kodierungen.
- Zeitraumbezug: zeitraumbezogene Ablage der Daten (in Applikationen: zeitpunktbezogen), Ermöglichung der langfristigen Speicherung (5-10 Jahre)
- Nicht-Volatilität: Daten werden dauerhaft vorgehalten und sind nicht vergänglich; Daten werden nicht überschrieben, sondern erneut hochgeladen
Ziele eines Data Warehouse
- Effiziente Bereitstellung von Daten: Für Auswertungen und Analysen, Ermöglichung einer einfachen Zusammenführung der Daten zu Analysezwecken
- Unterstützung der Geschäftsprozesse: Beitrag zur Strategieerreichung eines Unternehmens
- Abschaffung von Insellösungen: Verbesserung der Kommunikation zwischen Aufgabenbereichen
Komponenten eines DWH-Systems
- DWH
- Operational Data Store (ODS)
- Arbeitsbereich (staging area)
- ETL-Komponente
- Metadatenbanksystem
- Analysekomponente (Data Access, OLAP, Data Marts)
Abgrenzung operative/dispositive Daten: Ziel
O: Unterstützung des Tagesgeschäfts
D: Entscheidungsunterstützung
Abgrenzung operative/dispositive Daten: Zustand
O: Häufig redundant und inkonsistent
D: kontrollierte Redundanzen und konsistent
Abgrenzung operative/dispositive Daten: Modellierung
O: Funktions-/transaktionsorientiert
D: Sachgebiets- oder themenorientiert
Abgrenzung operative/dispositive Daten: Zeitbezug
O: aktuell, zeitpunktbezogen
D: Historienbetrachtung, Zeitverlauf
Abgrenzung operative/dispositive Daten: Ausrichtung
O: detaillierte, granulare Geschäftsvorfalldaten
D: meist verdichtet, transformiert
Komponente des DWH-Systems: DWH
- Datenbasis/DWH als Kern des DWH-Systems
- Sammel-/Integrationsfunktion: Sammlung der Daten aus den Datenquellen + zentrales zur Verfügung stellen
- Distributionsfunktion: Verteilung der gesammelten Daten an das DWH-System im Unternehmen
- Auswertungsfunktion: Durchführung von Analysen der gesammelten Daten
Komponente des DWH-Systems: ODS
- Definition: Eine nicht-dauerhafte, detaillierte Sammlung von Daten zur Unterstützung betrieblicher Informationen.
- Funktion: Integration und zeitnahe Auswertung von Daten, die in Quellsystemen schwer möglich sind
Komponente des DWH-Systems: Arbeitsbereich
- Funktion: Temporäre Zwischenspeicherung von Daten, um Beeinträchtigungen im DWH und den Datenquellen zu vermeiden
- Aufgaben: Transformation und Integration der Daten vor dem Laden ins DWH
Komponente des DWH-Systems: ETL-Komponente
- Funktion: Sicherstellung der Datenqualität durch Extraktion, Transformation und Laden der Daten
Komponente des DWH-Systems: Metadatenbanksystem
- Funktion: Bereitstellung von Hintergrundinformationen über Datenquellen, Transformationen und Verdichtungen
- Unterteilung in datenverarbeitungstechnische und betriebswirtschaftliche Informationen
- Komponenten: Informationskatalog (beinhaltet und beschreibt Informationsobjekte, z.B. Grafiken, Tabelle, Texte, Dateien) + Navigationshilfe (Browser)
- Zusätzliche Informationen: Lexikon, Thesaurus, Datenstrukturverzeichnis, Glossar, Data Directory
Komponente des DWH-Systems: Analysekomponente
- Funktion: Unterstützung der Benutzer bei der Datenauswertung durch verschiedene Werkzeuge und Tools
- Data Access: Berichtswerkzeuge zur Präsentation von Daten
- OLAP: Multidimensionale Analyse von Daten
- Data Marts: Analyseorientierte Systeme für spezifische Anwendungsthemen (z.B. einzelne Data Marts für verschiedene Abteilungen, die abteilungsspezifische Daten für Auswertungen bereitstellen)
ETL-Komponente: Extraktion
- Übertragung der Daten von der Datenquelle in den zwischengelagerten Arbeitsbereich
- Herausforderung: Auswahl der extrahierenden Daten (Berücksichtigung der Datenbeschaffenheit und Relevanz), Automatisierung: Fehler sollen nicht den gesamten Prozess stoppen, sondern nachträglich korrigierbar sein
- Häufigkeit: Periodisch, anfragegesteuert, ereignisgesteuert, sofortige Durchführung
ETL-Komponente: Transformation
- Anpassung der Daten zur Ladung ins DWH
- Aufgaben: Standardisierung (Vereinheitlichung von Zeichenketten und Konvertierung von Kodierungen) + Bereinigung (Korrektur fehlerhafter Daten und Löschung redundanter oder veralteter Daten)
ETL-Komponente: Laden
- Übertragung der transformierten Daten ins DWH
- Initiales Laden (einmalig) vs. Regelmäßige Aktualisierungen
- Hoher Zeit- und Rechenaufwand
- Historisierung der Daten