Einheit 3 Flashcards

(37 cards)

1
Q

Einbettung von Data Warehouses in den Gesamtkontext der BI

A

Stufe 1: Datenquellen (Daten aus den operativen Systemen, externen Datenbanken, internetbasierte Daten)
Stufe 2: Staging (Extraktion, Transformation und Laden der Daten)
Stufe 3: Data Warehouse (+Metadatenbank + Data Marts)
Stufe 4: Entscheidungsunterstützung (Ad-hoc-Abfragen, Berichte, OLAP-Werkzeuge, Data-Mining-Werkzeuge)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Gesamtarchitektur eines Data Warehouse Systems

A
  1. Ebene der operativen Systeme
  2. Datenerfassungsebene
  3. Datenhaltungsebene
  4. Datenbereitstellungsebene
  5. Präsentationsebene
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q
  1. Ebene der operativen Systeme
A
  • Enthält die Datenquellen, die Daten in das DWH-System einspeisen (operative/externe)
  • Gehört nicht zum eigentlichen DWH-System
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q
  1. Datenerfassungsebene
A
  • Erste Ebene im DWH-System: Arbeitsbereich
  • Schnittstelle zu operativen Systemen
  • Verwendung der ETL-Komponente zur Extraktion (Bereinigung, Harmonisierung und Zusammenführung) der Daten
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q
  1. Datenhaltungsebene
A
  • Hauptelement ist das DWH
  • ODS erweitert das DWH
  • Unterteilung in zwei Schichten: Basisschicht: Tabellen direkt aus Quellsystemen + Aggregationsschicht: Tabellen optimiert für OLAP-Anfragen, mit Aggregationshierarchien
  • Daten gelangen durch das Laden (Teil der ETL-Komponente) vom DWH in die Analysekomponente
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q
  1. Datenbereitstellungsebene
A
  • Schnittstelle zur Präsentationsebene
  • Zweckmäßige Aufbereitung der Informationen für Entscheidungsträger
  • Analysekomponente selektiert und bereitet Daten auf (z.B. OLAP)
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q
  1. Präsentationsebene
A
  • Aufgabe: Adäquate Aufbereitung und Präsentation der Daten
  • Nutzung von Analysekomponenten und Data Mining-Anwendungen
  • Unterstützung durch Tabellenkalkulationsprogramme
  • Kritische Überwachung der Erfolgsgrößen, Benachrichtigung bei Überschreitung kritischer Wertgrenzen (z.B. durch Data Access)
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

SINT-Eigenschaften

A
  • Themenorientierung: themenorientierte Haltung der Daten im DWH
  • Integration: von Daten aus verschiedenen Quellen; oft schwierig wegen unterschiedlicher Datenformate und -kodierungen.
  • Zeitraumbezug: zeitraumbezogene Ablage der Daten (in Applikationen: zeitpunktbezogen), Ermöglichung der langfristigen Speicherung (5-10 Jahre)
  • Nicht-Volatilität: Daten werden dauerhaft vorgehalten und sind nicht vergänglich; Daten werden nicht überschrieben, sondern erneut hochgeladen
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Ziele eines Data Warehouse

A
  • Effiziente Bereitstellung von Daten: Für Auswertungen und Analysen, Ermöglichung einer einfachen Zusammenführung der Daten zu Analysezwecken
  • Unterstützung der Geschäftsprozesse: Beitrag zur Strategieerreichung eines Unternehmens
  • Abschaffung von Insellösungen: Verbesserung der Kommunikation zwischen Aufgabenbereichen
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Komponenten eines DWH-Systems

A
  • DWH
  • Operational Data Store (ODS)
  • Arbeitsbereich (staging area)
  • ETL-Komponente
  • Metadatenbanksystem
  • Analysekomponente (Data Access, OLAP, Data Marts)
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Abgrenzung operative/dispositive Daten: Ziel

A

O: Unterstützung des Tagesgeschäfts
D: Entscheidungsunterstützung

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Abgrenzung operative/dispositive Daten: Zustand

A

O: Häufig redundant und inkonsistent
D: kontrollierte Redundanzen und konsistent

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Abgrenzung operative/dispositive Daten: Modellierung

A

O: Funktions-/transaktionsorientiert
D: Sachgebiets- oder themenorientiert

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Abgrenzung operative/dispositive Daten: Zeitbezug

A

O: aktuell, zeitpunktbezogen
D: Historienbetrachtung, Zeitverlauf

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Abgrenzung operative/dispositive Daten: Ausrichtung

A

O: detaillierte, granulare Geschäftsvorfalldaten
D: meist verdichtet, transformiert

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Komponente des DWH-Systems: DWH

A
  • Datenbasis/DWH als Kern des DWH-Systems
  • Sammel-/Integrationsfunktion: Sammlung der Daten aus den Datenquellen + zentrales zur Verfügung stellen
  • Distributionsfunktion: Verteilung der gesammelten Daten an das DWH-System im Unternehmen
  • Auswertungsfunktion: Durchführung von Analysen der gesammelten Daten
17
Q

Komponente des DWH-Systems: ODS

A
  • Definition: Eine nicht-dauerhafte, detaillierte Sammlung von Daten zur Unterstützung betrieblicher Informationen.
  • Funktion: Integration und zeitnahe Auswertung von Daten, die in Quellsystemen schwer möglich sind
18
Q

Komponente des DWH-Systems: Arbeitsbereich

A
  • Funktion: Temporäre Zwischenspeicherung von Daten, um Beeinträchtigungen im DWH und den Datenquellen zu vermeiden
  • Aufgaben: Transformation und Integration der Daten vor dem Laden ins DWH
19
Q

Komponente des DWH-Systems: ETL-Komponente

A
  • Funktion: Sicherstellung der Datenqualität durch Extraktion, Transformation und Laden der Daten
20
Q

Komponente des DWH-Systems: Metadatenbanksystem

A
  • Funktion: Bereitstellung von Hintergrundinformationen über Datenquellen, Transformationen und Verdichtungen
  • Unterteilung in datenverarbeitungstechnische und betriebswirtschaftliche Informationen
  • Komponenten: Informationskatalog (beinhaltet und beschreibt Informationsobjekte, z.B. Grafiken, Tabelle, Texte, Dateien) + Navigationshilfe (Browser)
  • Zusätzliche Informationen: Lexikon, Thesaurus, Datenstrukturverzeichnis, Glossar, Data Directory
21
Q

Komponente des DWH-Systems: Analysekomponente

A
  • Funktion: Unterstützung der Benutzer bei der Datenauswertung durch verschiedene Werkzeuge und Tools
  • Data Access: Berichtswerkzeuge zur Präsentation von Daten
  • OLAP: Multidimensionale Analyse von Daten
  • Data Marts: Analyseorientierte Systeme für spezifische Anwendungsthemen (z.B. einzelne Data Marts für verschiedene Abteilungen, die abteilungsspezifische Daten für Auswertungen bereitstellen)
22
Q

ETL-Komponente: Extraktion

A
  • Übertragung der Daten von der Datenquelle in den zwischengelagerten Arbeitsbereich
  • Herausforderung: Auswahl der extrahierenden Daten (Berücksichtigung der Datenbeschaffenheit und Relevanz), Automatisierung: Fehler sollen nicht den gesamten Prozess stoppen, sondern nachträglich korrigierbar sein
  • Häufigkeit: Periodisch, anfragegesteuert, ereignisgesteuert, sofortige Durchführung
23
Q

ETL-Komponente: Transformation

A
  • Anpassung der Daten zur Ladung ins DWH
  • Aufgaben: Standardisierung (Vereinheitlichung von Zeichenketten und Konvertierung von Kodierungen) + Bereinigung (Korrektur fehlerhafter Daten und Löschung redundanter oder veralteter Daten)
24
Q

ETL-Komponente: Laden

A
  • Übertragung der transformierten Daten ins DWH
  • Initiales Laden (einmalig) vs. Regelmäßige Aktualisierungen
  • Hoher Zeit- und Rechenaufwand
  • Historisierung der Daten
25
Eigenschaften Data Marts
* Autonomer Betrieb: Flexibler Zugriff auf benötigte Daten durch Abteilungen * Datenhaltung: Speichern nur der relevanten Daten zur Entscheidungsunterstützung
26
Vor-/Nachteile Data Marts
* Vorteile: geringe Rechnerleistung, kostengünstig, anpassbar an fachliche Gegebenheiten * Nachteile: hoher Aufwand für Qualitätssicherung, Datenredundanz, beschränkte Sicht auf Daten, schwierig für abteilungsübergreifende Analysen
27
Eigenschaften OLAP
* Online: Direkter Zugriff der Anwender auf den zentralen Datenbestand, um Daten zu betrachten oder zu manipulieren * Analytical: Ermöglicht unterschiedliche Sichten für Entscheidungsträger, im Gegensatz zu OLTP, das sich auf Geschäftsvorfälle konzentriert * Processing: Schnelle Berechnungen und Manipulationen durch den Anwender
28
OLAP - 12 Regeln nach Codd
1. Multidimensionale konzeptionelle Sichtweise auf die Daten: ermöglicht die Analyse, Aggregation und Korrelation von Daten. Ergebnisse werden visualisiert zur Verfügung gestellt 2. Transparenz: Abfragen können ohne Kenntnisse der zugrundenliegenden Datenstrukturen durchgeführt werden 3. Zugriffsmöglichkeit: Analysen auf Basis unternehmensinterner und externer Datenquellen sind möglich 4. Gleichbleibende Antwortzeit bei der Berichterstellung: Antwortzeit bleibt unabhängig von der Anzahl der Dimensionen oder Datensätze konstant 5. Client-Server-Architektur: Trennung von Speicherung, Verarbeitung und Darstellung. OLAP-Server bietet eine offene Schnittstelle. 6. Generische Dimensionalität: Einheitliche Struktur und Funktionalität aller Dimensionen 7. Dynamische Behandlung unvollständig besetzter Matrizen: Funktionalitäten bleiben auch bei unvollständig besetzten Matrizen erhalten 8. Mehrbenutzerunterstützung: Mehrere Benutzer können parallel auf die gleichen Daten zugreifen. Konsistenz der Daten bleibt erhalten 9. Uneingeschränkte kreuzdimensionale Operationen: Berechnungen über beliebige Dimensionen hinweg sind möglich 10. Intuitive Darstellung und Bearbeitung der Daten: Anwender können Analysen selbstständig und intuitiv durchführen 11. Flexible Berichterstellung: Berichtselemente aus verschiedenen Zeilen und Spalten sind frei positionierbar 12. Unbegrenzte Anzahl von Dimensionen und Klassifikationsebenen: Analysen können mit einer beliebigen Anzahl von Dimensionen durchgeführt werden
29
OLAP - Erweiterung der 12 Regeln
1. Datenintegration: Zugriff auf die multidimensionale Datenstruktur und darunter liegende Daten 2. Unterstützung verschiedener Analysemodelle: Vier Datenmodelle werden unterstützt: * kategorisches Datenmodell: Historische Daten werden mit aktuellen Daten verglichen, um den aktuellen Zustand zu definieren * exegetischen Datenmodell: Ursachenanalyse, die zu dem aktuellen Zustand geführt haben * kontemplative Modell: Simulation mit verschiedenen Werten oder Abweichungen von/zwischen Dimensionen * formelbasiertes Modell: Berechnung, durch welche Veränderungen von Kennzahlen und Parametern ein vorgegebener Zielzustand erreicht werden kann 3. Trennung analyseorientierter von den operativen Daten: Veränderungen im DWH werden nicht ins Quellsystem übernommen 4. Trennung der Speicherorte: Veränderungen werden nicht auf dem produktiven Datenbestand gespeichert 5. Unterscheidung zwischen Null- und Fehlwerten: Es müssen fehlende Werte und Werte mit dem numerischen Wert 0 unterschieden werden können 6. Behandlung von fehlenden Werten: Fehlende Werte sollen effizient verwaltet werden, sodass eine optimale Nutzung der Speicherkapazität gewährleistet werden kann
30
OLAP - FASMI
* Geschwindigkeit: Anfragen sollen in unter fünf Sekunden beantwortet werden * Analysemöglichkeit: Intuitive und benutzerfreundliche Analyse der Daten * Sicherheit: Mehrere Anwender können gleichzeitig auf dieselben Daten zugreifen * Multidimensionalität: Nutzung und Kombination multidimensionaler Daten für Analysen * Kapazität: Antwortzeiten bleiben unabhängig von der Anzahl der Anfragen und Datenmenge stabil
31
MOLAP
Multidimensional OLAP * Physische Speicherung: Daten werden tatsächlich physisch in mehrdimensionalen Datenbanken gespeichert * Schnellere Antwortzeiten: Vorteilhaft für Analysen mit kleineren Datenmengen * Höheres Datenvolumen: Je höher die Anzahl der Dimensionen, desto höher das Datenvolumen
31
ROLAP
Relational OLAP * Basiert auf relationalen DBMS: Implementierung nach dem Star- oder Snowflake-Schema * Tabellenarten: Dimensionstabellen (Stammdaten) und Faktentabellen (Bewegungsdaten -> werden durch Stammdaten beschrieben) * Dynamische Sichten: Multidimensionale Sichten werden dynamisch erzeugt
32
OLTP
Online Transactional Processing * Unterstützt operatives Geschäft * Verwendet aktuelle und detaillierte Daten * Operationen: Anlegen, Lesen, Ändern, Löschen von Daten * Eignet sich für tägliche Geschäftsprozesse vs. OLAP: * Unterstützt Analyse und Entscheidungsfindung * Nutzt historische und aggregierte Daten * Operationen: Multidimensionale Abfragen, ad hoc-Analysen * Eignet sich für strategische Analysen und Berichte
33
Vorteile ROLAP gegenüber MOLAP
* Verwaltung großer Datenvolumina: ROLAP kann große Datenvolumina besser verwalten * Flexibilität bei der Dimensionenwahl: Bei ROLAP kann die Anzahl der Dimensionen flexibel gewählt werden * Know-How: In den meisten Unternehmen ist das Know-How über die Verwendung von ROLAP-Anwendungen vorhanden, während es bei MOLAP-Anwendungen oft fehlt * Robuste Technologie: ROLAP basiert auf einer robusten Technologie, die in den meisten Unternehmen verfügbar ist * Keine Vorberechnungen notwendig: ROLAP-Anwendungen greifen auf bestehende relationale Tabellen zu, während MOLAP-Anwendungen einen hohen Vorberechnungsaufwand erfordern
34
Pivotierung/Rotation
* Drehung des OLAP-Würfels um horizontale/ vertikale Achse * Ziel: Austausch der Dimensionen zur weiteren Analyse * Bsp: Wechsel von Betrachtung Kunde/Produkt zu Region/Produkt * Pivotierung: Nutzung von Pivottabellen zur Darstellung mehr als drei Dimensionen. * Rotation: führt dazu, dass neue Dimensionen in die Tabelle aufgenommen werden
35
Roll-Up & Drill-Down
* Roll-Up: Aggregation der Daten, höhere Hierarchieebene (z.B. Städte zu Regionen) * Drill-Down: Detaillierung der Daten, tiefere Hierarchieebene (z.B. Region X zu Städten)  Zielabhängig: Roll-Up für Übersicht, Drill-Down für Details
36
Slice & Dice
* Filterung der Gesamtdatenmenge * Slice: Eine Dimension auf einen Wert reduzieren (eine Scheibe) – z.B. nur eine Region/ Produkt * Dice: Filterung der Datenmenge, Auswahl einzelner Blöcke; Fokussierung auf einen Teilausschnitt aus der Realität – z.B. Berücksichtigung von zwei Produkten, zwei Regionen, zwei Kunden  neu entstandener Datenwürfel als Ergebnis