Kontrollfragen Flashcards

Question

Wie lauten die 12 OLAP Regeln nach Codd?

Answer 1

1. Multidimensionale konzeptionelle Sichtweise auf die Daten: 2. Transparenz: Analysen können auch ohne Kenntnisse der Datenstruktur durchgeführt werden 3. Zugriffsmöglichkeit: dem Entscheider muss es möglich sein, seine Analysen auf Basis interner und externer Datenquellen durchzuführen 4. Gleichbleibende Antwortzeit bei der Berichtserstellung: unabhängig davon, welche Daten bei der Analyse verwendet werden, muss die Antwortzeit konstant sein. 5. Client-Server Architektur:Trennung der Speicherung, Verarbeitung und Darstellung 6. Generische Dimensionalität (veraltet!!!) 7. Dynamische Behandlung unvollständig besetzter Matrizen: 8. Multiuser-Support: mehrere User können gleichzeitig auf dieselben Daten zugreifen und diese verwenden können. 9. uneingeschrätnke kreuzdimensionale Operationen 10. Intuitive Darstellung und Bearbeitung der Daten: der Anwender muss ohne Kenntnisse des Systems seine Analysen selbständig durchführen können. 11. Flexible Berichtserstellung: Anordnung von Zeilen, Spalten usw. sollten frei positionierbar sein 12. Unbegrenzte Anzahl von Dimensionen und Klassifikationsebenen

Answer 2

FASMI – Fast Analysis of Shared Multidimensional Information Fast: Abfragen sollen schnell bearbeitet werden. Einfache Abfragen sollen max. 5 Sekunden und komplexere Abfragen bis zu 20 Sekunden Verarbeitungszeit beanspruchen. Analysis: Ein OLAP-System soll jegliche Logik bewältigen können. Dabei soll die Definition einer komplexeren Analyseabfragen durch den Anwender mit wenig Programmieraufwand zu realisieren sein. Shared: Ein OLAP-System soll für den Mehrbenutzerbetrieb ausgelegt sein. Dies bedingt eine Verfügbarkeit geeigneter Zugriffsschutzmechanismen. Multidimensional: Als Hauptkriterium fordern Pendse und Creeth eine mehrdimensionale Strukturierung der Daten mit voller Unterstützung der Dimensionshierarchien. Information: Bei der Analyse sollen einem Anwender alle benötigten Daten transparent zur Verfügung stehen. Eine Analyse darf nicht durch Beschränkungen des OLAP-Systems beeinflusst werden.

Answer 3

``` Navigation Aufreißen nach Merkmal (Dice) Hierarchieknoten aufklappen (Drill Down) und zuklappen (Drill Up) Aufrisselemente austauschen (Swap) Filtern Merkmale auf Selektionen einschränken (Slice) Aggregation Standardaggregation Ausnahmeaggregation Lokale Aggregation Darstellung Darstellung Merkmale als Schlüssel Resultatszeilen anzeigen/unterdrücken Position von Hierarchieknoten ändern Selektion und Darstellung Schwellenwerte (Exception) Bedingungen (Conditions) Strukturierung Hierarchische Zuordnung von Merkmalswerten beim Aufriss mehrerer Elemente Generische und Business Analysefunktionen Sortierung Merkmalen und Kennzahlen Berechnete Kennzahlen und Formeln Währungsumrechnung Binnenumsatzeliminierung Konzepte zur Laufzeitoptimierung Bestände Aggregate OLAP Cache Integrierte Zusatzfunktionen Variablen zur Parametrisierung -> Erhöhung Wiederverwendbarkeit von Queries Berichts-Berichts-Schnittstelle zur Navigation in verschiedenen Berichten Berichtigungskonzept zur Steuerung der Benutzerrechte in Bezug auf Datenzugriff ```

Answer 4

Core Data Warehouse soll dimensional modelliert sein Handelt sich um ein Repository, dass für Auswertungen genutzt werden soll Einzelne Data Marts dieser Data Mart Busarchitektur werden Subject Areas genannt

Answer 5

Faktenbeziehung Durch eindeutigen Faktennamen identifiziert Kann beliebig viele Assoziierungen mit Dimensionsebenen aufbauen Kann beliebig viele Kennzahlen enthalten Klassifikationsstufe (Dimensionsebene) Repräsentiert Konsolidierungsebene Einzelne Dimensionsebenen für gesamte Datenmodell eindeutig Dimensionsebenen (Knoten) bilden mit „rolls-up to“ -Beziehung (Kanten) einen Graphen „Rolls-up to“ -Beziehung Klassifikationsebene Definiert Relation zwischen zwei Dimensionsebenen -> nicht zyklischer Graph lässt sich definieren, kann beliebig viele Pfade besitzen

Answer 6

``` ADAPT DFM UML Kein Standard weil: Nicht verständlich Keine einfache grafische Darstellung Zu viele Notationselemente ```

Answer 7

Snowflake-Schema Abbilden von Klassifikationen Eigene Tabellen für jede Klassifikationsstufe Tabellen enthalten jeweils ID für Klassifikationsknoten Beschreibende Attribute z.B. Hersteller Fremdschlüssel der übergeordneten Klassifikationsstufe Faktentabelle enthält Fremdschlüssel der niedrigsten Klassifikationsstufe Fremdschlüssel bilden zusammengesetzten Primärschlüssel für Faktentabelle Star-Schema Ist normalisiert -> keine Änderungsanomalien Aber: -> Join über mehrere Tabellen Star-Schema als alternatives Entwurfsmuster: Denormalisierung der zu einer Dimension gehörenden Tabellen Für jede Dimension genau eine Dimensionstabelle Redundanzen in Dimensionstabellen zur effizienten Anfragebearbeitung

Answer 8

Galaxy-Schema Mehrere Faktentabelle Teilweise mit gleichen Dimensionstabellen verknüpft Alternative Bezeichnung: Multi-Faktentabellen-Schema Fact-Constellation-Schema Basiswerte und Aggregate in einer Faktentabelle Alternative: Auslagerung in eigene Faktentabelle

Answer 9

Schlüssel, deskriptive Informationen und Beziehungen bei Data Vault werden in drei genannten Typen von Tabellen abgelegt: Hub Enthalten keine beschreibenden Informationen oder Fremdschlüssel Business Keys der jeweiligen Objekte werden gespeichert, Business Keys können aus mehreren Attributen bestehen Neben Business Key enthalten Hubs folgende Felder: Surrogate Key: fortlaufende Nummer als Primärschlüssel, falls Business Key nicht als Primärschlüssel verwendet werden kann Load Date: Zeitstempel, der angibt wann Business Key zum ersten Mal ins Data Warehouse geladen wurde Record Source: Nachvollziehbarkeit wird hier festgehalten, aus welchem Quellsystem der Eintrag stammt Link Wird verwendet Beziehungen zwischen zwei oder mehreren Hubs oder Links darzustellen Enthält keine beschreibenden Informationen SIDs der beteiligten Hubs/Links werden übernommen -> Verbindung zwischen Hubs/Links wird hergestellt (M:N Beziehung) Zusätzlich enthält Link folgende Felder: Surrogate Key: fortlaufende Nummer als Primärschlüssel, falls Business Key nicht als Primärschlüssel verwendet werden kann Load Date: Zeitstempel, der angibt wann Business Key zum ersten Mal ins Data Warehouse geladen wurde Record Source: Nachvollziehbarkeit wird hier festgehalten, aus welchem Quellsystem der Eintrag stammt Satellit Deskriptiven Informationen werden gespeichert und historisiert Gehören genau zu einem Hub oder Link Hubs und Links können beliebig viele Satelliten haben Primärschlüssel besteht aus SID des Hubs/Links und einem Zeitstempel mit Angabe wann Daten ins Data Warehouse geladen wurden Die einzigen Komponenten die ein zeitliches Attribut als Teil des Primärschlüssels verwenden In einem Satelliten wird das Record Source (Quellsystem) gespeichert

Answer 10

Bitmap-Indices können aufgrund der geringen Größe im Hauptspeicher verarbeitet werden (komprimierte Ablage). Daher auch bei geringer Selektivität anwendbar. Beispiel: In einen Index einer Personendatenbank werden die Attribute Geschlecht (zwei mögliche Werte, Kardinalität = 2) und Familienstand (Kardinalität = 3) eingetragen. Die Indextabelle könnte so aussehen:

Answer 11

``` Arten Physische Partitionierung Logische Partitionierung Vertikale Partitionierung Horizontale Partitionierung Hash Partitionierung Aufteilung einer umfangreichen Relation (Tabelle) in einzelne kleinere Teilrelationen ```

Answer 12

Vertikal Einzelne Attribute werden von Mastertabelle getrennt, semantische Einheiten werden zerstört Schlüsselattribute dürfen nicht in Partitionierung einbezogen werden Zusammenfassen erfordert Verbundanfragen Geeignete Technik zur Auslagerung selten benutzter Attribute Horizontal Tupelmenge (Datenbanktabelle) wird auf verschiedene, paarweise disjunkte Teiltabellen aufgeteilt Attribute aller Teiltabellen stimmen mit denen der Master Tabellen überein Wichtige Erweiterungen der meisten kommerziellen RDBMS der letzten Jahre Hauptvorteile: Datenmanagement: Partitionen als eigenständige DB Objekte Parallele Verarbeitungen Scans können Partitionen auslassen

Answer 13

Vielzahl gleicher oder ähnlicher Anfragen auf immer denselben Relationen 🡪 Einführung von Sichten zur Anfragevereinfachung überwiegend lesender Zugriff auf weitgehend stabiler Datenbasis 🡪 Materialisierung der Sichten ggf. sinnvoll seltene Änderungen in der Datenbasis bedeuten geringen Aufwand bei der Aktualisierung der Sichten Materialisierung reduziert Berechnungsaufwand bei wiederkehrenden Anfrageteilen Herausforderungen: Auswahl materialisierter Sichten Abwägung zwischen folgenden Kriterien: Speicherbedarf für redundant gehaltene Daten zusätzlicher Verwaltungsaufwand durch Materialisierung (einschl. Analyseaufwand für Auswahl der zu materialisierenden Sichten) erwartete Reduktion von Antwortzeiten

Answer 14

``` Reifegradmodell Bestimmungsfaktoren: Größe des BI Projektes Stabilität der fachlichen Anforderungen Besondere Risiken Eingeführte IT Standards und Prozesse Qualifikationen der Mitarbeiter Vertragliche Beziehungen ```

Answer 15

``` Informationen über aktuelle Situation Bereitstellung Kennzahlen Visualisierung Tatbeständen Unterstützung der Entscheidungsfindung Unterstützung der Planung Strategische Planung Operative Planung ```

Answer 16

Top-Down/Bottom-Up

Answer 17

``` Top down Vorgehen Vorteile Basisdatenbank ideal konzipiert Datenbanken immer konsistent Daten können mehrfach genutzt werden Nachteile Komplex, viel Vorarbeit Dauert lange Anwender spät eingebunden Nutzen erst sehr spät Bottom up Vorgehen Vorteile Anwender werden früh eingebunden Früher Nutzen Einfache Konzeption der Ableitungsdatenbank, welche Basisdatenbank definiert Nachteile Basisdatenbank anwenderspezifisch Konzeptionsfehler in operativen Systemen werden übernommen Nutzen nur für wenige Fachabteilungen Andere Anwendungsbereiche nur mit großem Aufwand berücksichtigt werden ``` Gemischtes Vorgehen Globales konzeptionelles Datenmodell Lokale Umsetzungen der Basis: hält sich strikt an konzeptionelle Datenmodell Kleine Auswertungsdatenbank mit hohem Nutzen Nur die notwendigen Quelldaten werden identifiziert und eingebunden

Answer 18

Vorab Machbarkeitsstudie über… Gegenstand und Bedeutung des BI für das Unternehmen Wirtschaftlichkeitsbetrachtungen Softwareauswahl Hardwareauswahl Personalbedarf Datenschutzrechtliche Absicherung Ziele bewerten verschiedener Lösungsalternativen Ableiten einer Handlungsempfehlung als Entscheidungsgrundlage für Management

Answer 19

``` Funktionaler Test Datenvalidierung Usability Test Performance und Stresstests Wiederinbetriebnahmetest Sicherheitstest Weiterentwicklungstest ```

Answer 20

Nutzenaspekte Prozesskriterien Alle Aspekte bei Auswertung von Ableitungs und Ausfalldatenbank Mit Prozess Entscheidungsprozess der Manager gemeint -> effizient und effektiv gestalten Prozess der Informationsversorgung -> soll durch Data Warehousing verbessert werden Produktivitätskriterien Die Folgen der Managemententscheidungen und Informationsversorgung bewerten Wahrnehmungskriterien Alle Aspekte, die Anwender und Umgang mit Data Warehouse System betreffen Produktkriterien Aspekte wie technische und funktionelle Eigenschaften der eingesetzten Werkzeuge Kostenverursacher Studien, Testlizenzen, Testrechner innerhalb Auswahlprozesses Daten und Beschaffung, Bereinigung, Haltung, Archivierung Hardware: Rechner, Netze, Datenspeicher für alle Phasen Software für Datenbeschaffungs-und Datenhaltungsprozess, Analyse und Kommunikation Know How für Aufbau und Organisation des BI Systems Schulung der Anwender Betrieb inkl. Wartung, Qualitätssicherung Daten und des Ablaufs, Datensicherung und Archivierung, Anwenderberatung

Answer 21

Aufdecken unbekannter Zusammenhänge Verfahren Klassifikation: Zuordnen Daten zu vorgegebenen Klassen Segmentierung: Daten werden ihrer Merkmalsausprägung zu Gruppen zusammengefasst Assoziationsanalyse: Regeln, die auftretende Elemente des Datenbestands beschreiben Prognose: Fortschreibung einer Zeitreihe in die Zukunft

Answer 22

Zusammenfassen von Objekten in Gruppen, die sich durch charakteristische Attribute und gleiches Verhalten bzgl. des zu untersuchenden Sachverhalts auszeichnen

Answer 23

Einteilen von Objekten (z.B. Kunden, Produkte) in Klassen auf Basis einer bestimmten Kennzahl (Umsatz/Gewinn) Klassifikationsregeln, die sich auf eine Kennzahl in Daten beziehen (Klassifikationskriterium), geben an welche absoluten oder relativen Werte welche Klassen zuzuordnen sind

Answer 24

Clusteranalyse

Answer 25

Cross-Selling, Katalog-Design, Laden-Layout, Kundensegmentierung, Gesundheitswesen, Industrieproduktion u.a.

Answer 26

Abbilden Daten auf kategorielle Größen Ermitteln von Abbildungsregeln auf historische Daten, bei denen Zuordnung zu Kategorien bekannt ist Entscheidungsbaum = grafische Darstellung der Regeln In jedem Knoten wird ein Attribut abgefragt und ausgewertet Verzweigungen (Äste) repräsentieren Entscheidungen der Auswertung des jeweiligen Attributwertes Blattknoten stellen Klassifikation für ein Objekt dar

Answer 27

Realtime Data Warehousing ersetzen des batch-orientierten, periodischen ETL-Prozess teilweise oder ganz durch eine Integration von operativen Transaktionsdaten in Echtzeit zeitnahe Verfügbarkeit: Millisekunden oder Sekunden Beispiel: Wertpapierhandel. Indizes von Aktien und festverzinslichen Papieren, Währungskurse usw. müssen möglichst schnell integriert und Endbenutzer zur Verfügung stehen.  Herausforderung an den ETL-Prozess Closed-Loop Data Warehousing Rückkopplung von Analysergebnissen in operative und/oder dispositive Systeme inhaltliche Ergänzung der Datenbestände durch zusätzliche Informationen Beispiel: CRM – um Cross- u. Up-Selling-Potenziale bei einem Kundenkontakt direkt aufzuzeigen, werden Ergebnisse der Kundensegmentierung in das operative System eingebunden, so dass das System konkrete Produktempfehlungen geben kann Active Data Warehousing Weitere Operationalisierung des DWH in Hinblick auf Unterstützung des Lower-Managements Ziel: Ausführung von Aktionen bei gut strukturierten Problemstellungen in operativen Entscheidungssituationen (teil-)automatisiert, gemäß sog. ECA-Modell (Event- Condition-Action Model) Beispiel: Logistik. Z.B. Entscheidung bei verspäteter Lieferung einer Fracht, die für einen Anschlusstransport bestimmt ist. Soll der Transport ohne die Fracht starten oder warten? Die „ideale“ Entscheidung berücksichtigt die einzelnen Liefertermine, SLAs, Wert des Kunden für das Unternehmen, alternative Routen usw.

Answer 28

Sie liefern schnelle Auswertungen trotz enormer Datenmengen, da sie, im Gegensatz zu reihenorientierten DBMS sofort die relevanten Blöcke lesen können, ohne den kompletten Datensatz lesen zu müssen Ein weiterer Vorteil ergibt sich daraus, dass bei einer spaltenorientierten Datenhaltung immer Daten desselben Typs und ähnlichen Eigenschaften hintereinander weg gespeichert werden. Das ermöglicht einfache und effiziente Komprimierungsmöglichkeiten und hilft, Datenredundanzen zu minimieren und gleichzeitig den Speicherbedarf zu verringern.

Answer 29

Die Vorteile der IMDB liegen in der schnelleren Antwortzeit. Indizierungen fallen weg oder werden stark reduziert. Die Kosten für Datenbankabfragen werden dadurch minimiert und Reaktionszeiten deutlich verkürzt.

Answer 30

Aufgrund der wachsenden Menge an Daten (Das weltweite Datenvolumen verdoppelt sich in den nächsten Jahren etwa alle 18 Monate) ist der Begriff „Big Data“ entstanden. Mit Big Data-Methoden und Technologien soll die Flut an Informationen bewältigt werden, zudem bietet Big Data vielen Branchen neue Möglichkeiten für die Erschließung von Wirtschaft und Wissenschaft.

Answer 31

``` Aufgrund der fehlenden starren Schemata der relationalen Datenbanken, sind NoSQL-Systeme flexibel einsetzbar und eignen sich für große Datenmengen, wie sie in Big-Data-Anwendungen verwendet werden. Ihre komplette Architektur ist auf Skalierbarkeit und Performance ausgelegt. Die verschiedenen NoSQL-Ansätze und Datenbankmodelle lassen sich in vier unterschiedliche Hauptkategorien einteilen. Diese sind: Dokumentenorientierte Datenbanken, Key-Value-Datenbanken, Graphendatenbanken spaltenorientierte Datenbanken. ```

Answer 32

Mit der Verarbeitungsart Replacement Path können Sie bestimmen, durch welchen Wert die Variable beim Ausführen der Query automatisch ersetzt werden soll. Die Verarbeitungsart Replacement Path steht für Merkmalswert-, Text- und Formelvariablen zur Verfügung.

Kontrollfragen Flashcards

(69 cards)