Klausurvorbereitung Flashcards

(39 cards)

1
Q

Was ist Big Data?

A

verfolgt das Ziel, qualitative und unterschiedlich struktierte Daten zu verbinden und in ein Geschäftsnutzen zu verwandeln
lässt sich anhand der “3-Vs” beschreiben
aus sicht der Wirtschaftsinformatik kommt Value dazu
Volume - Datenmengen (z.B. Zetabye)
Velocity - Geschwindigkeit
Vareity - Datenvielfallt (z.B. Strukturierte Daten - ERP-System; Unstrukturierte Daten - Facebook/Sensoren; Semi-Strukturierte Daten - E-Mail)
Value - Gewinn/Nutzen

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Herrausforderungen sowie zukünftige Trends im Kontext zu BI

A

Big Data: Große Datenmengen, Geschwindigkeit der Daten, hoher Informationsgehalt - dimensionalisierung = Digitalisierung des Alltags
Datenheterogenität: Daten aus Externen (z.B. Facebook)
Erfassungs-, Mess-, Veränderungsgeschwindigkeit der Daten
Mobile BI: Zugriff auf mobile Endgeräte
Predictive Analysis: Prognose von Zukunftswerten
Self BI: User holen sich aufbereittete Daten aus DB
In-Memory: Speichertechnologie, Daten befinden sich direkt im Speicher, Enorme Aufbereitung und Ausgabe Geschwindigkeit
BI as a Service: Cloud basierte BI Lösung

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Risiken im Kontext mit BI

A

Datenkraken
Datenschutz
Gläsener Mensch
Konflikt zwischen technisch möglich und Ethnischer Sicht
Kommerzieller Nutzen der Daten
Qualität der Analysemethoden bzw. Datenbasis

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Was ist ein Data Warehouse?

A

für Analysezwecke Optimierte Datenbank, die Daten aus mehreren i.a. heterogenen Quellen zusammenführt und verdichtet (Integration und Transformation)
Umfasst:
den GP, der Datenbeschaffung aus internen und externen zugänglichen Quellen
die Datentransofrmation und -aufbereitung gemäß der Quell- und Zieldatenbankschemata
die Datenqualitätssicherung und die Speicherung im (zentralen) DW bzw. (dezentralen) Data Marts benutzersichten)
die auf OLAP basiernde Datenanalyse

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Was ist eine Data Warehouse Architektur?

A

Als DW Architektur wird der planvolle, fachkonzeptionelle Strukturentwurf des Data Warehouse Systems und dessen Enbettung in sein reales Umfeld bezeichnet.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Data Warehouse Zeichnung

A

Siehe BP Datawarehouse Architektur

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Star Schema Architektur Erklären inklusive Vor und Nachteile

A

Star Schema:
Relationale Speicherung
- Faktentabelle bildet Zentrum des Star-Schemas und enthält die Detail-Daten mit analysiernden Kennzahlen
- 1 Dimensionstabelle pro Dimension, die nur mit Faktentabelle verknüpft ist (-> sternförmige Anordnung der Tabellen)

+ Einfache Datenmodelle -> intuitiv
+ Geringe Anzahl von Join-Operationen
+ Geringe Anzahl physischer DW-Tabellen
+ Geringer Aufwand im Rahmen der DW-Wartung
- Bei sehr großen Dimensionstabellen hohe Antwortzeit
- Redundanz innerhalb der Dimensionstabellen durch das mehrfache Verwenden identischer Fakten

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Snowflake Schema Zeichnen inklusive Vor und Nachteile

A

Siehe BP

+ Beseitigung der Redundanzen in den Dimensionstabellen
+ -> Beseitigung verbundenen Probleme wie z. B. UpdateAnomalien
+ Ist in der 3. Normalform
- Für eine Abfrage sind mehrere Joins notwendig
- Größere Anzahl der Joint-Operationen die die abhängigen Dimensionstabellen verbinden müssen

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Was wird bei der Modellierung multidimensionaler Datenräume unter einem Star-Schema verstanden? Beschreiben Sie das Star-Schema anhand seiner wesentlichen Charakteristika. Wie könnte eine Beispielabfrage auf ein StarSchema lauten?

A

Welcher Umsatz wurde im Januar 2020 in der Region West mit dem Produkt 320 bei dem Kundentyp Geschäftskunden erzielt?

  • Fakten sind betriebswirtschaftliche Kennzahlen und repräsentieren monetäre Werte oder Mengen Bsp.: Umsatz, Absatz, Einzelkosten, Personalbestand etc.
  • Dimensionen sind deskriptiv und ermöglichen eine Gruppierung der Fakten zur Analyse Bsp.: Tage, Produkte, Kunden etc.
  • Hierarchisierungen ermöglichen die Betrachtung unterschiedlicher Konsolidierungsstufen der Fakten Bsp.: Filiale > Region > Land > Gesamt
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Beschreiben Sie das in der Vorlesung kennengelernte FASMI-Prinzip. (5 Punkte) FASMI = Fast Analysis of Shared Multidimensional Information

A
  • Fast: stabile, schnelle Antwortzeiten
  • Analysis: Beherrschung beliebiger Businesslogik und statistischer Analysen wie “What-If”- & “How to achieve”- Betrachtungen
  • Shared: Mehrbenutzerbetrieb, implementiert Sicherheitsanforderungen für Datenschutz
  • Multidimensional: Unterstützung multidimensionaler konzeptioneller Sichten auf Daten, ermöglicht Hierarchien
  • Information: Zugriff auf alle benötigten Daten und abgeleitete Informationen, Verarbeitung großer Datenvolumina
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Was wird unter den Begriffen „OLTP“ und „OLAP“ verstanden? Grenzen Sie die beiden Konzepte in Bezug auf Anfragen ab. (7 Punkte)

A

OnLine Transaction Processing:
• transaktionale Prozesse mit operativen Daten
• klassische operative Informationssysteme
• Erfassung und Verwaltung von Daten
• kurze Schreib- und Lesezugriffe auf wenige Daten

OnLine Analytical Processing:
• Analyse im Mittelpunkt
• lange Lesetransaktionen auf viele Datensätze
• Integration, Aggregation und Konsolidierung von Daten

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Nennen Sie sechs Operatoren zur Navigation in multidimensionalen Datenstrukturen multidimensionaler Datenmodelle. (6 Punkte)

A

Pivoting, Slicing, Dicing, Drill Down, Roll Up, Split

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

ETL-Prozess + Zeichen

A

Siehe PB
-Extraktion

-Transformation
– Filterung
o Auswahl der geeigneten Datenbestände
o Bereinigung von syntaktischen und semantischen Mängeln
– Harmonisierung
o Integration der Teilschemata der Datenquellen zum Data-Warehouse-Schema
o Abstimmung von Kodierungen, Synonymen und Homonymen
– Aggregation
o Bildung von Hierarchien und daraus resultierenden Aggregationen
o Beispielhierarchie: Produkt – Produktgruppe - Gesamt
–Anreicherung
o Berechnung von betriebswirtschaftlichen Kennzahlen

-Laden

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Erläutern Sie, warum BI nicht als Produkt käuflich, sondern unternehmensspezifisch individuell zu implementieren ist. Ein Beispiel (4P)

A

Veraltete Einzelsysteme reichen nicht mehr aus, um die gesamten Informationen, die in einem Unternehmen generiert werden, adäquat zu speichern, analysieren und zu verteilen -> Integrierte und unternehmensspezifische Gesamtansatz notwendig!

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Was ist Pivoting

A

Rotation des Datenwürfels durch Drehen oder Kippen, um eine andere Perspektive auf die Daten zu ermöglichen

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Unterschied zwischen Slicing und Dicing

A
  • Slicing - Ausschnitt im 2D Raum (nur eine Dimension für z. B. alle Produkte zum Zeitpunkt)
  • Dicing - Verkleinerter ausschnitt Würfel des gesamten Würfels (aus allen Dimensionen)
17
Q

Unterschied Drill Down and Roll UP

A

Drill Down - von Grob nach Fein (Produktgruppe -> Produkt)

Roll Up - von Fein nach Grob (Produkt -> Produktgruppe -> Produkte Gesamt)

18
Q

Benutzersicht und physikalische Umsetzung (R-OLAP, M-OLAP und H-OLAP) Zeichnen + Unterschiede

A

Siehe BP
R-OLAP = Star / Snowflake == KEINE WÜRFEL
+ Hohe Stabilität
+ Sicherheit im AWBereich, große Benutzerzahl
- wenig Aggregatsstufen

M-OLAP = Teildaten/Aggregationsdaten Multidimensional gespeichert in Würfel, direkt auf OLAP Server
Nach Aufbereitung muss nicht mehr auf Datenbank zugegriffen werden
“Versuchen hochzuaggregierren und Würfel vorzubereiten”
+ Flexibilität
+ Antwortzeit verhalten
- Sicherheit (Würfel muss generiert werden)
- beschränkt

H-OLAP vereint Vorteile von beiden OLAPS
Aggregation in Multidimensionalen Würfel; Bei Drill Down erst von DB Nachladen; Verwendung bei Hochverdichteten Daten

19
Q

Hichert Regeln

A
SAY: Botschaften klar vermitteln
UNIFY: Bedeutung vereinheitlichen
CONDENSE: Information verdichten
CHECK: Qualität sicherstellen
ENABLE: Konzept verwirklichen
SIMPLIFY: Rauschen, Redundanz und Details weglassen
STRUCTURE: Inhalt richtig gliedern
20
Q

DuPont Schema (ROI)

21
Q

Balanced Score Card (Die vier Schichten einer BSC)

22
Q

Beschreiben Sie den Knowledge Discovery im Databases Prozess. Unterstützen Sie Ihre Erläuterungen durch eine grafische Darstellung des Prozesses. Gehen Sie auf die einzelnen Schritte im Detail ein. (10 Punkte)

A

Kapitel 6 Folie 4/ BI_Prüfungsstoff_final

  1. Selektion:
    • Auswahl der für die Fragestellung relevanten Daten
  2. Vorverarbeitung:
    • Beseitigung von Datenqualitätsproblemen
    • z.B. Missing Values und Imputation, Dubletten, Outliers, fehlerhaft Werte
  3. Transformation:
    • Daten werden in einen für das Datamining-Verfahren geeigneten Datentyp umgewandelt
  4. ML: / Datamining:
    • ML: / Datamining wird auf Daten angewandt (Mustererkennung)
    • Ergebnis: Modell mit Mustern, Auffälligkeiten, Abhängigkeiten etc.
  5. Interpretation und Evaluation
    • Modell und Einsetzbarkeit des Modells werden bewertet
    • Aufbereitung der Ergebnisse für die Entscheidungsfindung
23
Q

Nennen Sie vier Vorteile eines zentralen Data Warehouse im Gegensatz zu reinen Data Marts. (4 Punkte)

A
  • integrierte Sichtweise auf das Gesamtunternehmen
  • zentrale Datenverwaltung
  • geringere Datenredundanz
  • kein Transformations- bzw. Implementierungsaufwand
24
Q

Zwei Elemente von multidimensionalen Datenstrukturen nennen. (2 Punkte)

A

Fakten, Dimensionen

25
Datenqualität nach Hinrichs
Glaubwürdigkeit - Korrektheit - Zuverlässigkeit - Konsistenz Interpretierbarkeit - Einheitlichkeit - Eindeutigkeit - Verständlichkeit Nützlichkeit - Vollständigkeit - Genauigkeit - Zeitnähe - Redundanzfreiheit - Relevanz Schlüsselintegrität - Schlüsseleindeutigkeit - Referntielle Integrität
26
Data Warehouse - In Memory Datenbanken
Sind Datenbankmanagementsysteme, die im Gegensatz zu herkömmlichen Datenbankmanagementsystemen nicht Festplattenlaufwerke, sondern den Arbeitsspeicher zur Datenspeicherung nutzen
27
Unterschiedliche Architekturen nennen
Zentrale Data-Warehouse Architektur Unabhängige Data-Marts Hub-and-Spoke-Architektur
28
William H. Inmon stellt in seiner Data-Warehouse-Definition vier Merkmale in den Mittelpunkt. Nennen und beschreiben Sie jedes Merkmal. (8 Punkte)
1. Themenorientierung (subject-oriented): - Zweck nicht Erfüllung dedizierter Aufgabe, sondern Unterstützung übergreifender Auswertungsmöglichkeiten aus verschiedenen Perspektiven. - Alle Daten - unternehmensweit - über ein Subjekt (z.B Kunde) und nicht "versteckt" in versch. Anewendungen 2. Integrierte Datenbasis (integrated): - Daten aus mehreren versch. Datenquellen - Vereinheitlichung der Daten aus den operativen Systemen - Benennung, Skalierung und Kodierung 3. Historische Daten (time-variant): - Vergleich der Daten über Zeit möglich (Zeitreihenanalyse) - Speicherung über längeren Zeitraum - Bereitstellung von Zeitreihendaten über längere Zeiträume 4. Nicht-flüchtige Datenbasis (non-volatile): - Daten im DW werden i.a. nicht mehr geändert - Stabile, persistente Datenbasis - Bereitstellung von Zeitreihendaten über längere Zeiträume
29
Welche der folgenden Systeme sind Ihrer Ansicht nach üblicherweise keine BI Anwendungssysteme und begründen Sie? (9 Punkte) * Reisekostenabrechnung * Balanced Scorecard * Debitorenbuchhaltung * Call-Center-Steuerung mit ACDS (Automated Call Distribution System) * Konzernkonsolidierung * Vertriebscontrolling * Lagerhaltungsmanagement * Analytisches CRM * Workflow-Management für die Verarbeitung von Geschäftsdokumenten
• Reisekostenabrechnung KEINE BI-Anwendung: Es ist ein operatives System, bei dem einzelne Datensätze herangezogen werden. • Balanced Scorecard IST eine BI-Anwendung: Zur Berechnung der Kennzahlen werden viele Daten aggregiert. • Debitorenbuchhaltung KEINE BI-Anwendung: Es ist ein operatives System, bei dem einzelne Datensätze herangezogen werden. • Call-Center-Steuerung mit ACDS (Automated Call Distribution System) KEINE BI-Anwendung: Es ist ein operatives System, bei dem einzelne Datensätze herangezogen werden. • Konzernkonsolidierung IST eine BI-Anwendung: Zur Konsolidierung werden viele Daten aggregiert. • Vertriebscontrolling IST eine BI-Anwendung, sofern übergreifende Daten z.B. für Reports aggregiert werden. • Lagerhaltungsmanagement KEINE BI-Anwendung: Es ist ein operatives System, bei dem einzelne Datensätze gebucht und abgefragt werden. • Analytisches CRM IST eine BI-Anwendung, da Kundendaten aggregiert ausgewertet werden. • Workflow-Management für die Verarbeitung von Geschäftsdokumenten KEINE BI-Anwendung, da Geschäftsdokumente ausschließlich für operative Zwecke verteilt werden.
30
Definieren Sie den Begriff „Business Intelligence“ wie in der Vorlesung kennengelernt. (2 Punkte)
Business Intelligence ist ein integrierter, unternehmensspezifischer, IT-basierter Gesamtansatz zur betrieblichen Entscheidungsunterstützung. BI ist die Gesamtheit aller Werkzeuge und Anwendungen mit entscheidungsunterstützendem Charakter, die zur besseren Einsicht in das eigene Geschäft verhilft.
31
Welche Bereiche Spielen in Business Intelligence Zentrale Rollen?
- Reporting - Analytics - Data Mining - OLAP - Big Data - Unternehmenssteuerung - Data Warehousing
32
Nennen Sie jeweils zwei unterschiedliche Beispiele für Fälle, in denen die folgenden Arten von Bereinigungsaktivitäten notwendig sind.
- Automatische Erkennung und Korrektur: Komma durch Punkt ersetzen, "€" durch "EUR" ersetzen, Umformatierung von Datumsangaben - Automatisierbare Erkennung und manuelle Korrektur: Unzulässige Zeichen, Ausreisen in Daten, unübliche Altersangabe oder Umsatzauswertung - Manuelle Erkennung und Korrektur: Tippfehler, Manipulation (bewusste Falscheingabe)
33
Es sind 8 Probleme bei der Transformation gegeben. Diese den Fehlerarten zuordnen.
Eventuell wo Sherwin damals die Aufgabe gelöst hat? - Syntaktische Mängel - Semantische Mängel - Harmonisierung - Eliminierung von Schlüsseldisharmonien - Aggregation - Anreicherung
34
15. Erörtern Sie die Unterschiede zwischen operativen und dispositiven Daten. Verdeutlichen Sie Ihre Ausführungen anhand von selbst gewählten Beispielen?
``` • Operative Daten: stammen meist nur aus einer Datenquelle nur aktuelle Daten häufige Aktualisierung Zugriff auf einzelne Datensätze z.B. Umsatz von Kunde X am 12.2.2010 in der Filiale Hamburg. ``` • Dispositive Daten: sind aus mehreren Datenquellen aggregiert sowohl aktuelle, als auch historische Daten große Datenmengen Zugriff auf gruppierte Daten z.B. Umsatz aller Filialen in Bayern im Monat März
35
Zentrale Data-Warehouse-Architektur zeichnen
Siehe Bp
36
Unabhängige Data-Marts zeichnen
Siehe BP
37
Hub-and-Spoke Architektur
Siehe BP
38
Data Warehouse - In Memory + Merkmale
Sind DBMS, die im Gegensatz zu herkömmlichen DBMS nicht Festplattenlaufwerke, sondern den Arbeitsspeicher zur Datenspeicherung nutzen. Merkmale: - Daten werden in den Arbeitsspeicher gelanden - Lange Zugriffszeiten klassischer Massenspeicher (z.B. Festplatten) entfallen - Auswertungen können innerhalb von Sekunden oder gar Sekundenbruchteilen erstellt werden
39
BI nach Gluchowsky
- Enges BI-Verständnis Kernapplikationen die Entscheidungsfindung unterstützen (OLAP, MIS) - Analyseorientiertes BI-Verständnis Alle Anwendungen mit denen der Entscheider im System arbeitet (CRM) - Weites BI-Verständnis Alle Anwendungen die direkt und indirekt mit Entscheidungsunterstützung arbeiten (Anw. Zur Datenauswertung, -präsentation, - aufbereitung und -speicherung)