Data science Flashcards

(40 cards)

1
Q

Big Data wird häufig über fünf Eigenscha en charakterisiert. Beschreiben Sie kurz diese „5 Vs“.

A

Die 5 V’s von Big Data:

Volume: Enorme Datenmenge, überfordert herkömmliche Systeme

Velocity: Hohe Geschwindigkeit der Datengenerierung und -verarbeitung

Variety: Vielfalt der Datenarten (strukturiert, semi-strukturiert, unstrukturiert)

Veracity: Zuverlässigkeit und Genauigkeit der Daten

Value: Nutzen und Erkenntnisse aus den Daten

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Beschreiben Sie die Eigenschaften „Variability“, „Volatility“ und „Vulnerability“ im Kontext von Big Data.

A

Variability (Variabilität):

  • Schwankungen in Daten und Verarbeitung
  • Inkonsistente Datenflüsse
  • Kontextabhängige Bedeutung
  • Unterschiedliche Definitionen in Abteilungen

Volatility (Flüchtigkeit):

  • Gültigkeitsdauer und Aktualität von Daten
  • Datenalterung und Relevanz
  • Speichermanagement und Archivierung
  • Schnelligkeit der Datenveralterung

Vulnerability (Verwundbarkeit):

  • Sicherheitsaspekte von Big Data
  • Datenschutz und persönliche Daten
  • Sicherheitsrisiken (z.B. Cyberangriffe)
  • Vertrauensbildung und Transparenz
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Aussagekraft und Nützlichkeit der Daten werden wesentlich über ihre Wahrhaftigkeit (veracity) bestimmt. Nach welchen Dimensionen sollte eine Überprüfung der Wahrhaftigkeit durchgeführt werden? (→ Veracity Roadmap)

A

Objektivität vs. Subjektivität.

  • Bewertung: Fakten oder Meinungen
  • Ziel: Zuverlässigkeit für Analysen

Wahrhaftigkeit vs. Täuschung:

  • Prüfung: Wahrheitsgehalt der Daten
  • Ziel: Erkennung von Falschinformationen

Glaubwürdigkeit vs. Unglaubwürdigkeit:

  • Fokus: Plausibilität und Vertrauenswürdigkeit
  • Prüfung: Quellenzuverlässigkeit und Faktenübereinstimmung

Zweck: Umfassende Bewertung der Datenqualität, Identifikation von Unsicherheiten und Verzerrungen

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Beschreiben Sie kurz das Analysespektrum, welches im Rahmen von Business Analytics abgedeckt wird.

A

Descriptive: Beschreibt Vergangenes, identifiziert Muster in historischen Daten

Diagnostic: Untersucht Ursachen von Ereignissen durch Drill-Down und Korrelationsanalysen

Predictive: Prognostiziert Zukünftiges mittels statistischer Modelle und Machine Learning

Prescriptive: Gibt Handlungsempfehlungen basierend auf Erkenntnissen der anderen Analysetypen

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Grenzen Sie die Begriffe „Business Intelligence“ und „Business Analytics“ voneinander ab.

A

Business Intelligence vs. Business Analytics:

Fokus und Zeitbezug:

BI: Historisch, gegenwärtig, retrospektiv
BA: Zukunftsorientiert, prädiktiv, präskriptiv

Analysemethoden:

BI: Deskriptiv (Berichte, Dashboards)
BA: Fortgeschritten (Data Mining, ML)

Fragestellungen:

BI: “Was ist/geschieht?”
BA: “Warum? Was wird passieren?”

Anwendungszweck:

BI: Überwachung, operativ, taktisch
BA: Optimierung, strategisch, langfristig

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Erläutern Sie kurz den Begriff der „Datenvisualisierung“. Welche Ziele werden mit der Anwendung von Verfahren der Datenvisualisierung verfolgt?

A

Datenvisualisierung:

  • Grafische Darstellung von Informationen und Daten
  • Nutzt Diagramme, Grafiken, Karten, etc.
  • Ziel: Komplexe Daten verständlich präsentieren

Hauptziele:

  • Verständlichkeit erhöhen
  • Muster/Trends erkennen
  • Entscheidungsfindung unterstützen
  • Kommunikation verbessern
  • Effizienz steigern
  • Innovation fördern
  • Geschichten erzählen

Zweck: Komplexe Daten einfach, intuitiv und effektiv vermitteln

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Warum sind gerade im Kontext von Big Data Verfahren zur Datenvisualisierung von besonderer Bedeutung?

A

Bedeutung der Datenvisualisierung für Big Data

Hauptvorteile:

Bewältigung großer Datenmengen:

  • Übersichtliche Darstellung
  • Schnelle Erfassung relevanter Informationen

Erkennen von Mustern und Trends:

  • Aufdecken verborgener Zusammenhänge
  • Identifikation von Anomalien

Unterstützung der Entscheidungsfindung:

  • Schnelle Informationserfassung
  • Fundierte Entscheidungen ohne Datentabellen

Verbesserung der Kommunikation:

  • Verständliche Darstellung für alle Stakeholder
  • Förderung der abteilungsübergreifenden Zusammenarbeit

Bewältigung der Datenvielfalt:

  • Integration verschiedener Datentypen und -quellen
  • Einheitliche Darstellung

Echtzeitanalyse und -darstellung:

  • Schnelle Verarbeitung kontinuierlicher Datenströme
  • Sofortige Sichtbarkeit relevanter Informationen
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Unternehmen haben mithilfe moderner Softwarelösungen zahlreiche Möglichkeiten, die Potenziale der Datafizierung für sich zu nutzen. Erläutern Sie den Begriff „Datafizierung“ und zeigen Sie beispielhaft mögliche Potenziale der Datafizierung für Unternehmen auf

A

Datafizierung:

Definition:

  • Trend zur Erfassung, Speicherung und Verarbeitung von Daten
  • Umwandlung von Aktivitäten und Prozessen in digitale Daten

Potenziale für Unternehmen:

Prozessoptimierung:
- Effizienzsteigerung
- Automatisierung

Kundenbeziehungsmanagement
- Personalisierung
- Präzisere Zielgruppenansprache

Datengetriebene Entscheidungsfindung
- Echtzeitanalysen
- Prognosemodelle

Produktinnovation
- Bedarfsorientierte Entwicklung
- Qualitätsverbesserung

Neue Geschäftsmodelle
- Datenbasierte Services
- Plattformökonomie

Wettbewerbsfähigkeit
- Verbesserte Marktanalyse
- Effizienzvorsprung (bis zu 60% Steigerung der Betriebsmarge)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Erläutern Sie den Begriff „datengetriebenes Unternehmen“

A

Datengetriebenes Unternehmen (Data Driven Company):

Nutzt Daten als zentrale strategische Ressource

Charakteristika:
- Datenbasierte Entscheidungsfindung
- Etablierte Datenkultur
- Fortschrittliche technologische Infrastruktur
- Strategische Ausrichtung auf Datennutzung
- Kontinuierliche Verbesserung durch Datenanalyse
- Kundenorientierung mittels Datenerkenntnissen

Ziel: Wettbewerbsvorteile und langfristiger Unternehmenserfolg durch strategische Datennutzung

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Durch den Einsatz von „Big Data-Technologien“ erschließen sich neue Geschäftspotenziale für datengetriebene Unternehmen. Beschreiben Sie kurz die strategische Einordnung von „Big-Data-Geschäftsmodellen“ in vier Kategorien so, wie der Branchenverband Bitkom es als Modell für die Nutzung von Big-Data-Technologien vorschlägt. Geben Sie Beispiele zu „Big-Data-Geschäftsmodellen“ an

A

Strategische Einordnung von Big-Data-Geschäftsmodellen (BITKOM):

Optimierung: Verbesserung bestehender Prozesse

Monetarisierung: Verkauf von Daten/Datenservices

Aufwertung: Datenbasierte Zusatzleistungen

Durchbruch: Neue disruptive Geschäftsmodelle

Beispiele:
- Analytics-as-a-Service
- Data-as-a-Service
- Data-infused Products
- Datenmarktplätze

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Erläutern Sie kurz Big-Data-Geschäftsmodelle, die sich mittlerweile als Serviceangebote etabliert haben.

A

Big Data as a Service (BDaaS):

  • Cloud-basierte Dienste für große Datenmengen
  • Komponenten: Datenanalyse/-management, Cloud-Infrastruktur, ML/KI-Plattformen
  • Anbieter: AWS, Google Cloud, Microsoft Azure

Data Analytics as a Service:
- Bereitstellung von Analysewerkzeugen und -plattformen

Data as a Service (DaaS):
- Datensets als eigenständiges Produkt

Hadoop as a Service (HDaaS):
- Cloud-basierte Implementierung des Hadoop-Frameworks

Data Science as a Service:
- Bereitstellung von Data-Science-Expertise für datengetriebene Geschäftsmodelle

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Nur durch die Integration klassischer BI- und Datenmanagementumgebungen mit neuen, explorativen und operationalisierten Big-Data-Anwendungen kann der Wandel hin zu einer datengetriebenen Organisation gelingen. Geben Sie Gründe aus Sicht eines Unternehmens an, die belegen, warum Business-Intelligence-Software auch künftig zunächst in vielen bisherigen Anwendungsgebieten ihre Rolle behalten wird.

A

Business Intelligence (BI) Software: Zukunftsrelevanz

Gründe für anhaltende Bedeutung:

Bewährte Entscheidungsgrundlage
- Detaillierte Berichte und Dashboards
- Historische Datenanalysen
- Zentrale Datenquelle

Effizienzsteigerung und Prozessoptimierung
- Identifikation von Ineffizienzen
- Ressourcenoptimierung
- Automatisierung von Routineaufgaben

Verbessertes Kundenverständnis
- Kundenanalysen und Segmentierung
- Personalisierung von Marketing

Compliance und Risikomanagement
- Compliance-Berichte
- Risikofrüherkennung
- Überwachung von KPIs

Investitionsschutz und Vertrautheit
- Etablierte Systeme und Prozesse
- Mitarbeitervertrautheit
- Integration in Unternehmenssysteme

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Was sind die „Fallstricke“ bei der Erzielung echter geschäftlicher Auswirkungen von Big Data Analytics-Initiativen? Benennen Sie Schwierigkeiten, die auftreten können.

A

Fallstricke bei Big Data Analytics-Initiativen:

  • Mangelnder strategischer Fokus
  • Fehlende Integration in Prozesse
  • Datensilos und mangelnde Zusammenarbeit
  • Überfokussierung auf Technologie
  • Fachkräftemangel
  • Vernachlässigung der Datenqualität
  • Datenschutz- und Sicherheitsbedenken
  • Fehlende datengetriebene Unternehmenskultur
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Man kann die Leistung eines Systems auf zwei verschiedene Arten steigern. Erklären Sie kurz beide Möglichkeiten der Skalierbarkeit: horizontal vs. vertikal.

A

Skalierbarkeit von Systemen:

Horizontale Skalierung (Scale-Out):

  • Hinzufügen weiterer Maschinen/Knoten
  • Lastverteilung, kostengünstig, für verteilte Systeme

Bsp.: Mehr Webserver im Cluster

Vertikale Skalierung (Scale-Up):

  • Leistungssteigerung einzelner Systeme
  • Aufrüstung von Hardware, einfacher zu verwalten

Bsp.: Aufrüstung Datenbankserver (RAM, CPU)

Wahl abhängig von: Anwendungsart, Kosten, Komplexität, Leistungsanforderungen
Praxis: Oft Kombination beider Ansätze

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Zur Realisierung verteilter Systeme werden u.a. die Technik der Fragmentierung sowie der Replikation verwendet. Beschreiben Sie die Motive, die zum Einsatz dieser Techniken führen.

A

Fragmentierung und Replikation in verteilten Systemen:

Fragmentierung:

  • Aufteilung von Daten/Funktionen
  • Ziele: Effizienz, Parallelität, Skalierbarkeit

Replikation:

  • Mehrfache Datenkopien
  • Ziele: Verfügbarkeit, Leistung, Fehlertoleranz, Lastverteilung, Autonomie
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Was sind die drei wesentlichen Eigenschaften von Hadoop?

A

Hadoop: Skalierbarkeit, Fehlertoleranz, Flexibilität

Skalierbarkeit

  • Hochgradig skalierbar durch verteilte Umgebung
  • Einfache Erweiterung um Server für mehrere Petabytes Daten
  • Ermöglicht Unternehmen, mit wachsenden Datenmengen Schritt zu halten

Fehlertoleranz

  • Hohe Ausfallsicherheit durch Datenreplikation (standardmäßig dreifach)
  • Automatische Umleitung von Aufträgen bei Knotenausfall
  • Gewährleistet kontinuierliche Verfügbarkeit und Zuverlässigkeit

Flexibilität

  • Verarbeitung und Speicherung verschiedener Datentypen (strukturiert, semi– strukturiert, unstrukturiert)
  • Speicherung von Rohdaten ohne Vorverarbeitung
  • Ermöglicht spätere Entscheidung über Datenverarbeitung für spezifische Analysen
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
17
Q

Ein wesentlicher Unterschied zwischen Hadoop und konventioneller Datenhaltung zeigt sich in den beiden Prinzipien horizontale Skalierung und Datenlokalität. Erläutern Sie kurz diese beiden Prinzipien

A

Horizontale Skalierung:

Horizontale Skalierung (Scale-Out) in Hadoop:

  • Kapazitätserweiterung durch Hinzufügen von Knoten zum Cluster
  • Nutzung kostengünstiger Commodity-Hardware
  • Lineare Skalierung von Rechenleistung und Speicherkapazität
  • Ermöglicht Verarbeitung großer Datenmengen durch Verteilung

Datenlokalität in Hadoop:

  • Daten über mehrere Cluster-Knoten verteilt gespeichert
  • Berechnungen dort ausgeführt, wo Daten liegen
  • Reduziert Netzwerkverkehr, verbessert Verarbeitungsgeschwindigkeit
  • Prinzip: “Bring the computation to the data”

Im Gegensatz dazu: Konventionelle Systeme nutzen oft vertikale Skalierung und zentralisierte Datenspeicherung

18
Q

Erläutern Sie die Unterschiede zwischen Schema-On-Write, genutzt u.a. im Kontext relationaler Datenbankansätze, und dem in Hadoop eingesetzten Schema-on-Read.

A

Schema-On-Write vs. Schema-On-Read:

Zeitpunkt:
- Write: Schema vor Datenschreiben definiert
- Read: Schema beim Datenlesen angewendet

Flexibilität:
- Write: Weniger flexibel, Änderungen aufwändig
- Read: Hochflexibel, einfache Anpassung

Datentypen:
- Write: Strukturierte Daten, relationale DBs
- Read: Alle Datentypen, Big-Data-Technologien

Leistung:
- Write: Bessere Abfrageleistung
- Read: Schnellere Datenerfassung, mehr Rechenleistung beim Lesen

Anwendungsfälle:
- Write: Stabile Strukturen, transaktionale Systeme
- Read: Big-Data-Analysen, Data Lakes, KI-Training

19
Q

Beschreiben Sie kurz wesentliche Eigenschaften des Hadoop distributed File System (HDFS)

A

HDFS (Hadoop Distributed File System):

Verteilte Speicherung: Dateien in Blöcke aufgeteilt, über Cluster verteilt

Skalierbarkeit: Horizontal auf Hunderte/Tausende Knoten

Fehlertoleranz: Datenreplikation (Standard: 3-fach)

Hoher Durchsatz: Cluster-Architektur, Datenlokalität

Master-Slave: NameNode (Master), DataNodes (Slaves)

Datenlokalität: Berechnung am Speicherort

Kompatibel mit Standardhardware und verschiedenen Betriebssystemen

20
Q

Beschreiben Sie kurz den Aufbau eines HDFS Clusters. Welche Aufgaben haben Master- bzw. Slave-Nodes und Edge-Node?

A

Ein HDFS-Cluster besteht aus folgenden Komponenten:

Master-Nodes (NameNodes)
- Verwalten Metadaten des Dateisystems (Verzeichnisstrukturen, Dateien)
- Koordinieren Datenspeicherung und -zugriff
- Meist hochverfügbar im Aktiv-Passiv-Verbund konfiguriert

Slave-Nodes (DataNodes)
- Speichern die eigentlichen Daten in Blöcken
- Führen Lese- und Schreiboperationen durch
- Ermöglichen Skalierung des Clusters

Edge-Node
- Dient als sicherer Zugangspunkt für nicht-administrative Benutzer

HDFS funktioniert nach dem Master-Slave-Prinzip, wobei Daten in Blöcke aufgeteilt und redundant auf mehreren DataNodes gespeichert werden. Der NameNode verwaltet die Dateistruktur und Blockzuordnung, während DataNodes die tatsächliche Datenspeicherung übernehmen

21
Q

Zur Gewährleistung der Datenkonsistenz und der Verfügbarkeit bei Hardwareausfällen überprüft der NameNode ständig den Zustand der DataNodes und die Anzahl der Replikationen. Erklären Sie kurz die Bedeutung von Heartbeat und Blockreport.

A

Heartbeat:

  • Signal von DataNodes alle 3 Sekunden
  • Zeigt Funktionsfähigkeit und Erreichbarkeit
  • Enthält Infos zu Speicher, Auslastung, Datenübertragungen
  • Ermöglicht NameNode-Befehle an DataNodes
  • DataNode gilt als ausgefallen nach 10 Minuten ohne Heartbeat

Blockreport:

  • Detaillierte Auflistung aller Datenblöcke eines DataNodes
  • Gesendet alle 6 Stunden
  • Enthält Block-ID, -länge, Generierungszeitstempel
  • Hilft bei Verfolgung der Blockverteilung und -zustand
  • Dient zur Konsistenzprüfung und Veranlassung von Replikationen/Reparaturen
22
Q

Beschreiben Sie kurz das Replikationskonzept von Hadoop

A

Das Replikationskonzept von Hadoop im HDFS:

Standardreplikationsfaktor: 3 (konfigurierbar)

Verteilung der Replikate:
- Lokales Rack
- Anderer Knoten im selben Rack
- Knoten in anderem Rack

Dynamische Replikation:
- NameNode überwacht Replikatzustand
- Automatische Erstellung neuer Replikate bei Ausfällen
- Entfernung überflüssiger Replikate

Konsistenz:
- NameNode stellt Konsistenz sicher
- Neueste Version als Referenz bei Inkonsistenzen

Leseoptimierung:
- Auswahl des am besten erreichbaren Replikats

Dieses Konzept gewährleistet hohe Datenverfügbarkeit und -zuverlässigkeit bei Hardwareausfällen oder Netzwerkproblemen.

23
Q

Hadoop Cluster

A

Obere Kästen von links nach rechts:
* Linker Kasten: 3 (Name Node) –> Job Tracker
* Rechter Kasten: 5 (Secondary Name Node)

Untere drei Kästen:
* Alle drei unteren Kästen: 1 (Data Node) – > 4 Task Tracker

24
Q

Das MapReduce-Verfahren für die Berechnung des durchschnittlichen Passagieraufkommens pro Flugverbindung läuft in folgenden Schritten ab:

A

Input Phase:

Die Eingabedaten bestehen aus der Flugtabelle mit den Spalten für Flughäfen, ID und Passagierzahlen (Total).

Map Phase:

Der Mapper erzeugt Key-Value-Paare, wobei:
* Key: Die Flugverbindungs-ID
* Value: Die jeweilige Passagierzahl (Total)
Beispiel: (347, 412), (943, 204), etc.

Shuffle & Sort Phase:

Die erzeugten Key-Value-Paare werden nach dem Key (ID) gruppiert:
* ID 147: [221, 409]
* ID 258: 228
* ID 347: [412, 290]
usw.

Reduce Phase:

Der Reducer berechnet für jede ID den Durchschnitt der zugehörigen:

Passagierzahlen:
* ID 147: (221 + 409) / 2 = 315
* ID 258: 228 / 1 = 228
* ID 347: (412 + 290) / 2 = 351
usw.

Output Phase:

Das Ergebnis ist eine Liste mit den durchschnittlichen Passagierzahlen pro Flugverbindungs-ID, die das finale Ergebnis der Analyse darstellt.

25
Map/Reduce-Verfahren
Input Phase: Die Eingabedaten bestehen aus der Textdatei mit der Wortfolge: Dear, Bear, River, Car, Car, River, Dear, Car, Bear Map Phase: Der Mapper erzeugt für jedes Wort ein Key-Value-Paar mit dem Wort als Key und der Zahl 1 als Value: * (Dear, 1), (Bear, 1), (River, 1), (Car, 1), (Car, 1), (River, 1), (Dear, 1), (Car, 1), (Bear, 1) Shuffle & Sort Phase: Die Key-Value-Paare werden nach dem Key (Wort) gruppiert: * Bear: [1, 1] * Car: [1, 1, 1] * Dear: [1, 1] * River: [1, 1] Reduce Phase: Der Reducer summiert die Values für jeden Key: * Bear: 2 * Car: 3 * Dear: 2 * River: 2 Output Phase: Das finale Ergebnis zeigt die Häufigkeit jedes Wortes: Bear: 2 Car: 3 Dear: 2 River: 2
26
Erläutern Sie kurz die Besonderheiten des „Data Lake“ als ein weitergefasstes Datenmanagement-Konzept. Benennen Sie Vor- und Nachteile dieses Konzepts.
Wesentliche Eigenschaften: * Speicherung von Rohdaten in ihrem nativen Format ohne vorherige Strukturierung * Unterstützung verschiedener Datentypen (strukturiert, semi-strukturiert, unstrukturiert) * Schema-on-Read statt Schema-on-Write Ansatz * Zentrale Speicherung aller Unternehmensdaten an einem Ort * Skalierbare Architektur für große Datenmengen Vorteile: Flexibilität: * Aufnahme verschiedener Datenformate ohne vorherige Transformation * Flexible Datenschemata ermöglichen vielseitige Verwendung * Nachträgliche Strukturierung nach Bedarf möglich Skalierbarkeit: * Einfache Erweiterbarkeit bei wachsenden Datenmengen * Kostengünstige Skalierung durch günstige Speicherlösungen * Wachstum von Terabytes bis zu Petabytes möglich Analysemöglichkeiten: * Ideal für Big-Data-Analysen und Machine Learning * Ermöglicht fortgeschrittene Analysetechniken * Unterstützt datengetriebene Entscheidungsfindung Nachteile: Datenverwaltung: * Risiko eines "Data Swamp" ohne klare Governance * Komplexe Verwaltung großer Datenmengen * Fehlende integrierte Qualitätskontrolle Expertise: * Hoher Bedarf an spezialisierten Fachkräften * Komplexe Einrichtung und Wartung * Technische Herausforderungen bei der Datenaufbereitung Sicherheit: * Herausforderungen bei Zugriffsrechten und Datenschutz * Komplexe Compliance-Anforderungen * Erhöhtes Risiko durch zentrale Datenspeicherung
27
Grenzen Sie ein Data Warehouse von einem Data Lake ab. Stützen Sie ihren Vergleich auf die Aspekte: Skalierbarkeit, Schema, Speicherung der Daten, Geschwindigkeit und Governance.
Skalierbarkeit: Data Warehouse: * Begrenzte Skalierbarkeit durch vorgegebene Struktur * Kostenintensive Erweiterung durch teure Hardware * Hauptsächlich vertikale Skalierung Data Lake: * Hochgradig skalierbar durch flexibles Design * Kostengünstige Erweiterung möglich * Horizontale Skalierung auf Standard-Hardware Schema: Data Warehouse: * Schema-on-Write: Festes Schema vor Datenspeicherung * Strukturierte Daten in definierten Formaten * Aufwändige Schemaänderungen Data Lake: * Schema-on-Read: Flexibles Schema bei Datenzugriff * Unterstützt alle Datenformate * Einfache Anpassung an neue Anforderungen Speicherung der Daten: Data Warehouse: * Speicherung verarbeiteter, strukturierter Daten * Optimiert für definierte Geschäftsanforderungen * Hohe Speicherkosten pro Terabyte Data Lake: * Speicherung von Rohdaten in Originalformat * Unterstützt strukturierte und unstrukturierte Daten * Niedrige Speicherkosten pro Terabyte Geschwindigkeit: Data Warehouse: * Schnelle Abfragen durch optimierte Struktur * Effizient für vordefinierte Analysen * Langsamer bei der Datenaufnahme Data Lake: * Variable Abfragegeschwindigkeit * Flexibel für verschiedene Analysearten * Schnelle Datenaufnahme Governance: Data Warehouse: * Strenge Datenverwaltung und -qualität * Klare Zugriffsrechte und Sicherheit * Hohe Datenkonsistenz Data Lake: * Herausfordernd in der Datenverwaltung * Komplexere Zugriffssteuerung * Risiko von "Data Swamps" ohne klare Governance
28
Beschreiben Sie den „Paradigmenwechsel“, der kennzeichnend für das Datenmanagement-Konzept „Data Lake“ ist: ETL → ELT.
Traditioneller ETL-Ansatz: * Daten werden zunächst aus Quellsystemen extrahiert (Extract) * Dann entsprechend vorgegebener Strukturen transformiert (Transform) * Erst nach der Transformation in das Zielsystem geladen (Load) * Typisch für klassische Data Warehouse Systeme * Erfordert vorab definierte Datenstrukturen und Schemas Neuer ELT-Ansatz im Data Lake: * Daten werden aus Quellsystemen extrahiert (Extract) * Direkt im Rohformat in den Data Lake geladen (Load) * Transformation erfolgt erst bei Bedarf zum Zeitpunkt der Analyse (Transform) * Ermöglicht flexiblere und vielfältigere Datennutzung * Basiert auf dem Schema-on-Read Prinzip Dieser Paradigmenwechsel bietet mehrere Vorteile: * Schnellere initiale Datenerfassung * Größere Flexibilität bei der späteren Datennutzung * Möglichkeit, dieselben Rohdaten für verschiedene Analysezwecke unterschiedlich zu transformieren * Geringerer initialer Aufwand für Datenvorbereitung * Bessere Unterstützung für agile Analyseansätze
29
Es existiert keine wissenschaftliche Definition des Begriffs NoSQL-Systeme. Die aktuellen NoSQL-Konzepte haben jedoch einige Eigenschaften gemeinsam. Geben Sie diese Eigenschaften an.
NoSQL-Systeme weisen trotz fehlender einheitlicher Definition mehrere gemeinsame charakteristische Eigenschaften auf: Skalierbarkeit: * Horizontale Skalierung durch Hinzufügen weiterer Server/Nodes * Effiziente Verteilung der Kapazitäten über mehrere Knoten Flexibles Datenmodell: * Keine starren Tabellenschemata erforderlich * Unterstützung verschiedener Datenmodelle (Dokumente, Graphen, Key-Value, Spalten) * Möglichkeit zur Speicherung strukturierter und unstrukturierter Daten * Schema-on-Read statt Schema-on-Write Ansatz Leistungsfähigkeit: * Optimiert für hohen Datendurchsatz * Effiziente Verarbeitung großer Datenmengen * Gute Performance bei vielen gleichzeitigen Schreib-/Lesezugriffen Konsistenzmodell: * Lockerung der strengen ACID-Eigenschaften zugunsten von Flexibilität und Skalierbarkeit * BASE-Prinzip (Basically Available, Soft State, Eventually Consistent) Entwicklerfreundlichkeit: * Einfache APIs für Datenzugriff * Objektorientierte Programmierung * Vereinfachte Installation und Konfiguration von verteilten Datenbank-Clustern
30
NoSQL-Systeme lassen sich in vier Hauptkategorien einteilen. Benennen Sie diese. Geben Sie zu jeder Hauptkategorie ein Anwendungsgebiet an.
Die vier Hauptkategorien von NoSQL-Systemen und ihre typischen Anwendungsgebiete sind: Dokumentenorientierte Datenbanken: * Speichern Daten in flexiblen Dokumentformaten (meist JSON) * Anwendungsgebiet: Content-Management-Systeme und Blogs Key-Value-Datenbanken: * Speichern Daten als Schlüssel-Wert-Paare * Anwendungsgebiet: Session Management und Caching von Webanwendungen Graphdatenbanken: * Speichern Daten in Form von Knoten und Kanten * Anwendungsgebiet: Soziale Netzwerke und Empfehlungssysteme Spaltenorientierte Datenbanken: * Speichern Daten in Spalten statt in Zeilen * Anwendungsgebiet: Analytische Anwendungen mit großen Datensätzen
31
Das CAP-Theorem enthält die grundlegende Aussage, dass in einem verteilten System höchstens jeweils zwei der insgesamt drei Eigenschaften: Konsistenz, Verfügbarkeit und Ausfalltoleranz gleichzeitig erfüllt sein können. Beschreiben Sie kurz diese drei aufgeführten Eigenschaften.
Das CAP-Theorem beschreibt drei grundlegende Eigenschaften verteilter Systeme: 1. Konsistenz (Consistency) Alle Knoten zeigen zu jedem Zeitpunkt die gleichen Daten. Nach einem Schreibvorgang müssen alle Lesezugriffe den aktualisierten Wert zurückgeben. 2. Verfügbarkeit (Availability) Jede Anfrage (Lese- und Schreibzugriffe) wird in angemessener Zeit beantwortet. Das System bleibt verfügbar, solange mindestens ein Knoten funktioniert. 3. Ausfalltoleranz (Partition Tolerance) Das System funktioniert auch bei Netzwerkausfällen oder -verzögerungen zwischen den Knoten. Gemäß dem CAP-Theorem kann ein verteiltes System nur zwei dieser drei Eigenschaften gleichzeitig garantieren.
32
Beschreiben Sie das Konsistenzmodell relationaler Datenbanken nach dem ACID-Prinzip
ACID-Eigenschaften in relationalen Datenbanken Atomicity (Atomarität) - Transaktionen werden vollständig oder gar nicht ausgeführt. - Bei Fehlern erfolgt ein Rollback. Consistency (Konsistenz) - Datenbank bleibt vor und nach der Transaktion konsistent. - Integritätsbedingungen und referentielle Integrität werden eingehalten. Isolation (Isolation) - Parallele Transaktionen beeinflussen sich nicht. - Jede Transaktion agiert isoliert, Konflikte werden vermieden. Durability (Dauerhaftigkeit) - Erfolgreiche Transaktionen sind dauerhaft gespeichert. - Änderungen bleiben auch bei Systemausfällen erhalten. Diese ACID-Eigenschaften sichern die Datenkonsistenz, können jedoch die Skalierbarkeit und Performance einschränken.
33
Zur Lösung des Konflikts des CAP-Theorems wurde ein alternatives Konsistenzmodell in verteilten Datenbanksystemen herangezogen: BASE. Beschreiben Sie dieses Konsistenzmodell
Das BASE-Konsistenzmodell (Basically Available, Soft State, Eventually Consistent) bietet einen flexiblen Ansatz für verteilte Datenbanksysteme als Alternative zu ACID: Basically Available: - System ist immer verfügbar. - Alle Anfragen werden beantwortet, auch bei nicht aktuellen Daten. - Hohe Verfügbarkeit hat Vorrang vor strenger Konsistenz. Soft State: - Systemzustand kann sich ohne Eingaben ändern. - Temporäre Inkonsistenzen sind akzeptabel. - Daten können zwischen Replikaten abweichen. Eventually Consistent: - Konsistenz wird nach einer gewissen Zeit erreicht. - System konvergiert in einen konsistenten Zustand. - Temporäre Inkonsistenzen werden zugunsten der Verfügbarkeit toleriert.
34
Grenzen Sie die KI-Teilgebiete Machine Learning und Deep Learning voneinander ab
Machine Learning vs. Deep Learning Machine Learning: - Nutzt statistische Methoden zum Lernen aus Daten - Arbeitet mit strukturierten Daten und vordefinierten Features - Benötigt weniger Rechenleistung und Trainingsdaten - Geeignet für überschaubare Probleme - Umfasst überwachtes, unüberwachtes und bestärkendes Lernen Deep Learning: - Spezielle Form des Machine Learnings mit künstlichen neuronalen Netzen - Nutzt mehrere Schichten zur Merkmalserkennung - Lernt selbstständig relevante Features aus Rohdaten - Benötigt große Datenmengen und hohe Rechenleistung - Ideal für komplexe Aufgaben wie Bild- und Spracherkennung Hauptunterschied: Deep Learning ist eine spezialisierte Form des Machine Learnings, die komplexere Muster erkennt, jedoch mehr Ressourcen benötigt.
35
Beschreiben Sie folgende Machine-Learning-Lernstile stichwortartig: ▪ Supervised Learning ▪ Unsupervised Learning ▪ Semi-supervised Learning ▪ Reinforcement Learning
Supervised Learning (Überwachtes Lernen): * Training mit gelabelten Datensätzen * Eingabedaten sind mit korrekten Ausgabewerten verknüpft * Algorithmus lernt Zusammenhänge zwischen Ein- und Ausgabe * Ziel ist die Vorhersage von Ergebnissen für neue Eingabedaten * Beispiele: Klassifikation, Regression Unsupervised Learning (Unüberwachtes Lernen): * Training mit ungelabelten Datensätzen * Keine vorgegebenen Ausgabewerte * Algorithmus findet selbstständig Muster und Strukturen * Ziel ist das Erkennen von Gruppierungen oder Anomalien * Beispiele: Clustering, Dimensionsreduktion Semi-supervised Learning (Teilüberwachtes Lernen): * Kombination aus gelabelten und ungelabelten Daten * Nur ein kleiner Teil der Trainingsdaten ist gelabelt * Nutzt Vorteile beider Ansätze * Kosteneffizient durch geringeren Bedarf an gelabelten Daten * Beispiel: Texterkennung mit teilweise annotiertem Korpus Reinforcement Learning (Bestärkendes Lernen): * Lernen durch Interaktion mit einer Umgebung * Agent lernt durch Belohnungen und Bestrafungen * Trial-and-Error-Prinzip * Ziel ist die Optimierung einer Belohnungsfunktion * Beispiele: Robotersteuerung, Spielstrategien
36
Nennen und beschreiben Sie stichpunktartig die Phasen des allgemeinen Data-Science-Prozesses.
Der Data-Science-Prozess umfasst sechs iterative Phasen: 1. Business Understanding • Projektverständnis und Zieldefinition • Erfolgskriterien und Ressourcenanalyse 2. Data Understanding • Datensammlung und -untersuchung • Erste Analysen und Qualitätsprüfung 3. Data Preparation • Datenbereinigung und -transformation • Erstellung des finalen Datensatzes 4. Modeling • Modellentwicklung und -training • Anpassung und Dokumentation 5. Evaluation • Modellbewertung und -vergleich • Überprüfung der Erfolgskriterien 6. Deployment • Implementierung und Präsentation • Planung von Wartung und Überwachung
37
Eine große Herausforderung bei der Sicherstellung der Datenqualität sind fehlende Datenwerte – Missing Values. Welche Verfahren zur Behandlung von fehlenden Datenwerten sind Ihnen bekannt?
Verfahren zur Behandlung fehlender Datenwerte (Missing Values): Eliminierungsverfahren: Listenweiser Fallausschluss: • Entfernung von Datensätzen mit fehlenden Werten • Geeignet für wenige Ausfälle und große Stichproben • Nachteil: Möglicher Informationsverlust Paarweiser Fallausschluss: • Ausschluss nur für spezifische Analysen • Erhält mehr Informationen • Nachteil: Erschwerte Interpretation Imputationsverfahren: Einfache Imputation: • Mittelwert-, Median- oder Modusimputation • Nachteil: Unterschätzung der Varianz Zeitreihenbasierte Verfahren: • LOCF, NOCB, Lineare Interpolation Fortgeschrittene Verfahren: • Multiple Imputation • Regressionsbasierte Imputation • MICE Die Wahl des Verfahrens hängt von der Art der fehlenden Daten, Datensatzgröße, Anteil fehlender Werte und Analyseanforderungen ab.
38
Eine wichtige Betrachtung aus dem Bereich Data Preparation ist die Ausreißerkennung. Erläutern Sie kurz die Ziele und das Vorgehen im Rahmen der Ausreißerkennung
Ausreißerkennung in der Datenaufbereitung: Ziele: • Identifikation ungewöhnlicher Datenpunkte • Verbesserung der Datenqualität • Vermeidung von Verzerrungen • Erkennung von Anomalien • Schutz vor falschen Schlussfolgerungen Methoden: Statistisch: • Standardabweichungen • Quartile und Boxplots • 3-Sigma-Regel • Grenzwertdefinition Visuell: • Streudiagramme • Boxplots • Histogramme Behandlung • Entscheidung über Umgang • Dokumentation • Fehlerprüfung • Korrektur oder Ersetzung Ausreißerkennung erfordert statistische und fachliche Expertise zur Unterscheidung zwischen Anomalien und Fehlern.
39
Ein wichtiger Prozess aus dem Bereich Data Preparation – insbesondere für den Einsatz von ML-Algorithmen – ist das Feature Engineering. Erläutern Sie kurz die Ziele und das Vorgehen in diesem Prozess
Feature Engineering ist ein wichtiger Prozess in der Datenvorbereitung für Machine Learning. Die Hauptziele sind die Verbesserung der Modellperformance, Extraktion relevanter Informationen, Reduzierung der Dimensionalität und Erhöhung der Vorhersagegenauigkeit. Der Prozess umfasst drei Hauptschritte: 1. Feature Creation: Generierung neuer Merkmale aus bestehenden Variablen und Transformation von Rohdaten. 2. Feature Transformation: Normalisierung, Standardisierung und Behandlung kategorischer Variablen. 3. Feature Selection: Auswahl relevanter Merkmale und Entfernung redundanter Features. Feature Engineering ist ein iterativer Prozess, der domänenspezifisches Wissen und technisches Verständnis erfordert.
40
Welches sind die wesentlichen Unterschiede zwischen einem Klassifikationsmodell und einem Regressionsmodell. Geben Sie zu beiden Modellarten Beispiele an!
Klassifikations- vs. Regressionsmodelle: Vorhersageart • Klassifikation: Kategorische Werte/Klassen • Regression: Kontinuierliche, numerische Werte Anwendungsbeispiele • Klassifikation: Spam-Erkennung, Kundenabwanderung, Kreditwürdigkeit • Regression: Hauspreise, Assetpreise, Maschinentemperaturen Bewertungsmetriken • Klassifikation: Genauigkeit, Präzision, F1-Score • Regression: MSE, R², RMSE Beide sind überwachte Lernmethoden mit unterschiedlichen Zielen und Bewertungsmethoden.