Data science Flashcards
(40 cards)
Big Data wird häufig über fünf Eigenscha en charakterisiert. Beschreiben Sie kurz diese „5 Vs“.
Die 5 V’s von Big Data:
Volume: Enorme Datenmenge, überfordert herkömmliche Systeme
Velocity: Hohe Geschwindigkeit der Datengenerierung und -verarbeitung
Variety: Vielfalt der Datenarten (strukturiert, semi-strukturiert, unstrukturiert)
Veracity: Zuverlässigkeit und Genauigkeit der Daten
Value: Nutzen und Erkenntnisse aus den Daten
Beschreiben Sie die Eigenschaften „Variability“, „Volatility“ und „Vulnerability“ im Kontext von Big Data.
Variability (Variabilität):
- Schwankungen in Daten und Verarbeitung
- Inkonsistente Datenflüsse
- Kontextabhängige Bedeutung
- Unterschiedliche Definitionen in Abteilungen
Volatility (Flüchtigkeit):
- Gültigkeitsdauer und Aktualität von Daten
- Datenalterung und Relevanz
- Speichermanagement und Archivierung
- Schnelligkeit der Datenveralterung
Vulnerability (Verwundbarkeit):
- Sicherheitsaspekte von Big Data
- Datenschutz und persönliche Daten
- Sicherheitsrisiken (z.B. Cyberangriffe)
- Vertrauensbildung und Transparenz
Aussagekraft und Nützlichkeit der Daten werden wesentlich über ihre Wahrhaftigkeit (veracity) bestimmt. Nach welchen Dimensionen sollte eine Überprüfung der Wahrhaftigkeit durchgeführt werden? (→ Veracity Roadmap)
Objektivität vs. Subjektivität.
- Bewertung: Fakten oder Meinungen
- Ziel: Zuverlässigkeit für Analysen
Wahrhaftigkeit vs. Täuschung:
- Prüfung: Wahrheitsgehalt der Daten
- Ziel: Erkennung von Falschinformationen
Glaubwürdigkeit vs. Unglaubwürdigkeit:
- Fokus: Plausibilität und Vertrauenswürdigkeit
- Prüfung: Quellenzuverlässigkeit und Faktenübereinstimmung
Zweck: Umfassende Bewertung der Datenqualität, Identifikation von Unsicherheiten und Verzerrungen
Beschreiben Sie kurz das Analysespektrum, welches im Rahmen von Business Analytics abgedeckt wird.
Descriptive: Beschreibt Vergangenes, identifiziert Muster in historischen Daten
Diagnostic: Untersucht Ursachen von Ereignissen durch Drill-Down und Korrelationsanalysen
Predictive: Prognostiziert Zukünftiges mittels statistischer Modelle und Machine Learning
Prescriptive: Gibt Handlungsempfehlungen basierend auf Erkenntnissen der anderen Analysetypen
Grenzen Sie die Begriffe „Business Intelligence“ und „Business Analytics“ voneinander ab.
Business Intelligence vs. Business Analytics:
Fokus und Zeitbezug:
BI: Historisch, gegenwärtig, retrospektiv
BA: Zukunftsorientiert, prädiktiv, präskriptiv
Analysemethoden:
BI: Deskriptiv (Berichte, Dashboards)
BA: Fortgeschritten (Data Mining, ML)
Fragestellungen:
BI: “Was ist/geschieht?”
BA: “Warum? Was wird passieren?”
Anwendungszweck:
BI: Überwachung, operativ, taktisch
BA: Optimierung, strategisch, langfristig
Erläutern Sie kurz den Begriff der „Datenvisualisierung“. Welche Ziele werden mit der Anwendung von Verfahren der Datenvisualisierung verfolgt?
Datenvisualisierung:
- Grafische Darstellung von Informationen und Daten
- Nutzt Diagramme, Grafiken, Karten, etc.
- Ziel: Komplexe Daten verständlich präsentieren
Hauptziele:
- Verständlichkeit erhöhen
- Muster/Trends erkennen
- Entscheidungsfindung unterstützen
- Kommunikation verbessern
- Effizienz steigern
- Innovation fördern
- Geschichten erzählen
Zweck: Komplexe Daten einfach, intuitiv und effektiv vermitteln
Warum sind gerade im Kontext von Big Data Verfahren zur Datenvisualisierung von besonderer Bedeutung?
Bedeutung der Datenvisualisierung für Big Data
Hauptvorteile:
Bewältigung großer Datenmengen:
- Übersichtliche Darstellung
- Schnelle Erfassung relevanter Informationen
Erkennen von Mustern und Trends:
- Aufdecken verborgener Zusammenhänge
- Identifikation von Anomalien
Unterstützung der Entscheidungsfindung:
- Schnelle Informationserfassung
- Fundierte Entscheidungen ohne Datentabellen
Verbesserung der Kommunikation:
- Verständliche Darstellung für alle Stakeholder
- Förderung der abteilungsübergreifenden Zusammenarbeit
Bewältigung der Datenvielfalt:
- Integration verschiedener Datentypen und -quellen
- Einheitliche Darstellung
Echtzeitanalyse und -darstellung:
- Schnelle Verarbeitung kontinuierlicher Datenströme
- Sofortige Sichtbarkeit relevanter Informationen
Unternehmen haben mithilfe moderner Softwarelösungen zahlreiche Möglichkeiten, die Potenziale der Datafizierung für sich zu nutzen. Erläutern Sie den Begriff „Datafizierung“ und zeigen Sie beispielhaft mögliche Potenziale der Datafizierung für Unternehmen auf
Datafizierung:
Definition:
- Trend zur Erfassung, Speicherung und Verarbeitung von Daten
- Umwandlung von Aktivitäten und Prozessen in digitale Daten
Potenziale für Unternehmen:
Prozessoptimierung:
- Effizienzsteigerung
- Automatisierung
Kundenbeziehungsmanagement
- Personalisierung
- Präzisere Zielgruppenansprache
Datengetriebene Entscheidungsfindung
- Echtzeitanalysen
- Prognosemodelle
Produktinnovation
- Bedarfsorientierte Entwicklung
- Qualitätsverbesserung
Neue Geschäftsmodelle
- Datenbasierte Services
- Plattformökonomie
Wettbewerbsfähigkeit
- Verbesserte Marktanalyse
- Effizienzvorsprung (bis zu 60% Steigerung der Betriebsmarge)
Erläutern Sie den Begriff „datengetriebenes Unternehmen“
Datengetriebenes Unternehmen (Data Driven Company):
Nutzt Daten als zentrale strategische Ressource
Charakteristika:
- Datenbasierte Entscheidungsfindung
- Etablierte Datenkultur
- Fortschrittliche technologische Infrastruktur
- Strategische Ausrichtung auf Datennutzung
- Kontinuierliche Verbesserung durch Datenanalyse
- Kundenorientierung mittels Datenerkenntnissen
Ziel: Wettbewerbsvorteile und langfristiger Unternehmenserfolg durch strategische Datennutzung
Durch den Einsatz von „Big Data-Technologien“ erschließen sich neue Geschäftspotenziale für datengetriebene Unternehmen. Beschreiben Sie kurz die strategische Einordnung von „Big-Data-Geschäftsmodellen“ in vier Kategorien so, wie der Branchenverband Bitkom es als Modell für die Nutzung von Big-Data-Technologien vorschlägt. Geben Sie Beispiele zu „Big-Data-Geschäftsmodellen“ an
Strategische Einordnung von Big-Data-Geschäftsmodellen (BITKOM):
Optimierung: Verbesserung bestehender Prozesse
Monetarisierung: Verkauf von Daten/Datenservices
Aufwertung: Datenbasierte Zusatzleistungen
Durchbruch: Neue disruptive Geschäftsmodelle
Beispiele:
- Analytics-as-a-Service
- Data-as-a-Service
- Data-infused Products
- Datenmarktplätze
Erläutern Sie kurz Big-Data-Geschäftsmodelle, die sich mittlerweile als Serviceangebote etabliert haben.
Big Data as a Service (BDaaS):
- Cloud-basierte Dienste für große Datenmengen
- Komponenten: Datenanalyse/-management, Cloud-Infrastruktur, ML/KI-Plattformen
- Anbieter: AWS, Google Cloud, Microsoft Azure
Data Analytics as a Service:
- Bereitstellung von Analysewerkzeugen und -plattformen
Data as a Service (DaaS):
- Datensets als eigenständiges Produkt
Hadoop as a Service (HDaaS):
- Cloud-basierte Implementierung des Hadoop-Frameworks
Data Science as a Service:
- Bereitstellung von Data-Science-Expertise für datengetriebene Geschäftsmodelle
Nur durch die Integration klassischer BI- und Datenmanagementumgebungen mit neuen, explorativen und operationalisierten Big-Data-Anwendungen kann der Wandel hin zu einer datengetriebenen Organisation gelingen. Geben Sie Gründe aus Sicht eines Unternehmens an, die belegen, warum Business-Intelligence-Software auch künftig zunächst in vielen bisherigen Anwendungsgebieten ihre Rolle behalten wird.
Business Intelligence (BI) Software: Zukunftsrelevanz
Gründe für anhaltende Bedeutung:
Bewährte Entscheidungsgrundlage
- Detaillierte Berichte und Dashboards
- Historische Datenanalysen
- Zentrale Datenquelle
Effizienzsteigerung und Prozessoptimierung
- Identifikation von Ineffizienzen
- Ressourcenoptimierung
- Automatisierung von Routineaufgaben
Verbessertes Kundenverständnis
- Kundenanalysen und Segmentierung
- Personalisierung von Marketing
Compliance und Risikomanagement
- Compliance-Berichte
- Risikofrüherkennung
- Überwachung von KPIs
Investitionsschutz und Vertrautheit
- Etablierte Systeme und Prozesse
- Mitarbeitervertrautheit
- Integration in Unternehmenssysteme
Was sind die „Fallstricke“ bei der Erzielung echter geschäftlicher Auswirkungen von Big Data Analytics-Initiativen? Benennen Sie Schwierigkeiten, die auftreten können.
Fallstricke bei Big Data Analytics-Initiativen:
- Mangelnder strategischer Fokus
- Fehlende Integration in Prozesse
- Datensilos und mangelnde Zusammenarbeit
- Überfokussierung auf Technologie
- Fachkräftemangel
- Vernachlässigung der Datenqualität
- Datenschutz- und Sicherheitsbedenken
- Fehlende datengetriebene Unternehmenskultur
Man kann die Leistung eines Systems auf zwei verschiedene Arten steigern. Erklären Sie kurz beide Möglichkeiten der Skalierbarkeit: horizontal vs. vertikal.
Skalierbarkeit von Systemen:
Horizontale Skalierung (Scale-Out):
- Hinzufügen weiterer Maschinen/Knoten
- Lastverteilung, kostengünstig, für verteilte Systeme
Bsp.: Mehr Webserver im Cluster
Vertikale Skalierung (Scale-Up):
- Leistungssteigerung einzelner Systeme
- Aufrüstung von Hardware, einfacher zu verwalten
Bsp.: Aufrüstung Datenbankserver (RAM, CPU)
Wahl abhängig von: Anwendungsart, Kosten, Komplexität, Leistungsanforderungen
Praxis: Oft Kombination beider Ansätze
Zur Realisierung verteilter Systeme werden u.a. die Technik der Fragmentierung sowie der Replikation verwendet. Beschreiben Sie die Motive, die zum Einsatz dieser Techniken führen.
Fragmentierung und Replikation in verteilten Systemen:
Fragmentierung:
- Aufteilung von Daten/Funktionen
- Ziele: Effizienz, Parallelität, Skalierbarkeit
Replikation:
- Mehrfache Datenkopien
- Ziele: Verfügbarkeit, Leistung, Fehlertoleranz, Lastverteilung, Autonomie
Was sind die drei wesentlichen Eigenschaften von Hadoop?
Hadoop: Skalierbarkeit, Fehlertoleranz, Flexibilität
Skalierbarkeit
- Hochgradig skalierbar durch verteilte Umgebung
- Einfache Erweiterung um Server für mehrere Petabytes Daten
- Ermöglicht Unternehmen, mit wachsenden Datenmengen Schritt zu halten
Fehlertoleranz
- Hohe Ausfallsicherheit durch Datenreplikation (standardmäßig dreifach)
- Automatische Umleitung von Aufträgen bei Knotenausfall
- Gewährleistet kontinuierliche Verfügbarkeit und Zuverlässigkeit
Flexibilität
- Verarbeitung und Speicherung verschiedener Datentypen (strukturiert, semi– strukturiert, unstrukturiert)
- Speicherung von Rohdaten ohne Vorverarbeitung
- Ermöglicht spätere Entscheidung über Datenverarbeitung für spezifische Analysen
Ein wesentlicher Unterschied zwischen Hadoop und konventioneller Datenhaltung zeigt sich in den beiden Prinzipien horizontale Skalierung und Datenlokalität. Erläutern Sie kurz diese beiden Prinzipien
Horizontale Skalierung:
Horizontale Skalierung (Scale-Out) in Hadoop:
- Kapazitätserweiterung durch Hinzufügen von Knoten zum Cluster
- Nutzung kostengünstiger Commodity-Hardware
- Lineare Skalierung von Rechenleistung und Speicherkapazität
- Ermöglicht Verarbeitung großer Datenmengen durch Verteilung
Datenlokalität in Hadoop:
- Daten über mehrere Cluster-Knoten verteilt gespeichert
- Berechnungen dort ausgeführt, wo Daten liegen
- Reduziert Netzwerkverkehr, verbessert Verarbeitungsgeschwindigkeit
- Prinzip: “Bring the computation to the data”
Im Gegensatz dazu: Konventionelle Systeme nutzen oft vertikale Skalierung und zentralisierte Datenspeicherung
Erläutern Sie die Unterschiede zwischen Schema-On-Write, genutzt u.a. im Kontext relationaler Datenbankansätze, und dem in Hadoop eingesetzten Schema-on-Read.
Schema-On-Write vs. Schema-On-Read:
Zeitpunkt:
- Write: Schema vor Datenschreiben definiert
- Read: Schema beim Datenlesen angewendet
Flexibilität:
- Write: Weniger flexibel, Änderungen aufwändig
- Read: Hochflexibel, einfache Anpassung
Datentypen:
- Write: Strukturierte Daten, relationale DBs
- Read: Alle Datentypen, Big-Data-Technologien
Leistung:
- Write: Bessere Abfrageleistung
- Read: Schnellere Datenerfassung, mehr Rechenleistung beim Lesen
Anwendungsfälle:
- Write: Stabile Strukturen, transaktionale Systeme
- Read: Big-Data-Analysen, Data Lakes, KI-Training
Beschreiben Sie kurz wesentliche Eigenschaften des Hadoop distributed File System (HDFS)
HDFS (Hadoop Distributed File System):
Verteilte Speicherung: Dateien in Blöcke aufgeteilt, über Cluster verteilt
Skalierbarkeit: Horizontal auf Hunderte/Tausende Knoten
Fehlertoleranz: Datenreplikation (Standard: 3-fach)
Hoher Durchsatz: Cluster-Architektur, Datenlokalität
Master-Slave: NameNode (Master), DataNodes (Slaves)
Datenlokalität: Berechnung am Speicherort
Kompatibel mit Standardhardware und verschiedenen Betriebssystemen
Beschreiben Sie kurz den Aufbau eines HDFS Clusters. Welche Aufgaben haben Master- bzw. Slave-Nodes und Edge-Node?
Ein HDFS-Cluster besteht aus folgenden Komponenten:
Master-Nodes (NameNodes)
- Verwalten Metadaten des Dateisystems (Verzeichnisstrukturen, Dateien)
- Koordinieren Datenspeicherung und -zugriff
- Meist hochverfügbar im Aktiv-Passiv-Verbund konfiguriert
Slave-Nodes (DataNodes)
- Speichern die eigentlichen Daten in Blöcken
- Führen Lese- und Schreiboperationen durch
- Ermöglichen Skalierung des Clusters
Edge-Node
- Dient als sicherer Zugangspunkt für nicht-administrative Benutzer
HDFS funktioniert nach dem Master-Slave-Prinzip, wobei Daten in Blöcke aufgeteilt und redundant auf mehreren DataNodes gespeichert werden. Der NameNode verwaltet die Dateistruktur und Blockzuordnung, während DataNodes die tatsächliche Datenspeicherung übernehmen
Zur Gewährleistung der Datenkonsistenz und der Verfügbarkeit bei Hardwareausfällen überprüft der NameNode ständig den Zustand der DataNodes und die Anzahl der Replikationen. Erklären Sie kurz die Bedeutung von Heartbeat und Blockreport.
Heartbeat:
- Signal von DataNodes alle 3 Sekunden
- Zeigt Funktionsfähigkeit und Erreichbarkeit
- Enthält Infos zu Speicher, Auslastung, Datenübertragungen
- Ermöglicht NameNode-Befehle an DataNodes
- DataNode gilt als ausgefallen nach 10 Minuten ohne Heartbeat
Blockreport:
- Detaillierte Auflistung aller Datenblöcke eines DataNodes
- Gesendet alle 6 Stunden
- Enthält Block-ID, -länge, Generierungszeitstempel
- Hilft bei Verfolgung der Blockverteilung und -zustand
- Dient zur Konsistenzprüfung und Veranlassung von Replikationen/Reparaturen
Beschreiben Sie kurz das Replikationskonzept von Hadoop
Das Replikationskonzept von Hadoop im HDFS:
Standardreplikationsfaktor: 3 (konfigurierbar)
Verteilung der Replikate:
- Lokales Rack
- Anderer Knoten im selben Rack
- Knoten in anderem Rack
Dynamische Replikation:
- NameNode überwacht Replikatzustand
- Automatische Erstellung neuer Replikate bei Ausfällen
- Entfernung überflüssiger Replikate
Konsistenz:
- NameNode stellt Konsistenz sicher
- Neueste Version als Referenz bei Inkonsistenzen
Leseoptimierung:
- Auswahl des am besten erreichbaren Replikats
Dieses Konzept gewährleistet hohe Datenverfügbarkeit und -zuverlässigkeit bei Hardwareausfällen oder Netzwerkproblemen.
Hadoop Cluster
Obere Kästen von links nach rechts:
* Linker Kasten: 3 (Name Node) –> Job Tracker
* Rechter Kasten: 5 (Secondary Name Node)
Untere drei Kästen:
* Alle drei unteren Kästen: 1 (Data Node) – > 4 Task Tracker
Das MapReduce-Verfahren für die Berechnung des durchschnittlichen Passagieraufkommens pro Flugverbindung läuft in folgenden Schritten ab:
Input Phase:
Die Eingabedaten bestehen aus der Flugtabelle mit den Spalten für Flughäfen, ID und Passagierzahlen (Total).
Map Phase:
Der Mapper erzeugt Key-Value-Paare, wobei:
* Key: Die Flugverbindungs-ID
* Value: Die jeweilige Passagierzahl (Total)
Beispiel: (347, 412), (943, 204), etc.
Shuffle & Sort Phase:
Die erzeugten Key-Value-Paare werden nach dem Key (ID) gruppiert:
* ID 147: [221, 409]
* ID 258: 228
* ID 347: [412, 290]
usw.
Reduce Phase:
Der Reducer berechnet für jede ID den Durchschnitt der zugehörigen:
Passagierzahlen:
* ID 147: (221 + 409) / 2 = 315
* ID 258: 228 / 1 = 228
* ID 347: (412 + 290) / 2 = 351
usw.
Output Phase:
Das Ergebnis ist eine Liste mit den durchschnittlichen Passagierzahlen pro Flugverbindungs-ID, die das finale Ergebnis der Analyse darstellt.