Data science Flashcards

Question

Map/Reduce-Verfahren

Answer 1

Input Phase: Die Eingabedaten bestehen aus der Textdatei mit der Wortfolge: Dear, Bear, River, Car, Car, River, Dear, Car, Bear Map Phase: Der Mapper erzeugt für jedes Wort ein Key-Value-Paar mit dem Wort als Key und der Zahl 1 als Value: * (Dear, 1), (Bear, 1), (River, 1), (Car, 1), (Car, 1), (River, 1), (Dear, 1), (Car, 1), (Bear, 1) Shuffle & Sort Phase: Die Key-Value-Paare werden nach dem Key (Wort) gruppiert: * Bear: [1, 1] * Car: [1, 1, 1] * Dear: [1, 1] * River: [1, 1] Reduce Phase: Der Reducer summiert die Values für jeden Key: * Bear: 2 * Car: 3 * Dear: 2 * River: 2 Output Phase: Das finale Ergebnis zeigt die Häufigkeit jedes Wortes: Bear: 2 Car: 3 Dear: 2 River: 2

Answer 2

Wesentliche Eigenschaften: * Speicherung von Rohdaten in ihrem nativen Format ohne vorherige Strukturierung * Unterstützung verschiedener Datentypen (strukturiert, semi-strukturiert, unstrukturiert) * Schema-on-Read statt Schema-on-Write Ansatz * Zentrale Speicherung aller Unternehmensdaten an einem Ort * Skalierbare Architektur für große Datenmengen Vorteile: Flexibilität: * Aufnahme verschiedener Datenformate ohne vorherige Transformation * Flexible Datenschemata ermöglichen vielseitige Verwendung * Nachträgliche Strukturierung nach Bedarf möglich Skalierbarkeit: * Einfache Erweiterbarkeit bei wachsenden Datenmengen * Kostengünstige Skalierung durch günstige Speicherlösungen * Wachstum von Terabytes bis zu Petabytes möglich Analysemöglichkeiten: * Ideal für Big-Data-Analysen und Machine Learning * Ermöglicht fortgeschrittene Analysetechniken * Unterstützt datengetriebene Entscheidungsfindung Nachteile: Datenverwaltung: * Risiko eines "Data Swamp" ohne klare Governance * Komplexe Verwaltung großer Datenmengen * Fehlende integrierte Qualitätskontrolle Expertise: * Hoher Bedarf an spezialisierten Fachkräften * Komplexe Einrichtung und Wartung * Technische Herausforderungen bei der Datenaufbereitung Sicherheit: * Herausforderungen bei Zugriffsrechten und Datenschutz * Komplexe Compliance-Anforderungen * Erhöhtes Risiko durch zentrale Datenspeicherung

Answer 3

Skalierbarkeit: Data Warehouse: * Begrenzte Skalierbarkeit durch vorgegebene Struktur * Kostenintensive Erweiterung durch teure Hardware * Hauptsächlich vertikale Skalierung Data Lake: * Hochgradig skalierbar durch flexibles Design * Kostengünstige Erweiterung möglich * Horizontale Skalierung auf Standard-Hardware Schema: Data Warehouse: * Schema-on-Write: Festes Schema vor Datenspeicherung * Strukturierte Daten in definierten Formaten * Aufwändige Schemaänderungen Data Lake: * Schema-on-Read: Flexibles Schema bei Datenzugriff * Unterstützt alle Datenformate * Einfache Anpassung an neue Anforderungen Speicherung der Daten: Data Warehouse: * Speicherung verarbeiteter, strukturierter Daten * Optimiert für definierte Geschäftsanforderungen * Hohe Speicherkosten pro Terabyte Data Lake: * Speicherung von Rohdaten in Originalformat * Unterstützt strukturierte und unstrukturierte Daten * Niedrige Speicherkosten pro Terabyte Geschwindigkeit: Data Warehouse: * Schnelle Abfragen durch optimierte Struktur * Effizient für vordefinierte Analysen * Langsamer bei der Datenaufnahme Data Lake: * Variable Abfragegeschwindigkeit * Flexibel für verschiedene Analysearten * Schnelle Datenaufnahme Governance: Data Warehouse: * Strenge Datenverwaltung und -qualität * Klare Zugriffsrechte und Sicherheit * Hohe Datenkonsistenz Data Lake: * Herausfordernd in der Datenverwaltung * Komplexere Zugriffssteuerung * Risiko von "Data Swamps" ohne klare Governance

Answer 4

Traditioneller ETL-Ansatz: * Daten werden zunächst aus Quellsystemen extrahiert (Extract) * Dann entsprechend vorgegebener Strukturen transformiert (Transform) * Erst nach der Transformation in das Zielsystem geladen (Load) * Typisch für klassische Data Warehouse Systeme * Erfordert vorab definierte Datenstrukturen und Schemas Neuer ELT-Ansatz im Data Lake: * Daten werden aus Quellsystemen extrahiert (Extract) * Direkt im Rohformat in den Data Lake geladen (Load) * Transformation erfolgt erst bei Bedarf zum Zeitpunkt der Analyse (Transform) * Ermöglicht flexiblere und vielfältigere Datennutzung * Basiert auf dem Schema-on-Read Prinzip Dieser Paradigmenwechsel bietet mehrere Vorteile: * Schnellere initiale Datenerfassung * Größere Flexibilität bei der späteren Datennutzung * Möglichkeit, dieselben Rohdaten für verschiedene Analysezwecke unterschiedlich zu transformieren * Geringerer initialer Aufwand für Datenvorbereitung * Bessere Unterstützung für agile Analyseansätze

Answer 5

NoSQL-Systeme weisen trotz fehlender einheitlicher Definition mehrere gemeinsame charakteristische Eigenschaften auf: Skalierbarkeit: * Horizontale Skalierung durch Hinzufügen weiterer Server/Nodes * Effiziente Verteilung der Kapazitäten über mehrere Knoten Flexibles Datenmodell: * Keine starren Tabellenschemata erforderlich * Unterstützung verschiedener Datenmodelle (Dokumente, Graphen, Key-Value, Spalten) * Möglichkeit zur Speicherung strukturierter und unstrukturierter Daten * Schema-on-Read statt Schema-on-Write Ansatz Leistungsfähigkeit: * Optimiert für hohen Datendurchsatz * Effiziente Verarbeitung großer Datenmengen * Gute Performance bei vielen gleichzeitigen Schreib-/Lesezugriffen Konsistenzmodell: * Lockerung der strengen ACID-Eigenschaften zugunsten von Flexibilität und Skalierbarkeit * BASE-Prinzip (Basically Available, Soft State, Eventually Consistent) Entwicklerfreundlichkeit: * Einfache APIs für Datenzugriff * Objektorientierte Programmierung * Vereinfachte Installation und Konfiguration von verteilten Datenbank-Clustern

Answer 6

Die vier Hauptkategorien von NoSQL-Systemen und ihre typischen Anwendungsgebiete sind: Dokumentenorientierte Datenbanken: * Speichern Daten in flexiblen Dokumentformaten (meist JSON) * Anwendungsgebiet: Content-Management-Systeme und Blogs Key-Value-Datenbanken: * Speichern Daten als Schlüssel-Wert-Paare * Anwendungsgebiet: Session Management und Caching von Webanwendungen Graphdatenbanken: * Speichern Daten in Form von Knoten und Kanten * Anwendungsgebiet: Soziale Netzwerke und Empfehlungssysteme Spaltenorientierte Datenbanken: * Speichern Daten in Spalten statt in Zeilen * Anwendungsgebiet: Analytische Anwendungen mit großen Datensätzen

Answer 7

Das CAP-Theorem beschreibt drei grundlegende Eigenschaften verteilter Systeme: 1. Konsistenz (Consistency) Alle Knoten zeigen zu jedem Zeitpunkt die gleichen Daten. Nach einem Schreibvorgang müssen alle Lesezugriffe den aktualisierten Wert zurückgeben. 2. Verfügbarkeit (Availability) Jede Anfrage (Lese- und Schreibzugriffe) wird in angemessener Zeit beantwortet. Das System bleibt verfügbar, solange mindestens ein Knoten funktioniert. 3. Ausfalltoleranz (Partition Tolerance) Das System funktioniert auch bei Netzwerkausfällen oder -verzögerungen zwischen den Knoten. Gemäß dem CAP-Theorem kann ein verteiltes System nur zwei dieser drei Eigenschaften gleichzeitig garantieren.

Answer 8

ACID-Eigenschaften in relationalen Datenbanken Atomicity (Atomarität) - Transaktionen werden vollständig oder gar nicht ausgeführt. - Bei Fehlern erfolgt ein Rollback. Consistency (Konsistenz) - Datenbank bleibt vor und nach der Transaktion konsistent. - Integritätsbedingungen und referentielle Integrität werden eingehalten. Isolation (Isolation) - Parallele Transaktionen beeinflussen sich nicht. - Jede Transaktion agiert isoliert, Konflikte werden vermieden. Durability (Dauerhaftigkeit) - Erfolgreiche Transaktionen sind dauerhaft gespeichert. - Änderungen bleiben auch bei Systemausfällen erhalten. Diese ACID-Eigenschaften sichern die Datenkonsistenz, können jedoch die Skalierbarkeit und Performance einschränken.

Answer 9

Das BASE-Konsistenzmodell (Basically Available, Soft State, Eventually Consistent) bietet einen flexiblen Ansatz für verteilte Datenbanksysteme als Alternative zu ACID: Basically Available: - System ist immer verfügbar. - Alle Anfragen werden beantwortet, auch bei nicht aktuellen Daten. - Hohe Verfügbarkeit hat Vorrang vor strenger Konsistenz. Soft State: - Systemzustand kann sich ohne Eingaben ändern. - Temporäre Inkonsistenzen sind akzeptabel. - Daten können zwischen Replikaten abweichen. Eventually Consistent: - Konsistenz wird nach einer gewissen Zeit erreicht. - System konvergiert in einen konsistenten Zustand. - Temporäre Inkonsistenzen werden zugunsten der Verfügbarkeit toleriert.

Answer 10

Machine Learning vs. Deep Learning Machine Learning: - Nutzt statistische Methoden zum Lernen aus Daten - Arbeitet mit strukturierten Daten und vordefinierten Features - Benötigt weniger Rechenleistung und Trainingsdaten - Geeignet für überschaubare Probleme - Umfasst überwachtes, unüberwachtes und bestärkendes Lernen Deep Learning: - Spezielle Form des Machine Learnings mit künstlichen neuronalen Netzen - Nutzt mehrere Schichten zur Merkmalserkennung - Lernt selbstständig relevante Features aus Rohdaten - Benötigt große Datenmengen und hohe Rechenleistung - Ideal für komplexe Aufgaben wie Bild- und Spracherkennung Hauptunterschied: Deep Learning ist eine spezialisierte Form des Machine Learnings, die komplexere Muster erkennt, jedoch mehr Ressourcen benötigt.

Answer 11

Supervised Learning (Überwachtes Lernen): * Training mit gelabelten Datensätzen * Eingabedaten sind mit korrekten Ausgabewerten verknüpft * Algorithmus lernt Zusammenhänge zwischen Ein- und Ausgabe * Ziel ist die Vorhersage von Ergebnissen für neue Eingabedaten * Beispiele: Klassifikation, Regression Unsupervised Learning (Unüberwachtes Lernen): * Training mit ungelabelten Datensätzen * Keine vorgegebenen Ausgabewerte * Algorithmus findet selbstständig Muster und Strukturen * Ziel ist das Erkennen von Gruppierungen oder Anomalien * Beispiele: Clustering, Dimensionsreduktion Semi-supervised Learning (Teilüberwachtes Lernen): * Kombination aus gelabelten und ungelabelten Daten * Nur ein kleiner Teil der Trainingsdaten ist gelabelt * Nutzt Vorteile beider Ansätze * Kosteneffizient durch geringeren Bedarf an gelabelten Daten * Beispiel: Texterkennung mit teilweise annotiertem Korpus Reinforcement Learning (Bestärkendes Lernen): * Lernen durch Interaktion mit einer Umgebung * Agent lernt durch Belohnungen und Bestrafungen * Trial-and-Error-Prinzip * Ziel ist die Optimierung einer Belohnungsfunktion * Beispiele: Robotersteuerung, Spielstrategien

Answer 12

Der Data-Science-Prozess umfasst sechs iterative Phasen: 1. Business Understanding • Projektverständnis und Zieldefinition • Erfolgskriterien und Ressourcenanalyse 2. Data Understanding • Datensammlung und -untersuchung • Erste Analysen und Qualitätsprüfung 3. Data Preparation • Datenbereinigung und -transformation • Erstellung des finalen Datensatzes 4. Modeling • Modellentwicklung und -training • Anpassung und Dokumentation 5. Evaluation • Modellbewertung und -vergleich • Überprüfung der Erfolgskriterien 6. Deployment • Implementierung und Präsentation • Planung von Wartung und Überwachung

Answer 13

Verfahren zur Behandlung fehlender Datenwerte (Missing Values): Eliminierungsverfahren: Listenweiser Fallausschluss: • Entfernung von Datensätzen mit fehlenden Werten • Geeignet für wenige Ausfälle und große Stichproben • Nachteil: Möglicher Informationsverlust Paarweiser Fallausschluss: • Ausschluss nur für spezifische Analysen • Erhält mehr Informationen • Nachteil: Erschwerte Interpretation Imputationsverfahren: Einfache Imputation: • Mittelwert-, Median- oder Modusimputation • Nachteil: Unterschätzung der Varianz Zeitreihenbasierte Verfahren: • LOCF, NOCB, Lineare Interpolation Fortgeschrittene Verfahren: • Multiple Imputation • Regressionsbasierte Imputation • MICE Die Wahl des Verfahrens hängt von der Art der fehlenden Daten, Datensatzgröße, Anteil fehlender Werte und Analyseanforderungen ab.

Answer 14

Ausreißerkennung in der Datenaufbereitung: Ziele: • Identifikation ungewöhnlicher Datenpunkte • Verbesserung der Datenqualität • Vermeidung von Verzerrungen • Erkennung von Anomalien • Schutz vor falschen Schlussfolgerungen Methoden: Statistisch: • Standardabweichungen • Quartile und Boxplots • 3-Sigma-Regel • Grenzwertdefinition Visuell: • Streudiagramme • Boxplots • Histogramme Behandlung • Entscheidung über Umgang • Dokumentation • Fehlerprüfung • Korrektur oder Ersetzung Ausreißerkennung erfordert statistische und fachliche Expertise zur Unterscheidung zwischen Anomalien und Fehlern.

Answer 15

Feature Engineering ist ein wichtiger Prozess in der Datenvorbereitung für Machine Learning. Die Hauptziele sind die Verbesserung der Modellperformance, Extraktion relevanter Informationen, Reduzierung der Dimensionalität und Erhöhung der Vorhersagegenauigkeit. Der Prozess umfasst drei Hauptschritte: 1. Feature Creation: Generierung neuer Merkmale aus bestehenden Variablen und Transformation von Rohdaten. 2. Feature Transformation: Normalisierung, Standardisierung und Behandlung kategorischer Variablen. 3. Feature Selection: Auswahl relevanter Merkmale und Entfernung redundanter Features. Feature Engineering ist ein iterativer Prozess, der domänenspezifisches Wissen und technisches Verständnis erfordert.

Answer 16

Klassifikations- vs. Regressionsmodelle: Vorhersageart • Klassifikation: Kategorische Werte/Klassen • Regression: Kontinuierliche, numerische Werte Anwendungsbeispiele • Klassifikation: Spam-Erkennung, Kundenabwanderung, Kreditwürdigkeit • Regression: Hauspreise, Assetpreise, Maschinentemperaturen Bewertungsmetriken • Klassifikation: Genauigkeit, Präzision, F1-Score • Regression: MSE, R², RMSE Beide sind überwachte Lernmethoden mit unterschiedlichen Zielen und Bewertungsmethoden.

Data science Flashcards

(40 cards)