DaWi 5 - Data Mining Flashcards
(6 cards)
Definieren Sie Data Mining in eigenen Worten, gehen Sie auf den Begriff Muster ein! Nennen Sie typische Aufgabenbereiche des Data Minings
Data Mining ist ein Prozess, bei dem groSse Datenmengen systematisch untersucht werden, um verborgene Muster zu entdecken, die für Unternehmen oder Organisationen wertvolle Einblicke bieten können. Der Begriff “Muster” bezieht sich auf wiederkehrende Strukturen, Trends oder Beziehungen in den Daten, die aufgrund ihrer Haufigkeit oder Signifikanz interessant oder nützlich sind. Bsp.: Prognose von Nachfrage und Bestandsverwaltung, Routing und Logistikoptimierung
Welche 4 Aufgabenfelder gibt es?
1.Klassifikation
2.Clustering
3.Regression
4.Wirkzusammenh‰nge
Was unterscheidet Aufgaben und Verfahren im Data Mining!
Aufgaben und Verfahren:
o Aufgaben sind ¸bergeordnetes Ziel die erreicht werden sollen und
Verfahren sind spezifische Methoden, um das Ziel zuerreichen. Somit Verfahren = Anwendungs-Tools. Verfahren können Aufgaben zugeordnet werden
Nennen Sie mindestens zwei Verfahren und erlautern Sie diese in eigenen Worten!
K-Means: K-Means ist ein Data-Mining-Verfahren, dass Datenpunkte in K Gruppen einteilt, indem es zunachst zufallige Clusterzentren wahlt, dann die Punkte den nachstgelegenen Zentren zuordnet, die Zentren aktualisiert und diesen Prozess wiederholt, bis sich die Zentren nicht mehr bewegen. Es hilft, ahnliche. Datenpunkte zu gruppieren und Muster in den Daten zu identifizieren
+
FP-Growth: FP-Growth ist ein Data-Mining-Algorithmus, der h‰ufige Muster in groflen Datenmengen findet. Es untersucht die Muster in einem Datensatz und erstellt h‰ufige Elemente. Diese Elemente können verwendet werden, um Regeln zu erstellen, die die Beziehungen zwischen den Elementen im Datensatz beschreiben
bunun grafigi de var
Nennen Sie typische Probleme im Bereich Data Mining und schlagen Sie Lösungsmöglichkeiten vor!
Datenqualitat und -reinheit: Unvollstandige, fehlerhafte oder ungenaue Daten
können die Qualitat der Ergebnisse beeintrachtigen.
o Lösen: Sorgfaltige Datenreinigung
➔ Parametrisierung: Viele Data-Mining-Algorithmen erfordern die Festlegung von
Parametern, deren optimale Werte oft nicht offensichtlich sind.
o Eine Lösung besteht darin, automatisierte Methoden zur Optimierung von
Parametern zu verwenden.
➔ Interpretation der Ergebnisse geschieht ohne Hintergrundwissen. Die maschinellen
Ergebnisse m¸ssen aber abschlieflen noch interpretiert werden, bevor man sie als
Wissen bezeichnen kann.
o Lösung: Eine enge Zusammenarbeit zwischen Data Scientists und
Dom‰nenexperten ist hierbei entscheidend