Zusammenfassung Flashcards
(42 cards)
Was ist die Definition von Data Mining?
Data Mining ist die nicht-triviale, Extraktion von impliziten, vorher unbekannten und potenziell nützlichen Informationen.
implizit= müssen versteckt sein
Was sind die 4 Möglichkeiten der Informationsbeschaffung?
- Direkte Abfragen
- OLAP , Aggregation
- Statistische Analyse
- Data Mining
Was sind die Typen von Daten Analyse?
Data Driven Analysis (Data Mining, Mustererkennung führen zu Hypothese)
Hypothesis Driven Analysis (OLAP, Hypothesen testen)
Welche zwei Data Mining Techniken gibt es?
Discovery Mining (Entdeckung, Erkennen von Mustern, um Entscheidungen zu lenken):
- Assoziationen (Nur eine Transaktion)
- Sequenzen (Fortlaufende Transaktion)
- Clustering (Gruppierung)
Predictive Mining (Vorhersage, Erstellen von Modellen aus bekannten Resultaten)
- Classification (Einteilen in Klassen)
- Regression (Vorhersage von numerischen Werten)
Für was steht CRISP?
Cross Industry Standart Process for Data Mining
- hierarchisches Prozessmodell
Was sind die CRISP Phasen?
- Business Understanding (Verstehen der Aufgabe): Problemstellung und Ziele festlegen
- Data Understanding (Verständnis der Daten): Sammlung der Daten
- Data Preparation (Datenvorbereitung): Selektieren der Relevanten Daten
- Modeling (Modellbildung)
- Evaluation (): Überprüfen der Qualität des Datenmodells
- Deployment (): Einsatz des Models
Was ist Clustering?
Ein Verfahren, welches Objekte in Mengen (Cluster) zusammenfasst.
Das sog. Cluster Problem: Die Suche nach k Partitionen von einer Datenmenge M welche in Bezug auf ein gegebenes Kriterium optimal ist.
Was sind die Kategorisierungsfeatures?
- categorical feature: Feature nur auf Gleichheit verglichen
- ordinal feature: zusätzlich auf Ordnung verglichen
- quantitative feature: zusätzlich arithmetische Operationen
Was sind die Bedingungen für das Ähnlichkeitsmaß?
Muss zwischen 0 und 1 liegen.
0<= sie := s(xi,xj) <= 1
Maximum bei 1. sij = 1
symmetrisch: sjk = skj
Was sind die Bedingungen für das Entfernungsmaß?
positivität
minimaler Abstand = 0
symmetrisch
Beschreibe k-means einfach.
- Zufällig k initiale Cluster festlegen
- Berechne die ZEntren der Cluster
- Berechne den Abstand jedes Datensatzes zu den Centroiden und ordne zu dem Cluster mit der geringsten Entfernung zu.
Beginne mit Schritt 2 erneut.
———
-Addiere einfach jeweils x und y Werte zusammen und teile durch anzahl. dann erhält man C1=(x,y) ein initiales Centrum: Die Punkte es Zentrums is gegeben mit C1(P1,P5), bei drei punkten auch durch drei teilen! Logisch
- setze jeden einzelnen Punkt in mit jedem zuvor errechneten Cluster in die Formel. Kleinste Zahl wir neues Cluster des Punktes.
Wie wird die Confidence berechnet?
conf(A->B) = absSupport(A->B)/absSupport(A)
Wie wird lift berechnet?
lift=conf(A->B)/relSupport(B)
Was ist der Absolute Support?
Die Anzahl der vorkommenden Items
Was besagt das Klassifikationsproblem?
Die Ermittlung eines Klassifikators mit der geringsten Anzahl an Fehlschlägen wird Klassifikationsporblem genannt.
Was ist Scoring?
Man lernt das Model auf historische Daten, von denen man den Ausgang kennt. Scoring= Anwendung eines Models auf neue Daten um Vorhersage zu treffen
Was ist Clustering?
Berechnung von Gruppierungen
und Darstellung der Cluster
Beschreibe die Schritte des K means
- zufällige Cluster festlegen
- Berechne das Zentrum der Cluster
- Berechne den Abstand jedes Datensatzes zu den Centroiden und Ordne den Datensatz dem Cluster zu mit der geringsten Entfernung.
- Beginne mit schritt 2
Was ist die Multivariable Verteilung?
Verteilung einer Zufallsvariablen, deren Werte Vektoren sind.
Was kann man zu Case study store profiling sagen?
- customized demonstration
- business question
- approach
kategorische Werte: Wetter
numerische Werte: unterdürchschnittlicher verkauf von Schuhen
Sinn: Wert gestiert durch Data Mining:
Entdecken von unbekannten Klientel, reduzierte Kosten
Wieso Association Rules?
Erkenne von verborgenen Regelmäßigkeiten:
Erfassen von Anonymen Informationen über den Käufer
Zusammenhänge finden und Regeln aufstellen
Anwendungsbereiche:
- Warenkorb analyse
- Web log Analyse
- Qualitätsmanagementanalyse
Probleme mit Association rules:
- Result Sets sind riesig, je kleiner der minimale Support und Confidence gewählt wurde
- nur wenige Regeln sind wirklich interessant
- einige Regeln trivial
Association Rule Algorithmen
- Name Mappings (seperatie Tabelle ordner Namen und Abkürzungen einander zu)
- Taxonomien (hierarchische Assoziationsregeln, mehrere Begriffe unter Oberbegriff zusammengefasst, dadurch Support erhöht)
Was ist eine sequenz?
Eine geordnete Liste von Itemsets