Zusammenfassung Flashcards

1
Q

Was ist die Definition von Data Mining?

A

Data Mining ist die nicht-triviale, Extraktion von impliziten, vorher unbekannten und potenziell nützlichen Informationen.
implizit= müssen versteckt sein

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Was sind die 4 Möglichkeiten der Informationsbeschaffung?

A
  1. Direkte Abfragen
  2. OLAP , Aggregation
  3. Statistische Analyse
  4. Data Mining
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Was sind die Typen von Daten Analyse?

A

Data Driven Analysis (Data Mining, Mustererkennung führen zu Hypothese)
Hypothesis Driven Analysis (OLAP, Hypothesen testen)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Welche zwei Data Mining Techniken gibt es?

A

Discovery Mining (Entdeckung, Erkennen von Mustern, um Entscheidungen zu lenken):
- Assoziationen (Nur eine Transaktion)
- Sequenzen (Fortlaufende Transaktion)
- Clustering (Gruppierung)
Predictive Mining (Vorhersage, Erstellen von Modellen aus bekannten Resultaten)
- Classification (Einteilen in Klassen)
- Regression (Vorhersage von numerischen Werten)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Für was steht CRISP?

A

Cross Industry Standart Process for Data Mining

- hierarchisches Prozessmodell

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Was sind die CRISP Phasen?

A
  1. Business Understanding (Verstehen der Aufgabe): Problemstellung und Ziele festlegen
  2. Data Understanding (Verständnis der Daten): Sammlung der Daten
  3. Data Preparation (Datenvorbereitung): Selektieren der Relevanten Daten
  4. Modeling (Modellbildung)
  5. Evaluation (): Überprüfen der Qualität des Datenmodells
  6. Deployment (): Einsatz des Models
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Was ist Clustering?

A

Ein Verfahren, welches Objekte in Mengen (Cluster) zusammenfasst.
Das sog. Cluster Problem: Die Suche nach k Partitionen von einer Datenmenge M welche in Bezug auf ein gegebenes Kriterium optimal ist.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Was sind die Kategorisierungsfeatures?

A
  1. categorical feature: Feature nur auf Gleichheit verglichen
  2. ordinal feature: zusätzlich auf Ordnung verglichen
  3. quantitative feature: zusätzlich arithmetische Operationen
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Was sind die Bedingungen für das Ähnlichkeitsmaß?

A

Muss zwischen 0 und 1 liegen.
0<= sie := s(xi,xj) <= 1
Maximum bei 1. sij = 1
symmetrisch: sjk = skj

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Was sind die Bedingungen für das Entfernungsmaß?

A

positivität
minimaler Abstand = 0
symmetrisch

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Beschreibe k-means einfach.

A
  1. Zufällig k initiale Cluster festlegen
  2. Berechne die ZEntren der Cluster
  3. Berechne den Abstand jedes Datensatzes zu den Centroiden und ordne zu dem Cluster mit der geringsten Entfernung zu.
    Beginne mit Schritt 2 erneut.
    ———
    -Addiere einfach jeweils x und y Werte zusammen und teile durch anzahl. dann erhält man C1=(x,y) ein initiales Centrum: Die Punkte es Zentrums is gegeben mit C1(P1,P5), bei drei punkten auch durch drei teilen! Logisch
    - setze jeden einzelnen Punkt in mit jedem zuvor errechneten Cluster in die Formel. Kleinste Zahl wir neues Cluster des Punktes.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Wie wird die Confidence berechnet?

A

conf(A->B) = absSupport(A->B)/absSupport(A)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Wie wird lift berechnet?

A

lift=conf(A->B)/relSupport(B)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Was ist der Absolute Support?

A

Die Anzahl der vorkommenden Items

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Was besagt das Klassifikationsproblem?

A

Die Ermittlung eines Klassifikators mit der geringsten Anzahl an Fehlschlägen wird Klassifikationsporblem genannt.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Was ist Scoring?

A

Man lernt das Model auf historische Daten, von denen man den Ausgang kennt. Scoring= Anwendung eines Models auf neue Daten um Vorhersage zu treffen

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
17
Q

Was ist Clustering?

A

Berechnung von Gruppierungen

und Darstellung der Cluster

18
Q

Beschreibe die Schritte des K means

A
  1. zufällige Cluster festlegen
  2. Berechne das Zentrum der Cluster
  3. Berechne den Abstand jedes Datensatzes zu den Centroiden und Ordne den Datensatz dem Cluster zu mit der geringsten Entfernung.
  4. Beginne mit schritt 2
19
Q

Was ist die Multivariable Verteilung?

A

Verteilung einer Zufallsvariablen, deren Werte Vektoren sind.

20
Q

Was kann man zu Case study store profiling sagen?

A
  1. customized demonstration
  2. business question
  3. approach

kategorische Werte: Wetter
numerische Werte: unterdürchschnittlicher verkauf von Schuhen
Sinn: Wert gestiert durch Data Mining:
Entdecken von unbekannten Klientel, reduzierte Kosten

21
Q

Wieso Association Rules?

A

Erkenne von verborgenen Regelmäßigkeiten:
Erfassen von Anonymen Informationen über den Käufer
Zusammenhänge finden und Regeln aufstellen
Anwendungsbereiche:
- Warenkorb analyse
- Web log Analyse
- Qualitätsmanagementanalyse

22
Q

Probleme mit Association rules:

A
  • Result Sets sind riesig, je kleiner der minimale Support und Confidence gewählt wurde
  • nur wenige Regeln sind wirklich interessant
  • einige Regeln trivial
23
Q

Association Rule Algorithmen

A
  • Name Mappings (seperatie Tabelle ordner Namen und Abkürzungen einander zu)
  • Taxonomien (hierarchische Assoziationsregeln, mehrere Begriffe unter Oberbegriff zusammengefasst, dadurch Support erhöht)
24
Q

Was ist eine sequenz?

A

Eine geordnete Liste von Itemsets

25
Q

Was sind Anwendungsbereiche für Klassifikation?

A

Kauflust von Käufern, die INteresse and Angebot haben,

Wahrscheinlichkeit über den Wechsel eines Kunden

26
Q

Was ist ein Klassifikator?

A

Eine Vorhersage Funktion, dessen Ziel X ein begrenztes Set ist.

27
Q

Was ist eine Regressionsfunktion?

A

Ist X eine Teilmenge der rationales Zahlen, wird die Funktion Regressionsfunktion genannt.

28
Q

Was ist das Klassifikationsproblem?

A

Die Ermittlung eines Klassifikators mit der geringsten Anzahl an falschen Vorhersagen nennt sich so.

29
Q

Was sind Kriterien für die Bewertung möglicher Splits?

A

Gini Index, Enthropie

30
Q

Was ist ein Entscheidungsbaum?

A

Die hierarchische Partionierung von Trainingsdaten

31
Q

Was ist pruning?

A

Stutzen des Baumes, verhindert ein Überlernen des Entscheidungsbaumes

32
Q

Overfitting

A

Goal for a model:
-Correct prediction for instances where the target value is unknown àLow error rate when applying the model to unknown instances
- Error rate for the training set is not a good estimate for error rate in the application context
-Target values are known
-Rote learning of training instances results in a model with an error
rate of 0 %
- Error rate determined on a test data set that is not used for learning the model is a better estimate for error rate in the application context

33
Q

Das Optimale Kriterium: Varianz Kriterium

A

Die Anzahl der Clusters k muss bei nummerischen Werte gegeben sein
Die Bewertung der Partitionen mit G:
- Summe über alle Clusters
- Summe über alle Datensätze
- Abstand eines Datensatzes zur Mitte des Clusters

Ziel: Die Summe soll möglichst klein → eine Partition soll einen möglichst kleinen Wert des Varianzkriteriums haben
Auswahl der Partition mit dem kleinsten Wert von G

34
Q

What characterizes these data streams

A

-Volume
Data volume in the range of 10s, 100s of terabytes or even
petabytes
-Velocity
Speed at which the data arrives and has to be processed and analyzed
- Variety
Different types of data
Structured
Semi-structured like XML–data § Unstructured
Text, voice, pictures, movies

35
Q

BIG DATA:
A data warehouse is designed to be able to answer a set of specifc business questions
§ But, what happens if there are new questions to be answered
4The data model of the warehouse has to be modified, extended for including
the information needed for answering these questions. 4The ETL process has to be modified as well
4This can take weeks to months.

A

Solution:
4Store the unfiltered, non-aggregated, but (hopefully) clean and unified data
from the production systems in the data warehouse
4Store as well all semi-structured or unstructured data to be able extract the required information

36
Q

Main Big Data requirements

A

§ Fast processing of high volumes of data
§ Flexible schemas
§ Ecomomic storage for tera- and peta bytes of data § High reliability and availability
.. and everything at affordable costs

37
Q

Design principles of Hadoop

A

New way of storing and processing the data:
§ Let system handle most of the issues automatically: – Failures
– Scalability
– Reduce communications
– Distribute data and processing power to where the data is – Make parallelism part of operating system
– Relatively inexpensive hardware ($2 – 4K)
§ Bring processing to Data!

38
Q

Hadoop characteristics 1

A

§ Data is simply copied to the file store, no transformation is needed
§ A serializer/deserializer is applied during read time for extracting the required columns.
§ New data can arrive anytime. New columns can be read once the
serializer/deserializer is updated to parse it.
–>Fast load
–>Agility, flexibility

39
Q

Map Reduce

A
  1. Map Phase
    (break job into small parts)
  2. Shuffle
    (transfer interim output for final processing)
  3. Reduce Phase
    (boil all output down to a single result set)
40
Q

Hadoop characteristics 2

A

Unstructured and structured
§ Files
§ Only inserts and deletes
§ HBase, Hive, Pig, Jaql, Big SQL § Batch processing
§ Data loss can happen sometimes § Simple file compression
§ Commodity hardware
§ 2-6 years old technology
§ Access files only (streaming)
§ Small number of companies using it in production, many startups

41
Q

RDMS

A
§ Structured data with known schemas
§ Records, long fields, objects, XML
§ Updates allowed
§ SQL &amp; XQuery
§ Quick response, random access
§ Data loss is not acceptable
§ Sophisticated data compression
§ Enterprise hardware
§ 30+ years old mature technology
§ Random access (indexing)
§ Large DBA and Application development community, widely used
42
Q

RDMS Characteristics

A

§ Schema has to be created before data can be loaded
§ Data has has to be loaded to transform it into its internal structure.
§ New columns have to be added to a table before data with these new columns can be loaded.
–>Fast read
–> Standards, governance