2 & 3 Datenanalyse/Data Mining Flashcards Preview

Big Data > 2 & 3 Datenanalyse/Data Mining > Flashcards

Flashcards in 2 & 3 Datenanalyse/Data Mining Deck (30)
Loading flashcards...
1
Q

Datenanalyse Allgemein

A

> Techniken zur Konsolidierung, Analyse und Bereitstellung der Daten zur Entscheidungsunterstützung
Basiert meist auf Data Warehouse
Teil des Knowledge Discovery Prozess in Database (KDD)

2
Q

Data Warehouse

(Datenquell für)

Typische Applikationen die auf DWH basieren?

A

Datenquell für:
> komplexe Analysen
> KDD
> Entscheidungsfindung

Typische Applikationen die auf DWH basieren
> Online Analytical Prozessing (OLAP)
> Decision-Support-System (DSS)
> Management Information Systems (MIS)
> Data Mining (DM)
3
Q

OLAP (Online Analytical Processing)

A

=> solche Anwendungen bereiten die Daten in einem DW auf (analysieren oder bereiten visuell auf)

Methoden:
> Multidimensionale konzeptionelle Sichten
> Unlimitierte Dimensionen und Aggregationsstufen
> Interaktive Analayse anhand typischer Interaktionen
> Slice, Dice, Roll-Up, Drill-Down

4
Q

Definition Decision-Support-System (DSS)

A

= Entscheidungen bei schlecht strukturierten Problemen und unvollständigen Daten vorbereiten (DSS)
> Flexibler EInsatz
> Modellgestützt oder Datengestützt

(ermitteln für menschliche Etnscheidungsträger für operative und strat. Aufgaben relevante Infos, aufbereiten und stellen diese übersichtlich zusammen

5
Q

Definition Data Mining

Beispiel für Große Datenmengen

A

= Prozess zum entdecken interessanter Muster und Erkenntnisse von großen Datenmengen

Beispiele

  • Geschäftswelt: Web, E-Commerce, Sensoren
  • Wissenschaft: Bioninformatik, wissenschaftl. Simulationen
  • Gesellschaft: Nachrichten, YouTube, Twitter

Data Mining = Automatische Analyse von riesigen Datenmengen

6
Q

Data Warehouse & Data Mining

A

> DWH enthhält historische Daten zur Entscheidungsunterstützung
NUtzung des DWH als Datenquelle für Data Mining
Gewinnung von neuen Erkenntnissen aus vorhandenen Daten in DWH

7
Q

Phasen des Knowledge Discovery (KDD) Prozess

A

1, Datenauswahl
2. Datenreinigung/Datenanreicheurng/Transformation
(Teil des ETL-Prozesses im DWH (Datenvorbereitung im DWH)
3. Data Mining
4. Datenvisualisierung (Integration der Ergebnisse zurück ins Data Warehouse

8
Q

Ziel Data MIning/Knowledge Discovery in Database

A
  • Vorhersagen (Attributwert in Zukunft vorhersagen)
  • Identifikation (Erkennen eines Gegenstands/Aktivität)
  • Klassifikation (Kategoriesierung/Klassifizierung Daten)
  • Optimierung (Optimierung Nutzen von besch. Ressourc)
9
Q

Nenne Sie 4 Datenarten und jeweils 2 Beispiele

A
Strukturierte Daten
- relationale Daten/Tabellen - CSV
Semistrukturierte Daten
- JSON, XML, HTML
Unstrukturierte Daten
- Dokumente, Textdaten, Nachrichten
Datensätze
- Dokumente
- relationale Daten/Tabellen
10
Q

Kategorisierung der Attribute (4 Kategorien)?

A

nominal (keine Ordnung)
- Bsp.: blau, rot

ordinal
- Bsp.: sehr gut, gut

Diskret
- Zählergebnisse
  Bsp.: Anzahl Teilnehmer, Räume
Stetig (stetige Werte/Messungen)
  Bsp.: Zeit, Gewicht, Länge, Temperatur
11
Q

Datenverständnis entwickeln (Beschreibung der Daten)

A

> Lagemaße, Streuungsmaße
Verteilungscharakteristiken
- Median, Min, Max, Varianz, Quantil

12
Q

Nennen Sie die drei Lagemaße

A

=> Durchschnitt
=> Median
=> Modus (Wert der am häufigsten vorkommt)

13
Q

Ziel und Aufgabe der Datenvisualisierung

A

= Effiziente und klare Vermittlung der Daten an Benutzer durch graphische Repräsentation

Ziele:
> Einblicke in den Datenraum erhalten
> Gewährung qualitativer Überblick großer Datenmegngen
> Suchen von Mustern, Trends, Strukturen, UNregelmäßigkeiten, Beziehungen in den Daten
> Lokalisierung interesanter Regionen für genauere Analyse
> Visueller Beweir von Zusammenhängen

14
Q

Was gibt die Standardabweichung an?

A

wie weit die einzelnen Messwerte im Durchschnitt von dem Erwartungswert (mittelwert) entfernt sind.
Berechnet aus der Quadratwurzel der Varianz

15
Q

Nennen Sie verschiedene Visualisierungstechniken

A

Bog Plots/Quantil Plots
= Darstellung Verteilungen & Lagemaße für einzelne Attribute

Histogramme
= Darstellung der Häufigkeiten von Wertebereichen eines Attributs
(Welche Instanzen fallen in den jeweiligen Wertebereich?)

  • Density/Heat Maps
  • Scatter Plots/Scatter Plots 3D
  • Bubble Chart
  • Scatter Plott Matrix
  • Parallel Coordinates
    = n-Dimensionale Daten werden durch n Achsen dargestellt
    = jede Achse kann auf den lokalen Wertebereich (Min, Max) ihrer Dimensionen skaliert werden
    = Ordnung der Dimensionen wichtig
16
Q

Was ist der Kontext der Datenvorverbereitung?

A
Eigenschaften realer Daten:
=> Unvollständig
=> Noisy (ungenaue Daten)
=> riesige Datenmengen
(garbage in garbage out)
Datenverarbeitung  = Techniken zur Verbesserung der Datenqualität
> Datenreinigung/Data Cleaning
> Datenintegration
> Datenreduktion
> Datentransformation
17
Q

Definition Datenqualität?

3 Qualitätskriterien?

A

= Eignung der Daten für ihren vorgesehenen Zweck (fitness for use)

Qualitätskriterien:
Genauigkeit, Vollständigkeit, Konsistenz

18
Q

Nennen Sie Gründe für schlechte Datenqualität

A
  • keine Validierung im UI
  • Virus
  • veraltete Daten
  • Fehler bei Datenerfassung (Feld zu kurz)
  • keine Qualitätsprüfung beim festschreiben der Daten
  • nicht gut modellierte Daten/Datenmoell
  • Datenkonvertierungsfehler
19
Q

Der Ablauf bei der Datenvorverarbeitung

A
  1. Datenreinigung
    - fehlende Werte einsetzen, Ausreißer löschen, Inkonsistenzen auflösen
  2. Datenintegration
    - Vereinigung mehrerer Datenquellen
  3. Datenreduktion
    - Dimensionen/Datensätze reduzieren
  4. Datentransformation
    - Vereinheitlichung/Übersetzung der Daten
20
Q

Mit welchen Problemen befasst sich die Datenreinigung?

A

=> Fehlende Attribute/Werte
=> noisy/ungenaue Daten
=> Inkonsistente Daten
=> Data Scrubbing

21
Q

Datenreinigung: Lösungsansatz bei Fehlenden Attributen

A

> Ignorieren der Instanz z.B. fehlender Zielvariable
Manuelles EInfügen der Werte
Einfügen eines Defaultwerts
Median/Durchschnitt des Attributs einfügen oder der Klasse der Instanz
wahrscheinlcihsten Wert einfügen

22
Q

Datenreinigung: Lösungsansatz “Noisy Daten”

A

Binning
> Sortierung der Daten udn EInteilung in BIns (gleiche Anzahl an Werten)
> Angleichung der Werte innerhalb der Bins (Durch ersetzen der Attributwerte durch den Bin Durchschnitt, Median)

Clustering
> Erkennen von Löschen und Ausreißern

23
Q

Datenreinigung: Umgang mit inkonsistenten Daten

A

Sammlung von Informationen zu Daten (Metadaten)
> Datentypen, korrekte Wertebereiche des Attributs
> Überladen von Attributen erkennen
> Überprüfung von Konsistenzregeln

24
Q

Datenreinigung: Data Scrubbing

A
Normalisierung der Daten
> Groß- u. Kleinschreibung
> Rechtschreibprüüfung
> Ersetzen von Abkürzungen
> Zerlegen von zusammengesetzten Attributen
Konvertierung
> Umrechnen von Einheiten, Währungen
25
Q

Nenne Sie die drei Arten der Datenredukton

A

Reduzieren der Attribute
> Prinzipal Component Analyse (PCA)
> Attribut Subset Selektion

Datenreduktion
> Ersetzen der Daten durch kleinere Repräsentanten (Clustering, Historgramme)

Datenkomprimierung
> Einsatz verlustfreier Komprimierung bei der Datenspeicherung

26
Q

Definition Datentransformation und mögliche Strategien

A

= Vereinheitlich/ Übersetzung der Daten

Strategien:
> Glätten der Daten
> Attributerzeugung
> Normalisierung Attributwerte
> Diskretisierung
> Aggregation/Zusammenfassung der Attribute
27
Q

Was ist die Aufgabe der Normalisierung?

A

> Maßeinheiten beeinflussen das Analyseergebnis
- kleinere Maßeinheiten => größere Unterschiede der Attributwerte => größere Effekte
Vermeiden dieser Unterschiede durch Normalisierung bzw. Standardisierung

28
Q

Definition Standardisierung

A

Benutzung der Standardabweichung und des Durchschnitts zur Normalisierung
> Insbesondere nützlich, wenn Minimum und Maximum nicht bekannt sind bzw. Ausreißer Minimum und Maximum dominieren

29
Q

Definition Diskretisierung

A

= Aufteiung von numerischen Attributen in Intervalle
> Verwendung der Intervallbezeichnungen als Attributwert
> Reduzierung Datenmenge
> Vorbereitung für weitere Analyseschritte

30
Q

Nennen Sie Methoden der Diskretisierung

A

> Binnung (Unterteilung auf einzelne Bins)
Clustering/Decision Tree
Histogramm Analyse

  • Einteilung der Wertebereiche in Bins
  • Equal-With Histogramm: Ermittlung der Anzahl Instanzen in den gleich breiten Bins
  • Equal-Frequence Histogramm: Ermittlung der Breite der Bins bis Anzahl Instanzen erreicht ist

Binning: Zielmenge der Attribute der Größe nach aufsteigend in INtervalle “ Bins” einteilen. Alle Attributwerte werden dann mit den Repräsentanten des Intervalls ersetzt, in dem sich der Wert befindet. Dieser auch interval label genannte Repräsentationswert ist oft etwa der Durchschnitt/Median.
Bsp.: Kategorisierung Alter: 20-29