Big Data & Data Science Flashcards

(97 cards)

1
Q

Deskriptive Analyse

A

Untersuchung von Vorgängen in der Vergangenheit

z.b. Report zum Jahresumsatz

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Prädiktive Analyse

A

Sagt wahrscheinliche Resultate vorher und erstellt fundierte Prognosen anhand historischer Daten

verlängert Trends in die Zukunft, um mögliche Ergebnisse abzuleiten

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Präskriptive Analyse

A

nutzt Daten aus vielen Quellen, zb Statistiken, ML & Data-Mining

um mögliche zukünftige Ergebnisse zu identifizieren und die beste Option zu zeigen

liefert umsetzbare Erkenntnisse statt Rohdaten, sagt was geschehen sollte und nicht nur könnte

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Algorithmus Definition

A

Eindeutige Handlungsvorschrift zur Lösung eines Problems/Klasse von Problemen

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Algorithmus Eigenschaften

A

Finitheit
Ausführbarkeit
Dynamische Finitheit/Platzkomplexität
Terminierung oder Zeitkomplexität

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Algorithmus Eigenschaften - Finitheit

A

Verfahren muss in einem endlichen Text eindeutig beschreibbar sein

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Algorithmus Eigenschaften - Ausführbarkeit

A

Jeder Schritt des Verfahrens muss ausführbar sein

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Algorithmus Eigenschaften - Platzkomplexität

A

Verfahren darf zu jedem Zeitpunkt nur endlich viel Speicherplatz benötigen

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Algorithmus Eigenschaften - Terminierung

A

Verfahren darf nur endlich viele Schritte benötigen

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Deterministischer Algorithmus

A

wenn er bei selben Vorrausetzungen immer das selbe Ergebnis liefert

zu jedem Zeitpunkt der nächste Schritt eindeutig definiert ist

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Induktion

A

Generalisierung von in der Realität beobachteten Regelmäßigkeiten zu einer allg. Vermutung

-> Hypothensenbildung

Bottom Up

Bsp: 30 Bohnen ziehen - alle weiß, nochmal 30 ziehen - alle weiß. Ergo: Alle Bohnen müssen weiß sein

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Deduktion

A

Ableitung von Aussagen aus anderen (allg.) Aussagen mit Hilfe logischer Regeln

-> Hypothesenprüfung

Bohnen in Sack gefüllt. Alle waren weiß. Bohne aus dem Sack nehmen-> sie ist weiß

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Abduktion

A

Verknüpfung von EInzelbeobachtungen und Erkennen (Vermuten) von Regeln

-> Hypothesenbildung

Top-Down

Sack, ich sehe weiße Bohnen, ich finde weiße Bohne iwo im raum. -> Bohne muss aus dem Sack sein

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Big Data - Aufteilung der Probleme

A

Infrastruktur
Analytics
Anwendungen

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Big Data - Aufteilung der Probleme - Infratruktur

A

Hadoop, NoSQL, Data Warehouse

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Big Data - Aufteilung der Probleme - Analytics

A

Analysen, VIsualisierung, BI, Machine Learning

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
17
Q

Big Data - Aufteilung der Probleme - Anwendungen

A

Wirtschaftsbezogen: Gesundheit, Marketing, Betrugserkennung, FInanzen

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
18
Q

Business Intelligence

A

Sammelbergriff für IT-gestützten Zugriff auf Informationen & Analysen und Aufbereitung dieser Informationen

Ziel: aus vorhandenem Wissen neues handlungsorientiertes Wissen generieren

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
19
Q

Big Data

A

Informationen mit hohem Volumen (Volume)

hoher Geschwindigkeit (velocity)

hoher Vielvalt (Variety)

Veracity (Richtigkeit)

brauchen innovative Formen der Verarbeitung

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
20
Q

Big Data Volume

A

Scale of Data
ca 90% der Daten wurden in letzten 2 Jahren geschaffen

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
21
Q

Big Data Velocity

A

Speed of Data

ca 50.000 GB/Sekunde beträgt geschätzte Datenübertragung im Internet

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
22
Q

Big Data Veracity

A

Certainity of Data
3,1 Bio $ geschätzter jährlicher Verlust in US für schlechte Datenqualität

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
23
Q

Big Data Variety

A

Variety of Data
90% neu geschaffener Daten sind unstrukturiert

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
24
Q

BI schlagworte

A

Data Subsets
Historisch
Strukturiert
Single Source of Application
Statisch
Private Daten
Data growth as a burden to manage

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
25
Big Data Schlagworte
All Data & Meta Data fast real-Time strukturiert und unstrukturiert multiple Sources/Apps Dynamisch privat und öffentlich Data as a new source of copetitive opputunity
26
Data science
Untersuchung von Daten Umfasst Entwicklung von Methiden zur Erfassung, Speicherung und Analyse von Daten um nützliche Informationen effektiv zu extrahieren Ziel: Wissen aus jeder Art von Daten zu gewinnen
27
Decision Cycle
Collect Prepare Examine Model Decide Act
28
Treiber für Big Data
Menschen Firmen Sensores & Beacons
29
Künsctliche Intelligence (KI)
Wissenschaft, Dinge intelligent zu machen Sammelbegriff für die Fähigkeit von Computern menschliche Aufgaben auszuführen Umfang umstritten, verändert sich ständig konzentiert sich auf Schaffug von intelligenten Maschinen
30
KI aktivitäten bsp
Speech recognition learning planing problem solving
31
Machine Learning (ML)
Ansatz zur Erreichung künstlciher Intelligenz durch Systee, die aus Erfahrungen lernen, um Muster in einem Datensatz zu finden Computer muster anahnd von Beispielen zu erkennen, anstatt sie mit regeln zu programmieren ist KI-Disziplin ermöglicht es Computern neue Situationen durch Analyse, Selbsttraining, Beobachtung und Erfahrung zu bewältigen
32
Machine Learning vorgehen
benötigt einige Daten lernt muster aus Daten arbeitet mit neuen unbekannten Daten schätzt welche neuen Daten wahrscheinlilch sind, basierend auf Schritt 2
33
Machine learning - bedeutsam?
ML lernt selbstständig aus übergebnene Daten kann für andere Dinge wiederverwendet werden
34
Deep Learing (DL)
Tehnik zur Implementierung von Machine Learning -> Deep Natural Networks (DNNs) Konzept: geschrieben Code Strukturen in Schichten angeordnet, erinnern lose dem menschlichen Gehirn, kann aus Mustern und Beispielen lernen Familie von Methoden die für ML verwendet wird Sammlung von Algorithmen, die in ML verwendet werden, um hochranginge Abstraktionen in Daten zu modellieren
35
Machine Learning 3 wichtigste Kategorien
Supervised Learning Unsupervised Learning Reinforcement leraning
36
Supervised Learning
Classification Regression
37
Unsupervised Learning
Clustering Dimensionality Reduction
38
Reinforcement Learinign bsp
Game AI Skill Acquistuin learning tools robot navigation real-time decision
39
ML Pipeline
Get Data Clean, Prepare & Manipulate Data Train Model Test Data Improve
40
KNN Algortihmus
K-Nearest-Neighbour für Klassifikation & Regression Idee: ähnliche DP liefern ähnliches Ergebniss wählt die k nächsten Nachbarn eines DP aus und klassifiziert DP anhand der Merheit der Klassifikation seiner NAchbar
41
KNN Pro
einfache Implementierung kann auf große Datenmengen angewendet werden
42
KNN Contra
Abhängigkeit von Wahl des Ks Sensitiv gegenüber Außreisern
43
MCAR
Missing Completely at Random Fehlen der Werte ist zufällig & nicht mit anderen Variablen im Datensatz verknüpft Keine Beziehung zwischen Fehlen der Werte & verbleibenden Variablen
44
MAR
Missing at Random Fehlen der Werte ist nicht zufällig, kann durch andere Variablen im Datensat erklärt werden Beziehung zwischen Fehlen der Werte & anderen Variablen im DS/anderen bekannten Daten
45
MNAR
Missing not at Randon Fehlen der Werte nicht zufällig, kann nicht durch andere Variablen erklärt werden keine Beziehung zwischen Fehlen der Werte und anderen Variablen
46
Umgang mit fehlenden Werten
Löschen der Kompletten Instanz (Zeile) Löschen des Attributes (Spalte) Qualitative Imputation des Wertes Imputation (ersetzen des Wertes)
47
Umgang mit fehlenden Werten - Qualitative Imputation des Wertes
fehlende Werte durch theoretische Werte ersetzen
48
Umgang mit fehlenden Werten - Imputation
Statitisches Ersetzen, wert durch wert eines statistischen Verfahrens ersetzten Modelbasiertes Ersetzen, Wert durch Wert aus einem Modell ersetzten
49
Umgang mit fehlenden Werten - Imputation - statistisch
Mean-/ Meds-/ Modimputation Multiple Imputation (mehrere Möglichkeiten in betracht ziehen) Hot-Deck-Imputation (ähnliche Werte werden genommen)
50
Umgang mit fehlenden Werten - Imputation - modelbasiert
Regression K-N-N Bayes
51
Metrik
Abstandsfunktion ordnet zwei Elemente (Punkte) einer Menge (Raum) einen nichtnegativen reellen Wert (Abstand) zu Jede Norm erzeugt eine Metrik
52
Norm
Abbildung in einem Vekrtorraum über Köper der reellen oder Komplexen Zahlen in Menge der nicht negativen reellen Zahlen erfüllt für alle Vektoren & Skalare folgende Axiome Definitheit Absolute Homogenität Dreiecksungleichung
53
Bekannteste Normen -> Metriken
P-Normen -> Mikowski-Metriken
54
Spezialfälle der Mikowski-Metriken
Absteigende Reihenfolge der Verwendungshäufigkeit: p = 2 Euklidische Metrik/Norm p = 1 Manhatten Metrik/Norm p = unendlich Maximus Metrik/Norm
55
Euklidische Metrik/Norm
Berechnung Abstand zweier Punkte über Satz des Pythagoras Länge der direkten geraden Strecke zwischen zwei Punkten
56
Manhatten Metrik/Norm
Berechnung Abstand zweier Punkte über Laufen bon orthogonalen Strecken in basis Dimensionen
57
unendlich Maximus Metrik/Norm
Nur Dimension mit Maximalem Abstand wird berücksichtig anderen Dimensionen werden vergessen
58
Trainingsdaten
Daten um Modell zu trainieren
59
Testdaten
Daten um Leistung des Modells zu bewerten (nach training) Modell wird auf diesen Daten getestet
60
Validierungsdaten
weiterer unabhängiger Datensazu um Modellhyperparameter abzustimmen Modell ompimierung
61
Anstelle des Durchschnitts trifft man immer wieder den Meidan an. Welchen wichtigen Vorteil hat er ggü. dem Durchschnitt?
Der Median ist weniger anfällig gegen Extemwerte
62
wenn ich einen Zeilenverktor (a1 a2 a3) mit einem Spaltenvektor (b1 b2 b3) multipliziere bekomme ich was
einen Wert a1b1+a2b2+a3b3
63
wenn ich einen Spaltenvektor (b1 b2 b3) mit einem Zeilenverktor (a1 a2 a3) multipliziere bekomme ich was?
eine 3x3 Matrix (b1a1 b1a2 b1a3 b2a1 b2a2 b2a3 b3a1 b3a2 b3b3)
64
Was gehört zur Deskriptiven Analyse
Data & Wissens Management Data Quality Monitoring Regressionsanalyse Modellierung "Was ist geschehen?"
65
Was gehört zu Prädiktiven Analyse
Data & Wissens Management Data Quality Monitoring Regressionsanalyse Modellierung Simulation "Was Könte geschehen?" -> deksrpitive Analyse (Was ist geschehen!)
66
Was gehört zu Präskiptiven Analyse
Data & Wissens Management Data Quality Monitoring Regressionsanalyse Modellierung Simulation Entscheidungspolitik "Bestes mögliches Ergebnis" -> deksrpitive Analyse (Was ist geschehen!) -> Prädiktive Analyse (was könnte geschehen!)
67
Welche der Vs in Big Data wachsen mit zunehmender Geschwindigkeit
Volume Velocity Variety
68
Welche Kräfte und Technologien sind die größten Antriebe für die zunehmende Beudeutung und das wachsen von Big Data
Menschen Unternehmen Sensoren und Signale
69
Der deduktive Ansatz der Daten Analyse ist?
Theorie-> Hypothese-> Beobachtung-> Bestätigung Top-Down
70
der induktive Ansatz der Daten Analyse ist?
Beobachtung-> Mustererkennung-> Hypothese-> Theorie Bottom-up
71
DBSCAN
Density Based Spatial Clusterin of Appliction with Noise dichtebasierter Clusteralgorithmus verbindet dicht zusammenliegende DP Ausreißer/Rauschen wird erkannt
72
OPTICS
Ordering Points to identify Cluster Structures
73
DBSCAN - e-Nachbarschaft
Epsilon-Nachbarschaft DP q der innerhalt epsilon Radius eines anderen Punktes p liegt
74
DBSCAN - Kernobjekt
Core wenn die e-Nachbarschaft eines Punktes aus der MinPts Anzahl besteht
75
DBSCAN - MinPts
Mindestanzahl an DP um ein Cluster zu bildern
76
DBSCAN dichtebestimmbar
DP der innerhalb der e-Nachbarschaft liegt
77
Grenzpunkt
Border wenn punkt dichtebestimmbar zu kernpunkt aber selbst kein Kernpunkt ist. liegt am Rand
78
DBSCAN - Rauschen
Noise wenn punkt nicht dichtebestimmt und kein kernpunkt ist
79
Ausssagenlogik Bedeutungen
^ -> und v -> oder und ¬ -> negiert
80
CAP - Theorem
Ein System (Datenbank, Hadoop) kann nicht gleichzeitif alle drei Eigenschaften erfüllen Consistency (Konsistenz) Availability (Verfügbarkeit) Partition Tolerance SQL - CA NoSQL - AP
81
CAP - Theorem - C
Consistency (Konsistenz) in verteilten Systemen muss sichergestellt werden, dass nach Transaktion alle Replikate des Datensatztes aktualisiert werden All nodes/clients see same data at same times
82
CAP - Theorem - A
Availability (Verfügbarkeit) Im Sinne von akzeptablen Antwortzeiten Alle Anfragen werden "schnell" beantwortet
83
CAP - Theorem - P
Partition Tolerance (Datenverarbeitung verteilit auf mehrere Maschinen) Ausfalltolerant der Rechner-/Servernetze System arbeitet auch bei Verlust von Nachrichten einzelner Netknoten/Partitionen des Netztes weiter
84
Clustering Methoden
Partitionierungsmethode Hierarchialmethode Density-based methodes/Dichtebasiert Modellbasiert
85
Anforderung an Clustering Algorithmus
Skalierbarkeit Fähigkeit mit vielfältigen Arten von Attributen umzugehen Robustheit gegen Rauschen/Ausreißer Fähigkeit mit hoch dimensionalen DS umzugehen
86
Warum wird Clustering gemacht?
Explorative Daten Analyse Binning/Gruppieren von Instanzen die sich ähnlich verhalten
87
Clustering
Unsupervised Learning Algorithmen soll nachtürlich vorgegebene Klassen entdecken Gruppierung instanzen in Gruppen mit ähnlichen Merkmalen
88
Klassifikation
Supervised Learning vordefinierte Klassen
89
Varianz
Maß für die Abweichung zum Mittelwert verwendung bei metrischen Variablen n = anzahl der Elemente (zb. punkte) di = z.b. Größe der Elemente d (mit strich) = durschnittliche Größe aller Elemente
90
Entropie
Zustandsgröße welche die Unordnung in einem System/Datensatz angibt Verwendung bei kategorialen Variablen
91
Norm
ist eine Abbildung von einem Vektorraum v über einen Körper K der reelen oder komplexen Zahlen in der menge der nicht negativen reelen Zahlen
92
Metrik
Abstandsfunktion
93
Dominante Werte
Werte die vorherschend sind, sodass andere Attribute keinen Einfluss mehr auf das Erbenis hätten Lösung: Standardisation Normalisation
94
Normierung - Standadisation
Methode zur Neuskalierung von Werten, die den Merkmalen der Standarnormalverteillung entsprechen
95
Normierung - Normalisierung
Ändern der Werte auf eine Standardskala Daten wernde zwischen 0 und 1 skaliert
96
Arten Metadaten
Deskriptive (Beschreiben Inhalt der Daten) Strukturelle (Info über Beziehung und Orga der Daten) Administrative (Info über Ersteller) Technische (Technische Infos)
97