Explorative Datenanalyse Flashcards

(12 cards)

1
Q

Beschreibe was mit Sampling im Sinne der Explorativen Datenanalyse gemeint ist

A

Sampling = Stichproben ziehen. Ab einer Sampling Size von 30 hat man eine aussagekräftige Stichprobe

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Was ist der Fit eines Modells und in welche Katerogien wird er unterschieden?

A

Fit = wie stark unser Modell unsere Daten nachbildet.
underfitted: Das Modell kann die Komplexität der Daten nicht nachbilden
overfitted: Das Modell ist ZU genau und benutzt mehr Parameter als notwendig. Overfittete Modelle können zwar Trainingsdaten perfekt nachbilden, bei neuen Daten kommt es aber zu Problemen

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Wie werden Modelle trainiert? Nenne 2 Methoden

A

Beim Trainieren von Modellen wird zwischen Trainings- und Testdaten unterschieden. Wie diese aufgeteilt werden (50/50, 80/20) kommt auf die Sample Size, Forschungsfrage etc. an

1) Leave on out Cross Validation:
1 Datensatz wird ausgelassen und mit den anderen das Modell trainiert. Das wird n-Mal wiederholt

2) k-Fold Cross Validation: Der Datensatz wird in k-viele “Folds” aufgeteilt. Dann wird das Modell mit einem k-Teil getestet und mit den restlichen k-Teilen trainiert. Dies wiederholt man bis alle k-Teile getestet wurden

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Wie lassen sich Modelle in einem Satz beschreiben?

A

“Modelle sind Funktionen-Approximierer”
Daten + Algorithmus = Modell.
Qualität und Quantität der Daten hat einen riesen Einfluss auf das Modell

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Nenne Chancen und Risiken von Modell-basierter Entscheidungsfindung

A

Chancen:
Modelle können mit großen Entscheidungsumgebungen zurechtkommen
Modelle können auf einer detailliert kleinen Basis agieren
Modelle können neutral agieren

Risiken:
ständige Anpassung der Modell-Algos. ist wichtig
Reflektion der Annahmen ist notwendig
Modelle tun das, was wir ihnen lernen

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Worin unterscheiden sich Symbolische und sub-symbolische Ansätze bei Maschine Learning Algorithmen?

A

Symbolisch:
Algo. arbeitet deterministisch
Das resultierende Modell ist 100%ig erklärbar

sub-symbolisch:
Algo. arbeitet mit Zufälligkeit
Resultierendes Modell nicht voll erklärbar

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Was sind die Unterschiede zwischen Supervised und Unsupervised Learning?

A

Supervised:
Der Algo. lernt von Input-Daten
Wir geben ihn an, welche Outputs wir erwarten

Unsupervised:
Der Algo. lernt von Input Daten.
Aber er entscheidet selbständig was für Muster/Strukturen die Daten haben und hat keine Infos bzgl. der erwarteten Outputs

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Unterscheide zwischen eine Regeressions-Problem und Classifiation Problem. Was kann un/supervised gelöst werden?

A

Regressions-Problem:
Man versucht einen metrischen Wert für ein Objekt vorherzusagen. Geht NUR supervised. Bsp: Einkommen eines Kunden

Klassifikations-Problem:
Man versucht eine nominale Klasse von einem Objekt vorherzusagen.
Geht supervised UND unsupervised
Bsp: Geschlecht eines Kunden

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Was ist Classification, Regression und Clustering? Was ist mit Supervised/Unsupervised Learning möglich?

A

Classification: sortiert Daten in bekannte Schubladen –> Supervised
Regression: sagt eine exakte Zahl auf einer Skala voraus –> supervised
Clustering: schaut sich einen Haufen unsortierter Daten an und bildet von selbst sinnvolle Grüppchen (z.B. “kalte Tage”, “milde Tage”, “heiße Tage”), ohne dass man ihm vorher sagt, was “kalt” oder “heiß” ist. –> Unsupervised

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Welche 2 Arten von Unsupervised Learning gibt es?

A

1) Clustering: wird benutzt um ähnliche Tuples in einem Datensatz zu finden

2) Dimension Reduction: Wird benutzt um die Anzahl der Dimensionen in einem Datensatz zu reduzieren

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Wie funktioniert das hierachische Clustering (Grundzüge reichen)

A

Hierachisches Clustering:
bottom up –> jeder Datenpunkt beginnt als eigenes kl. Cluster, das dann zu größeren zsm. geführt wird.
Wichtig dabei ist die Distanz zw. Clustern
Kann ohne Kenntnisse über die Anzahl der Cluster angewendet werden.
für kleinere Datensätze

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Wie funktioniert das k-means Clustering (Grundzüge reichen)

A

Top Down –> Zuerst muss die Anzahl der Cluster definiert werden.
für große Datensätze
Iterativer Prozess:
1) k Startzentroide werden random ausgewählt
2) Zuweisung jeden Datentypen zum nächsten Zentrum
3) Berechnung neuer Zentroiden
4) Wiederholung bis die Cluster stabil sind

How well did you know this?
1
Not at all
2
3
4
5
Perfectly