Fragen ohne Markierung Flashcards

1
Q

Was sind Anwendungsgebiete von Data Science? (V01F10)

A

○ Vorhersage (Krankheitsausbrüche, Prävention)
○ Optimierung (Versorgungsprozesse)
○ Personalisierung (Behandlungsplan, Risikoermittlung)
○ Assistenz (Diagnoseempfehlung)
○ Intelligenz (Roboterassistenzsysteme)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Welche zwei großen Kategorien gibt es in Bezug auf Daten? (V01F29)

A

○ Offene Daten: Linked Open Data, Wissenschaftliche Daten (RKI), etc.
○ Interne Daten (Geschäftsdaten, medizinische Daten): Transaktionale Daten, Sensordaten

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Was ist Cross-Validierung (n-fold-Crossvalidation)? (V02F16)

A

○ Bei der Crossvalidation handelt es sich um eine Methode zur Teilung der Daten in Trainings- und Test-Daten. Die Daten werden in n Teile geteilt, wobei n-1 Teile für das Training und 1 Teil für den Test benutzt werden. Insgesamt gibt es n Trainings-Test-Durchläufe, sodass jeder der n Datenteile einmal für den Test verwendet wurde.
○ Dabei werden sozusagen mehrere (n) aufgeteilte Datensätze generiert. Der Teil, der dabei zum Testdatensatz wird, variiert jedes Mal (nicht zufällig, sondern iterativ). Somit werden die Entscheidungsmerkmale immer anders verteilt. Nun kann das verwendete System mit n Datensätzen trainiert und getestet und daraus eine durchschnittliche Genauigkeit berechnet werden.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Was ist Daten Parallelismus? (V02F18)

A

Daten werden auf Clusterknoten aufgeteilt, jeder Knoten hat eine lokale Kopie des geteilten Modells.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Was ist Modell-Parallelismus? (V02F18)

A

Modell wird auf verschiedene Knoten verteilt, keiner verarbeitet gesamte Daten.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Was ist der Hauptunterschied zwischen Data Models und Algoritmic Models? (V02F19)

A

○ Data Models sind nachvollziehbar, d.h. der Nutzer weiß wie das Ergebnis zustande kommt
○ Algorithmic Models sind sogenannte Black Boxen, es ist nicht klar warum das Ergebnis so ausfällt.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Was ist das Ziel von Clusterverfahren? (V03F11)

A

Erkennen und Bewerten von Clustern.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Was sind numerische Merkmale? (V03F13)

A

○ Es handelt sich um Zahlen, die den Datenpunkt beschreiben.
○ Es gibt eine klare Reihenfolge

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Was sind nominale Merkmale? (V03F14)

A

○ Bei nominalen Merkmalen handelt es sich um Wörter, die den Datenpunkt beschreiben.
○ Gibt keine klare Reihenfolge.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Welche agglomerative hierarchische Klassifikationsverfahren gibt es? (V03F20)

A

○ Single-Linkage-Verfahren
○ Complete-Linkage-Verfahren
○ Average-Linkage-Verfahren
○ Median-Verfahren
○ Zentroid-Verfahren
○ Ward-Verfahren

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Was ist die Basis für das Single-Linkage Verfahren? (V03F22)

A

Auf Basis der beiden nächsten Punkte werden zwei Cluster kombiniert.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Was ist die Basis für das Complete-Linkage-Verfahren? (V03F22)

A

Auf Basis der beiden weitesten entfernten Punkte werden zwei Cluster kombiniert.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Wofür wird das Single-Linkage-Verfahren hauptsächlich angewendet? (V03F31)

A

Zur Aufdeckung von Ausreißern

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Was sind Eigenschaften des Complete-Linkage-Verfahrens? (V03F38)

A

○ Tendenz zur Bildung kleiner, kompakter Gruppen (dilatierendes Verfahren), die häufig in sich erheblich homogener sein werden
○ Die Orientierung an den beiden maximal unähnlichsten Objekten kann dazu führen, dass eine Fusion zweier Cluster unterbleibt, auch wenn die mittlere Distanz zwischen den Objekten nicht notwendig eine merkliche Erhöhung der Heterogenität anzeigen würde.
○ Monotonieeigenschaft

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Was sind Eigenschaften des Average-Linkage-Verfahrens? (V03F44)

A

○ Konservatives Verfahren, das zwischen dem kontrahierenden Single-Linkage- Verfahren und dem dilatierenden Complete-Linkage-Verfahren eingeordnet werden kann,
○ Objekte zweier Gruppen müssen “im Mittel” ähnlich sein, damit es zu einer Fusion kommt. Größere Distanzen zwischen Objekten können hierbei durch geringere Distanzen nahe beieinander liegender Objekte kompensiert werden.
○ Monotonieeigenschaft

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Was ist das Ziel von Entscheidungsbaumverfahren? (V04F11)

A

Erzeugung eines Modells, durch welches unbekannte Datenobjekte bestimmten vorgegebenen Klassen zugeordnet werden können.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
17
Q

Was ist die Voraussetzung für Entscheidungsbaumverfahren? (V04F11)

A

Ein Datenbestand, bei dem für jeden Datensatz die zugehörige Klasse bekannt ist.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
18
Q

Wonach wird der Split ausgewählt? (V04F19)

A

○ Es wird der Split gewählt, der den größten Informationsgewinn (IG) bringt
○ Der Informationsgewinn ist am Größten, wenn sich der Entropie-Wert am wenigsten ändert

19
Q

Was ist Overfitting und was ist das Problem dabei? (V04F23)

A

○ Ist “auswendig lernen” von Trainingsdaten
○ Das Modell enthält zusätzliche (zu viele und z.T. irrelevante) erklärende Variablen (zu viele/tiefe Äste)
○ Problem: Das Modell funktioniert nur auf den Trainingsdaten

20
Q

Welche Strategien gibt es zur Reduzierung des Overfittings-Problems? (V04F23)

A

○ Entfernen von fehlerhaften Trainingsdaten
○ Reduzierung der Größe der Trainingsmenge
○ Transformation der Trainingsdaten, z. B. Dimensionsreduktion (z. B. Feature Selection)
○ Beschränkung der maximal erlaubte Homogenität in Knoten
○ Mindestanzahl von Datensätzen in den Knoten
○ Pruning (Äste nach bestimmten Vorgaben „beschneiden/abschneiden“)

21
Q

Was ist Pruning? (V04F24)

A

Ist das nachträgliche Modifizieren des Entscheidungsbaumes mit dem Ziel die Fehlklassifikationsquote auf unbekannten Datensätzen zu verringern

22
Q

Was ist das wesentliche Merkmal eines KNNs? (V05F13)

A

Die Lernfähigkeit der Netze durch eine Anpassung der Verbindungsstärke zwischen Neuronen über einen vorgegebenen Regelmechanismus (Gewichtsanpassungen).

23
Q

Was sind Gemeinsamkeiten von Künstlichen und Biologischen NNs? (V05F18)

A

○ Massive Parallelität der Neuronen
○ Relativ einfache Elemente: Neuronen verarbeiten die Aktivierungen der Vorgängerneuronen und die Stärke der Verbindung zu einer Ausgabe.
○ Die Neuronen sind durch gewichtete Verbindungen (biologisch: Synapsen) miteinander verbunden
○ Die Verbindungsgewichte bei künstlichen Neuronen sind modifizierbar. Das entspricht der Plastizität der Synapsen beim biologischen Vorbild.
○ Ein Neuron ist mit sehr vielen anderen Neuronen verbunden (hohe Konnektivität).

24
Q

Was besagt die Hebbsche Lernregel? (V05F24)

A

dass sich die Gewichtung der Synapse verstärkt, wenn Neuronen vor oder nach der Synapse gleichzeitig aktiv sind.

25
Q

In welche Schichten lässt sich ein KNN unterteilen? (V05F35)

A

○ Eingabeschicht
○ Verdeckte (versteckte) Schichten
○ Ausgabeschicht

26
Q

Was sind Merkmale einer vorwärts gerichteten KNNs? (V05F36)

A

○ Drei Schicht-Arten: Input, Hidden, Output
○ Sind nur Neuronen verschiedener Schichten miteinander verbunden (Keine Verbindungen innerhalb einer Schicht)
○ Output vorheriger Neuronen werden über gewichtete Verbindungen an Folgeneuronen weitergegeben
○ Impulse werden nur in eine Richtung weitergegeben, es gibt keine Schleifen

27
Q

Was können Lernregeln umfassen? (V05F38)

A

○ Veränderung der Netztopologie
○ Modifikation der Parameter der Neuronen
○ Veränderung der Gewichte

28
Q

Warum Natural language Processing im Bereich Healthcare? (V06F04FF)

A

○ Verbesserung und Beschleunigung der klinischen Dokumentation und Abrechnung
○ Unterstützung der Kohortenanalyse bei Patienten
○ Unterstützung bei der Entscheidungsfindung
○ Passendere und wirksamere medikamentöse Behandlung
○ Hochqualifizierte Forschung im Bereich Healthcare
○ Automatisierte Zusammenfassung von Texten

29
Q

Welche Ambiguitäten gibt es? (V06F39)

A

○ Phonetische Ambiguität: gleiche Aussprache, verschiedene Schreibweise
○ Orthographische Ambiguität: gleiche Schreibweise, verschiedene Aussprache und Bedeutung
○ Lexikalische Ambiguität: Wörter haben gleiche Aussprache und Schreibweise, meinen aber was Unterschiedliches
○ Morphologische Ambiguität: Fokus kann auf verschiedenen Wörtern liegen

30
Q

Wie ist Information Extraction (IE) definiert? (V06F56)

A

Ist der Prozess der Extraktion von strukturierten Informationen (z. B. Datenbank Tabellen) aus unstrukturierten, maschinenlesbaren Dokumenten (z. B. Webdokumente, Text).

31
Q

Welche “Arten” des Web Mining gibt es? (V06F57)

A

○ Web content mining: Inhalt wie Text, Bilder, Videos
○ Web structure mining: Verlinkungen zwischen Seiten
○ Web usage mining: Web Nutzungsdaten aus Logs

32
Q

Was ist Teil der Information Extraction? (V06F62F)

A

○ Felder Identifizieren (Named-Entity-Recognition)
○ Beziehungen zwischen Feldern verstehen
○ Normalization und Deduplication

33
Q

Wie kann Information Extraction als Familie von Techniken gesehen werden? (V06F67)

A

Information Extraction = Segmentierung + Klassifizierung + Assoziieren + Clustering

34
Q

Welche Form der Information ist für NLP am schwersten zu analysieren? (V06F70)

A

Eine Tabelle: sie ist zwar für den Menschen strukturiert aber Informationen, die der Computer zum Einordnen braucht sind dadurch verloren gegangen

35
Q

Wie ist der Ablauf einer systematischen Untersuchung? (V08F09)

A

○ 1 Inhaltliche Fragestellung
○ 2 Präzisierung der Begriffe; Formulierung der Fragestellung in formalisierter, statistischer Fachsprache
○ 3 Stichprobenauswahl und Datenerhebung
○ 4 Auswahl geeigneter statistischer Methoden
○ 5 Anwendung der statistischen Methoden; Darstellung der Ergebnisse
○ 6 Inhaltliche Interpretation der Ergebnisse
(Abbildung in Unterlagen)

36
Q

Was sollte beim Betrachten einer Grafik genau angesehen werden? (V08F12)

A

○ Beschriftung
○ Zahlen
○ Skala
○ Kontext
○ Welche Geschichte möchte die Grafik erzählen?

37
Q

Womit befasst sich die Datenwissenschaft? (V08F15)

A

Befasst sich mit allen praktischen und theoretischen Aspekten, die bei der Gewinnung, Aufbereitung, Analyse und Interpretation von Daten eine Rolle spielen

38
Q

Was ist ein Zufallsvorgang? (V08F16)

A

○ Ist ein Vorgang mit mehreren möglichen Ergebnissen, dessen Ausgang (korrektes Ergebnis) nicht exakt vorhersagbar (erklärbar) ist
○ Ist ein nicht exakt vorhersehbarer Vorgang mit mehreren möglichen Ergebnissen

39
Q

Welche Arten von Stichproben gibt es? (V08F19)

A

○ Reale Stichprobe
○ Hypothetische Stichprobe

40
Q

Was ist eine reale Stichprobe? (V08F19)

A

Ein Statistisches Problem entsteht durch eine “echte Stichprobe”

41
Q

Was ist eine hypothetische Stichprobe? (V08F19)

A

○ Ein statistisches Problem entsteht durch anderweitige Nichtvorhersagbarkeit
○ Bsp. Experiment mit der Wuchshöhe von Pflanzen, Wertpapierentwicklung

42
Q

Was ist ein Statistisches Modell? (V08F20)

A

○ Eine maßgeblich auf Wahrscheinlichkeitsrechnung basierende mathematische Beschreibung wie zufallsabhängige Daten in einer bestimmten Situation zustande kommen
○ Zugewinn: Entscheidungen und Aussagen können mit Irrtums- und Sicherheitswahrscheinlichkeiten angegeben werden

43
Q

Worauf beruht ein empirischer (datengestützter) Kalkül? (V08F24)

A

Berechnungen beruhen auf konkret vorliegenden Daten

44
Q

Worauf beruht ein theoretischer (stochastischer) Kalkül? (V08F24)

A

Berechnungen beruhen auf einem Wahrscheinlichkeitskalkül (auf theoretische Überlegungen)