Fragen ohne Markierung Flashcards by Deleted Deleted

Was sind Anwendungsgebiete von Data Science? (V01F10)

○ Vorhersage (Krankheitsausbrüche, Prävention)
○ Optimierung (Versorgungsprozesse)
○ Personalisierung (Behandlungsplan, Risikoermittlung)
○ Assistenz (Diagnoseempfehlung)
○ Intelligenz (Roboterassistenzsysteme)

How well did you know this?

Not at all

Perfectly

Welche zwei großen Kategorien gibt es in Bezug auf Daten? (V01F29)

○ Offene Daten: Linked Open Data, Wissenschaftliche Daten (RKI), etc.
○ Interne Daten (Geschäftsdaten, medizinische Daten): Transaktionale Daten, Sensordaten

How well did you know this?

Not at all

Perfectly

Was ist Cross-Validierung (n-fold-Crossvalidation)? (V02F16)

○ Bei der Crossvalidation handelt es sich um eine Methode zur Teilung der Daten in Trainings- und Test-Daten. Die Daten werden in n Teile geteilt, wobei n-1 Teile für das Training und 1 Teil für den Test benutzt werden. Insgesamt gibt es n Trainings-Test-Durchläufe, sodass jeder der n Datenteile einmal für den Test verwendet wurde.
○ Dabei werden sozusagen mehrere (n) aufgeteilte Datensätze generiert. Der Teil, der dabei zum Testdatensatz wird, variiert jedes Mal (nicht zufällig, sondern iterativ). Somit werden die Entscheidungsmerkmale immer anders verteilt. Nun kann das verwendete System mit n Datensätzen trainiert und getestet und daraus eine durchschnittliche Genauigkeit berechnet werden.

How well did you know this?

Not at all

Perfectly

Was ist Daten Parallelismus? (V02F18)

Daten werden auf Clusterknoten aufgeteilt, jeder Knoten hat eine lokale Kopie des geteilten Modells.

How well did you know this?

Not at all

Perfectly

Was ist Modell-Parallelismus? (V02F18)

Modell wird auf verschiedene Knoten verteilt, keiner verarbeitet gesamte Daten.

How well did you know this?

Not at all

Perfectly

Was ist der Hauptunterschied zwischen Data Models und Algoritmic Models? (V02F19)

○ Data Models sind nachvollziehbar, d.h. der Nutzer weiß wie das Ergebnis zustande kommt
○ Algorithmic Models sind sogenannte Black Boxen, es ist nicht klar warum das Ergebnis so ausfällt.

How well did you know this?

Not at all

Perfectly

Was ist das Ziel von Clusterverfahren? (V03F11)

Erkennen und Bewerten von Clustern.

How well did you know this?

Not at all

Perfectly

Was sind numerische Merkmale? (V03F13)

○ Es handelt sich um Zahlen, die den Datenpunkt beschreiben.
○ Es gibt eine klare Reihenfolge

How well did you know this?

Not at all

Perfectly

Was sind nominale Merkmale? (V03F14)

○ Bei nominalen Merkmalen handelt es sich um Wörter, die den Datenpunkt beschreiben.
○ Gibt keine klare Reihenfolge.

How well did you know this?

Not at all

Perfectly

Welche agglomerative hierarchische Klassifikationsverfahren gibt es? (V03F20)

○ Single-Linkage-Verfahren
○ Complete-Linkage-Verfahren
○ Average-Linkage-Verfahren
○ Median-Verfahren
○ Zentroid-Verfahren
○ Ward-Verfahren

How well did you know this?

Not at all

Perfectly

Was ist die Basis für das Single-Linkage Verfahren? (V03F22)

Auf Basis der beiden nächsten Punkte werden zwei Cluster kombiniert.

How well did you know this?

Not at all

Perfectly

Was ist die Basis für das Complete-Linkage-Verfahren? (V03F22)

Auf Basis der beiden weitesten entfernten Punkte werden zwei Cluster kombiniert.

How well did you know this?

Not at all

Perfectly

Wofür wird das Single-Linkage-Verfahren hauptsächlich angewendet? (V03F31)

Zur Aufdeckung von Ausreißern

How well did you know this?

Not at all

Perfectly

Was sind Eigenschaften des Complete-Linkage-Verfahrens? (V03F38)

○ Tendenz zur Bildung kleiner, kompakter Gruppen (dilatierendes Verfahren), die häufig in sich erheblich homogener sein werden
○ Die Orientierung an den beiden maximal unähnlichsten Objekten kann dazu führen, dass eine Fusion zweier Cluster unterbleibt, auch wenn die mittlere Distanz zwischen den Objekten nicht notwendig eine merkliche Erhöhung der Heterogenität anzeigen würde.
○ Monotonieeigenschaft

How well did you know this?

Not at all

Perfectly

Was sind Eigenschaften des Average-Linkage-Verfahrens? (V03F44)

○ Konservatives Verfahren, das zwischen dem kontrahierenden Single-Linkage- Verfahren und dem dilatierenden Complete-Linkage-Verfahren eingeordnet werden kann,
○ Objekte zweier Gruppen müssen “im Mittel” ähnlich sein, damit es zu einer Fusion kommt. Größere Distanzen zwischen Objekten können hierbei durch geringere Distanzen nahe beieinander liegender Objekte kompensiert werden.
○ Monotonieeigenschaft

How well did you know this?

Not at all

Perfectly

Was ist das Ziel von Entscheidungsbaumverfahren? (V04F11)

Erzeugung eines Modells, durch welches unbekannte Datenobjekte bestimmten vorgegebenen Klassen zugeordnet werden können.

How well did you know this?

Not at all

Perfectly

Was ist die Voraussetzung für Entscheidungsbaumverfahren? (V04F11)

Ein Datenbestand, bei dem für jeden Datensatz die zugehörige Klasse bekannt ist.

How well did you know this?

Not at all

Perfectly

Wonach wird der Split ausgewählt? (V04F19)

Study These Flashcards

○ Es wird der Split gewählt, der den größten Informationsgewinn (IG) bringt
○ Der Informationsgewinn ist am Größten, wenn sich der Entropie-Wert am wenigsten ändert

Was ist Overfitting und was ist das Problem dabei? (V04F23)

Study These Flashcards

○ Ist “auswendig lernen” von Trainingsdaten
○ Das Modell enthält zusätzliche (zu viele und z.T. irrelevante) erklärende Variablen (zu viele/tiefe Äste)
○ Problem: Das Modell funktioniert nur auf den Trainingsdaten

Welche Strategien gibt es zur Reduzierung des Overfittings-Problems? (V04F23)

Study These Flashcards

○ Entfernen von fehlerhaften Trainingsdaten
○ Reduzierung der Größe der Trainingsmenge
○ Transformation der Trainingsdaten, z. B. Dimensionsreduktion (z. B. Feature Selection)
○ Beschränkung der maximal erlaubte Homogenität in Knoten
○ Mindestanzahl von Datensätzen in den Knoten
○ Pruning (Äste nach bestimmten Vorgaben „beschneiden/abschneiden“)

Was ist Pruning? (V04F24)

Study These Flashcards

Ist das nachträgliche Modifizieren des Entscheidungsbaumes mit dem Ziel die Fehlklassifikationsquote auf unbekannten Datensätzen zu verringern

Was ist das wesentliche Merkmal eines KNNs? (V05F13)

Study These Flashcards

Die Lernfähigkeit der Netze durch eine Anpassung der Verbindungsstärke zwischen Neuronen über einen vorgegebenen Regelmechanismus (Gewichtsanpassungen).

Was sind Gemeinsamkeiten von Künstlichen und Biologischen NNs? (V05F18)

Study These Flashcards

○ Massive Parallelität der Neuronen
○ Relativ einfache Elemente: Neuronen verarbeiten die Aktivierungen der Vorgängerneuronen und die Stärke der Verbindung zu einer Ausgabe.
○ Die Neuronen sind durch gewichtete Verbindungen (biologisch: Synapsen) miteinander verbunden
○ Die Verbindungsgewichte bei künstlichen Neuronen sind modifizierbar. Das entspricht der Plastizität der Synapsen beim biologischen Vorbild.
○ Ein Neuron ist mit sehr vielen anderen Neuronen verbunden (hohe Konnektivität).

Was besagt die Hebbsche Lernregel? (V05F24)

Study These Flashcards

dass sich die Gewichtung der Synapse verstärkt, wenn Neuronen vor oder nach der Synapse gleichzeitig aktiv sind.

In welche Schichten lässt sich ein KNN unterteilen? (V05F35)

○ Eingabeschicht ○ Verdeckte (versteckte) Schichten ○ Ausgabeschicht

Was sind Merkmale einer vorwärts gerichteten KNNs? (V05F36)

○ Drei Schicht-Arten: Input, Hidden, Output ○ Sind nur Neuronen verschiedener Schichten miteinander verbunden (Keine Verbindungen innerhalb einer Schicht) ○ Output vorheriger Neuronen werden über gewichtete Verbindungen an Folgeneuronen weitergegeben ○ Impulse werden nur in eine Richtung weitergegeben, es gibt keine Schleifen

Was können Lernregeln umfassen? (V05F38)

○ Veränderung der Netztopologie ○ Modifikation der Parameter der Neuronen ○ Veränderung der Gewichte

Warum Natural language Processing im Bereich Healthcare? (V06F04FF)

○ Verbesserung und Beschleunigung der klinischen Dokumentation und Abrechnung ○ Unterstützung der Kohortenanalyse bei Patienten ○ Unterstützung bei der Entscheidungsfindung ○ Passendere und wirksamere medikamentöse Behandlung ○ Hochqualifizierte Forschung im Bereich Healthcare ○ Automatisierte Zusammenfassung von Texten

Welche Ambiguitäten gibt es? (V06F39)

○ Phonetische Ambiguität: gleiche Aussprache, verschiedene Schreibweise ○ Orthographische Ambiguität: gleiche Schreibweise, verschiedene Aussprache und Bedeutung ○ Lexikalische Ambiguität: Wörter haben gleiche Aussprache und Schreibweise, meinen aber was Unterschiedliches ○ Morphologische Ambiguität: Fokus kann auf verschiedenen Wörtern liegen

Wie ist Information Extraction (IE) definiert? (V06F56)

Ist der Prozess der Extraktion von strukturierten Informationen (z. B. Datenbank Tabellen) aus unstrukturierten, maschinenlesbaren Dokumenten (z. B. Webdokumente, Text).

Welche "Arten" des Web Mining gibt es? (V06F57)

○ Web content mining: Inhalt wie Text, Bilder, Videos ○ Web structure mining: Verlinkungen zwischen Seiten ○ Web usage mining: Web Nutzungsdaten aus Logs

Was ist Teil der Information Extraction? (V06F62F)

○ Felder Identifizieren (Named-Entity-Recognition) ○ Beziehungen zwischen Feldern verstehen ○ Normalization und Deduplication

Wie kann Information Extraction als Familie von Techniken gesehen werden? (V06F67)

Information Extraction = Segmentierung + Klassifizierung + Assoziieren + Clustering

Welche Form der Information ist für NLP am schwersten zu analysieren? (V06F70)

Eine Tabelle: sie ist zwar für den Menschen strukturiert aber Informationen, die der Computer zum Einordnen braucht sind dadurch verloren gegangen

Wie ist der Ablauf einer systematischen Untersuchung? (V08F09)

○ 1 Inhaltliche Fragestellung ○ 2 Präzisierung der Begriffe; Formulierung der Fragestellung in formalisierter, statistischer Fachsprache ○ 3 Stichprobenauswahl und Datenerhebung ○ 4 Auswahl geeigneter statistischer Methoden ○ 5 Anwendung der statistischen Methoden; Darstellung der Ergebnisse ○ 6 Inhaltliche Interpretation der Ergebnisse (Abbildung in Unterlagen)

Was sollte beim Betrachten einer Grafik genau angesehen werden? (V08F12)

○ Beschriftung ○ Zahlen ○ Skala ○ Kontext ○ Welche Geschichte möchte die Grafik erzählen?

Womit befasst sich die Datenwissenschaft? (V08F15)

Befasst sich mit allen praktischen und theoretischen Aspekten, die bei der Gewinnung, Aufbereitung, Analyse und Interpretation von Daten eine Rolle spielen

Was ist ein Zufallsvorgang? (V08F16)

○ Ist ein Vorgang mit mehreren möglichen Ergebnissen, dessen Ausgang (korrektes Ergebnis) nicht exakt vorhersagbar (erklärbar) ist ○ Ist ein nicht exakt vorhersehbarer Vorgang mit mehreren möglichen Ergebnissen

Welche Arten von Stichproben gibt es? (V08F19)

○ Reale Stichprobe ○ Hypothetische Stichprobe

Was ist eine reale Stichprobe? (V08F19)

Ein Statistisches Problem entsteht durch eine "echte Stichprobe"

Was ist eine hypothetische Stichprobe? (V08F19)

○ Ein statistisches Problem entsteht durch anderweitige Nichtvorhersagbarkeit ○ Bsp. Experiment mit der Wuchshöhe von Pflanzen, Wertpapierentwicklung

Was ist ein Statistisches Modell? (V08F20)

○ Eine maßgeblich auf Wahrscheinlichkeitsrechnung basierende mathematische Beschreibung wie zufallsabhängige Daten in einer bestimmten Situation zustande kommen ○ Zugewinn: Entscheidungen und Aussagen können mit Irrtums- und Sicherheitswahrscheinlichkeiten angegeben werden

Worauf beruht ein empirischer (datengestützter) Kalkül? (V08F24)

Berechnungen beruhen auf konkret vorliegenden Daten

Worauf beruht ein theoretischer (stochastischer) Kalkül? (V08F24)

Berechnungen beruhen auf einem Wahrscheinlichkeitskalkül (auf theoretische Überlegungen)

Fragen ohne Markierung Flashcards

(44 cards)