Grundlagen Flashcards

Question 1

Q

Grenzen Sie die zentralen Aspekte der Bildverarbeitung, nämlich „Verbessern“, „Erkennen“, „Klassifizieren“, „Auswerten“ sowie Registrieren voneinander ab und erläutern Sie Anwendungsdomänen.

Answer

A

„Verbessern“: Wir wollen unsere „aufgezeichneten“ Daten verbessern oder ergänzen, weil keine Daten perfekt (Mischung aus realen InformaLonen und Einflüssen der Hardware) sind, sodass wir danach besser damit arbeiten können. Dies umfasst
1. Verbessern des Signal-Rausch-Verhältnisses
2. KontrastopLmierung
3. Baseline-Korrektur zB bei EKG
4. De-ConvoluLon (Beispiel: unscharfe Nummerntafel bei hoher Geschwindigkeit – den
Einfluss kann man herausrechnen)
„Erkennen“: Wir wollen Strukturen und Objekte erkennen, d.h. nach gewissen Mustern wollen wir BildinformaLonen gruppieren (z.B. Objekte vom Hintergrund trennen) und sie von Nachbarregionen mit unterschiedlichem Inhalt (à nicht zusammenhängend) abtrennen. Dazu gehört auch die SegmenLerung (à Unterteilung in Segmente also Gruppen).
Beispiele:
1. Mittels Grabcut kann ein Fußballer aus einer Aufnahme herausgeschni_en werden;
2. Gesichter können herausgetrennt werden;
3. Spracherkennung, Bilderkennung, Texterkennung
„Klassifizieren“: Die erkannten Objekte werden semanLschen Klassen zugeordnet, d.h. sie bekommen eine Bedeutung, weil sie interpreLert werden.
Beispiel:
1. Erkenne das eine ist ein Hund das andere ist ein Mensch
2. EmoLonen herauslesen aus menschlichen Gesichtern
3. Ableiten von Erkrankungen aus der Stimme (Prosodie)
„Auswerten“: erkannte Objekte werden vermessen, ich sammle InformaLonen über z.B. ein klassifiziertes Objekt.
Beispiel:
1. Körperhaltung des Fußballers im Spiel zur Analyse (Open-Pose-Body-Skeleton)
2. Digitale Forensik
3. Virtuelles Maßband (Hilfe fürs Vermessen von abgebildeten Objekten)
„Registrieren“: BildinformaLonen werden in Abgleich miteinander gebracht um etwas Visualisieren zu können, d.h. Bilder werden übereinander geschoben bis das Material kongruent ist
Beispiel:
1. Panoramabild (Image sLtching)
2. Abgleichen von Ist-Körperhaltung zu idealer Soll-Körperhaltung durch Bildabgleich
(Sensoren sind genauer zum Vergleich)

Question 2

Q

Erklären Sie die Begriffe „Abtasten“ und „Quantisierung“ bei der Diskretisierung von Signalen. Warum ist dies bei digitalen Bildern erforderlich? Durch welche Eigenschaften charakterisieren sich 2D und 3D Bilder (vgl. Laden im RAWFormat)?

Answer

A

Diskretsieren ist erforderlich um kontinuierliche Daten aus der realen Welt, durch endliche Daten abzubilden
Abtasten: zeitkonuierlich und zeitdiskret
Quantsieren: wertkonuierlich und wertdiskret (Rundung des analogen Wertes auf eine ganze Zahl, z.B. skalare Wert in Bildinformation)
Einschränkung:
Durch die Diskretisierung gehen gewisse Informationen verloren
Warum diskretisieren wir?
1.) Daten komprimieren, sodass Daten digital darstellbar sind(z.B.Speicherbedarf)
2.) Darstellen nur der relevanten Informationen,weil vieles aus der realen Welt für den Menschen per se nicht wahrnehmbar ist und somit auch nicht aufgezeichnet werden muss
2D / 3D Bilder:
1.) 2D(Pixel)- zwei natürliche Zahlen(x,y) ergeben einen skalaren Wert
2.) 3D(Voxel) - (drei natürliche Zahlen (x,y,z) ergeben einen skalaren Wert

3D Bild kann als Sequenz von 2D Bilder verstanden werden, wobei zur Evaluierung der Tiefe relevant ist zu wissen,
- Welcher Reihenfolge folgen die 2D Bilder
- Welchen Schichtabstand haben wir

RAW-Format:
1.) Hat ein eigenes Headerfile, mit Meta Informationen zur Aufnahme wie (Abmessung, Spacing, Ursprung und Orientierung des Koordinatensystems)
2.) Ist eine Byte-Sequenze
3.) Entspricht den unkomprimierten Daten der Aufnahme eines Kamerasystems

Question 3

Q

Führen Sie über das Abtast-Theorem von Nyquist aus. Wie feine Strukturen können in Bildern dargestellt werden. Geben Sie dazu ein Beispiel an und erläutern Sie Wellenlänge, Frequenz sowie Grenzwellenzahl. Was passiert mit feinen Strukturen, wenn ein Bild verkleinert wird?

Answer

A

Wellenlänge [𝝀]: Wellenlänge einer periodischen Struktur.
Frequenz [f]:
𝑓=1/𝜆
Frequenz ist die Anzahl der Wiederholungen einer periodischen Struktur in einer Einheitslänge (hier Pixel). Bezug ist 1 Pixel à wir reden von Ortsfrequenz
Grenzwellenzahl: die Grenzwellenzahl ist die Anzahl von Abtastungen pro Wellenperiode, die erforderlich ist, um ein Signal noch richtig abbilden / rekonstruieren zu können (d.h. welche Wellenzahl = 1/Wellenlänge)
Abtast-Theorem von Nyquist:
1.) 𝑓_sample ≥ 2 𝑓_max à Abtastfequenz muss mindestens doppelt so groß sein, wie die größte im Bild vorkommende Frequenz, sonst geht Bildinformation verloren, d.h. Signal kann nicht mehr eindeutig (verlustfrei) rekonstruiert werden.
Die kleinste darstellbare Struktur sind 2 Pixel (weil sie sich dann abwechseln, zB einmal rot dann weiß) Die größte im Bild darstellbare Struktur hat die Größe der Bilddimension.
Wenn das Bild verkleinert wird, verschwimmen feine Strukturen (– >partial volume effect).
Wenn wir zu grob abtasten, verlieren wir z.B. hochfrequente Infos wie Kanten und andere Details (merge auf einen Signalwert)
Beispiel: Abtasten einer Balken (=Linien)-Information in einem Bild

Question 4

Q

Vergleichen Sie die Farbmodelle RGB und CMY. Wobei handelt es sich um ein additives und wobei um ein subtraktives Farbmodell? Wo sind die Einsatzgebiete? Vergleichen Sie die Farbmodelle HSV und CIE lab. Wo liegen die Vorteile? Eignen sich diese Farbmodelle besser zur Farbmischung und warum?

Answer

A

RGB: ist ein addiLves Farbmodell (rot, grün, blau); wird auf dunklen Hintergrund addiLv angewandt, z.B. bei Monitoren, und die Farbe ergibt sich als LinearkombinaLon der drei Anteile und das Ergebnis wird heller, (d.h. alle drei Werte sind erforderlich für weiß, bei schwarz keiner) An einer PosiLon dargestellt durch einen skalaren Wert werden tatsächlich 3 Werte für RGB.
CMY: ist ein subtrakLves Farbmodell (cyan, magenta, yellow); Ausgangsfarbe ist weiß, und das Ergebnis wird dunkler, z.B. Drucken auf ein Bla_ Papier. Farben werden dabei so gemischt, dass sie dann am Blatt Papier die Farbe ergeben, die ich gerne hätte. Farbkomponenten werden subtrahiert.
Nachteil RGB und CMY: sind an Grundfarben gebunden und RGB ist zB nur eine Teilmenge von CIElab.
HSV (hue, saturation, value):
1.) Ist für den Menschen nachvollziehbar, weil er seine tatsächliche Farbe via 3 Komponenten darstellen kann
a. Helligkeit (schwarz / weiß wird dazu gemischt) b. Säogung (Grauwert wird dazu gemischt) c. Farbton
* 2.) Auch dies gleicht der menschlichen Farbwahrnehmung mehr als z.B. RGBM ischung.
* 3.) Dargestellt wird es über einen umgedrehten Kegel, entlang des Radius nach außen haben wir die Sättgung, entlang der Kegelhöhe haben wir die Helligkeit, wobei schwarz die Kegelspitze ist, und entsprechend Winkel des Kreisbodens haben wir den Farbwert
* 4.) Ich kann bei HSV z.B. Helligkeit und Sättgung separat einstellen, wenn sie mir wichtig sind, dass geht im RGB nicht, da geht alles auf einmal
CIElab
* 1.) 3D Farbmodell und sichtbare Farben liegen dort als bestimmter Farbbereich drinnen
* 2.) Ist für den Nutzer am besten, da es am nähesten am realen Farbverständnis des Menschen liegt. Der Mensch kann aber z.B. nicht wirklich intuitiv wissen, welche Farbe er bekommt,  wenn er RGB in gewissen Anteilen mischt.
* 3.) Ist dem menschlichen Farbempfinden nachempfunden (gleiche Abstände im Diagramm sind  gleiche Unterschiede in Farbwahrnehmung)
* 4.) Wird op als Referenzfarbe hergenommen – „so sollte es ausschauen“, weil es eben auch  Geräte unabhängige Ergebnisse liefern kann und der Mensch die Farbe eben überall gleich wahrnimmt
* 5.) Darstellung im 3D Farbmodell erfolgt über die Wellenlänge
* 6.) Im CIElab werden die Farbenwerte in einem 3D Farbraum angegeben, indem sie als Ortsvektor dargestellt sind. Gleiche Distanz = gleiche Wahrnehmungsunterschiede
* 7.) Farbechter und geräteunabhängiger Farbraum
* 8.) Gesättigte Farben liegen außen
HSV und CIELab sind beide für der menschlichen Farbwahrnehmung nachempfunden. HSV ist nicht kalibriert, CIELab ist kalibriert. HSV (hue, saturaLon, value ) CIElab (commission internaLonal de l’eclairage – L(uminanz), a(FarbposiLon Grün -Rot) (horizontale Achse des Farbmodells), b(FarbposiLon blau-gelb (vertikale Achse des Farbmodells)))
Für die Farbmischung eignet sich HSV am besten, weil es für den Menschen am intuitivsten ist, aber sowohl CIElab wie auch HSV sind bei Farbmischung über RGB und CMY zu empfehlen, weil sie der menschl. Farbwahrnehmung nachempfunden sind.

Question 5

Q

Auf welche drei Arten kann ein Farbbild in ein Graustufenbild transformiert werden? Erläutern Sie die Verfahren. Erläutern Sie den Funktions- und Mengenbegriff (Koordinaten) bei 2D Bildern.

Answer

A

Ein Graustufenbild kann transformiert werden über die
1.) Mittelwertsmethode G=(R+B+G)/3
2.) Die Luminosity Methode G=(0,21R+0,72G+0,07B)
3.) Die Helligkeits methode G=(min(R,G,B)+max(R,G,B))/2

Dabei beachtet die Luminosity-Methode, dass der Mensch grün besser wahrnimmt, und deshalb werden die Anteile RGB unterschiedlich gewichtet, und der Fokus ist, dass die Leuchtkraft beachtet wird bei der Umrechnung in Grauwerte. Dadurch wirkt das Ergebnis kontrastreicher, während der Einfluss unterschiedlicher Wahrnehmung z.B. bei der reinen Mittelung verloren geht.
Nachteil der Mittelwertsmethode ist, dass durch das Mitteln Schärfe und Kontrast verloren gehen.
Bei der Helligkeitsmethode soll die Helligkeit erhalten bleiben, und dabei wird die Helligkeit dahingehend berücksichLgt, dass der Mittelwert aus dem kleinsten und dem größten Wert gebildet wird. Das Ergebnis der Helligkeitsmethode bleibt weiter gefasst als jenes der Mittelwertsmethode und dadurch erhalten wir auch mehr Kontrast.
2D Bilder haben eine duale Natur: Sie können als math. Funktion dargestellt werden oder als Menge von möglichen Koordinaten.
Der Funktionsbegriff weist dabei als I(x,y) jedem Bildpunkt definiert durch x,y einen skalaren Wert zu. Die möglichen Koordinaten reichen dabei von 0 bis zur Breite oder Höhe des Bildes.
Als Menge kann man sich vorstellen, dass alle skalaren Werte auf einer Liste stehen, wobei die Position in der Liste klar definiert ist, durch die Kombination aus x,y und somit ist die Reihenfolge diese Zahlenpaare entscheidend. Daraus ergibt sich eine Menge C_i = c(x,y). D.h. ich fasse alle meine mathematischen Objekte die ich habe in eine Liste zusammen, und diese Liste ist meine Menge an Werten.

Ein Tupel ist eine Liste endlich vieler, nicht notwendigerweise unterschiedlicher Objekte. Dabei spielt, im Gegensatz zu Mengen, die Reihenfolge der Objekte eine Rolle. Es gibt verschiedene Möglichkeiten, Tupel formal als Mengen darzustellen. Tupel finden in vielen Bereichen der MathemaLk Verwendung, zum Beispiel als Koordinaten von Punkten oder als Vektoren in endlichdimensionalen Vektorräumen. (Wikipedia)

Grundlagen Flashcards

(5 cards)