Modul 5 - Dateiorganisation und Zugriffsstrukturen Flashcards

Question

Aufbau der Hauptdatei:

Answer 1

Alle Datensätze werden bezüglich einer Attributkombination sequenziell gespeichert

Answer 2

``` Indexdatei kann aus vielen Seiten bestehen o Verkettete Liste von Seiten (kennt nächste aber nicht vorherige) o Diese Indexseiten müssen sequenziell durchsucht werden -> kann zu Problemen führen ```

Answer 3

Optional: Indexdatei wieder indexsequentiell verwalten => Zweistufiger Index • Index zweiter Stufe kann wieder indexsequentiell organisiert sein usw. => mehrstufiger Index • Idealerweise: Index höchster Stufe nur noch eine Seite • So auch in der Wurzel der Baumstruktur keine sequenzielle Suche über mehrere Seiten benötigt

Answer 4

Lookup (bei einstufiger Indexdatei): • Sucht einen Datensatz zum Zugriffsattributwert w • Indexdatei wird sequenziell durchlaufen • Gesucht wird einen Datensatz zum Zugriffsattributwert w • Indexdatei wird sequenziell durchlaufen und sucht Satz (v1 , s) (Attributwert v1 , Satz s) mit v1 ≤ w • Mögliche Fälle: o Nächste Satz (v2 , s‘) im Index hat v2 > w: • => Satz mit Attributwert w ist auf Seite s gespeichert (wenn vorhanden) o Satz (v1 , s) ist der letzte Satz der Indexdatei: • => Satz mit Attributwert w muss auf Seite s gespeichert sein (wenn vorhanden) • „(v1 , s) „überdeckt“ Zugriffsattributwert w“ Insert (bei einstufiger Indexdatei): • Zunächst: mit lookup Seite finden o Auf welcher Seite müsste der Datensatz gespeichert werden • Falls Platz: o Satz wird sortiert in der gefundene Seite gespeichert • Falls kein Platz: o Neue Seite von der Freispeicherverwaltung holen o Sätze der „zu vollen“ Seite können gleichmäßig auf alte und neue Seite verteilt werden o Indexeintrag für neue Seite delete: • Zunächst mit lookup Seite finden • Satz auf Seite löschen (Löschbit auf 0) • Erster Satz auf Seite => Index anpassen • Falls Seite nach Löschen leer => Seite an Freispeicherverwaltung zurück, Index anpassen

Answer 5

Bei stark wachsenden Dateien: o Zahl der Indexseiten wächst o Suche in den linear verketteten Indexseiten kann ineffizient werden o (Lösung: mehrstufiger Index) • Stark schrumpfende Dateien: nur zögernde Verringerung der Index- und Hauptdatei-Seiten: o Freier Platz wird erst zurück gegeben an Freispeicherverwaltung wenn ganze Seite leer ist • Nach vielen Änderungsoperationen: o Unausgeglichene Seiten in der Hauptdatei • Neue Seite -> Datensätze werden verteilt -> viel Freiplatz • Datensatz löschen -> freier Platz auf der Seite • Unnötig hoher Speicherplatzbedarf o Zu lange Zugriffszeit

Answer 6

(Daten sind indexiert abgelegt, aber der Zugriffspfad (Index) ist nicht notwendigerweise sequentiell) • Zur Unterstützung von Sekundärschlüsseln einer Relation • Verschiedene Zugriffpfade dieser Form pro Datei möglich (über verschiedenen Sekundärschlüssel) • Einstufig oder mehrstufig: höhere Indexstufen werden wieder indexsequentiell organisiert

Answer 7

Zu jedem Satz der Hauptdatei: ein Satz (w, s) in der Indexdatei: o (w Sekundärschlüsselwert, s zugeordnete Seite). • Sekundärschlüsselwert kann mehrfach vorkommen: o entweder für ein w mehrere Sätze in die Indexdatei • Sortierung der Indexdatei zunächst nach Sekundärschlüsselwerten, dann nach Seitenadressen o oder für ein w Liste von Hauptdatei-Adressen

Answer 8

• Weitgehend analog zu den Operationen bei indexsequenziellen Dateien • Lookup: o Suchen in Indexdatei nach Sekundärschlüsselwert w o w kann mehrfach auftreten: Seiten der ermittelten Seitenadressen müssen dann komplett durchsucht werden • Insert: o Zunächst Lookup o Einfügen in Hauptdatei o Anpassen der Indexdateien Delete: o Zunächst Lookup o Löschen in Hauptdatei o Indexeintrag entfernen

Answer 9

* Stufenanzahl (Index) dynamisch verändern * Wichtigste Baumverfahren: B-Bäume und ihre Varianten * B-Baum-Varianten Grundtechnik in allen Datenbanksystemen

Answer 10

• Daten in Hashtabelle gespeichert • Praxis: Tabelle als Array (Reihe) • Hashfunktion = Mathematische Funktion, berechnet zu jedem Datensatz einen Hashwert: o Schlüssel des Objektes zum berechnen des Hashwertes o Hashwert wird als Adresse (Bucket) in der Tabelle verwendet o Hashwert basiert nur auf dem Wert des Zugriffsschlüssels • Idealfall: jedes Objekt ein eigenes Bucket • Hashfunktionen müssen aber nicht eindeutig sein, zwei verschiedene Objekte können denselben Hashwert (Bucket) haben = Kollision • Kollision benötigt spezielle Behandlung

Answer 11

• Suchen: oZunächst aus Suchschlüssel Hashwert berechnen o Hashwert bestimmt Bucket des gesuchten Datenobjektes o Kollision => direkter Vergleich des Suchschlüssels mit den Objekten

Answer 12

Einsatz als Datenbankindex: • Schlüsselwerte werden auf Bucket-Adressen abgebildet • Statt Positionen in einem Array: Hintergrundseiten als Speicherplatz • Bucket = Speicherbereich von ein oder mehreren Seiten • Auch Überlauf von Seiten möglich durch Häufung von Kollisionen (mehrere Strategien dabei möglich) • Speicherstelle eines Datensatzes kann mit einem einzigen Zugriff gelesen werden (durch Hashfunktion): o Dadurch Hash-Tabellen als Speicherstruktur sehr interessant • Eignung als Dateiorganisationsform natürlich stark abhängig von der Wahl der Hashfunktion • Verbreitete Hashfunktion : h(k) = k mod m

Answer 13

Suchen von Datensatz mit Schlüsselwert w mittels lookup: o h(w) berechnen (Bild von w unter der Hashfunktion h) o Zugeordnete Zeiger aus Hashverzeichnis holen o Erste Seite des Buckets über Zeiger holen o Sätze auf der Seite werden durchsucht o w wird nicht gefunden -> nächste Seite o Alle Seiten erfolglos durchsucht -> Satz nicht vorhanden Ändern mittels modify: o Suchen von Datensatz mit Schlüsselwert w mittels lookup o Modifizierende Attribute Teil des Primärschlüssels -> Satz wird gelöscht und neu eingefügt o Anderenfalls: Attributwerte werden geändert Einfügen mittels insert: o Suchen von Datensatz mit Schlüsselwert w mittels lookup o Satz gefunden: Fehler (Natürlich nur bei Primärindex) o Satz nicht gefunden: • in Seite mit Bild von w wird letzter Satz gesucht • Einzufügende Satz wird dahinter eingetragen Löschen mittels delete: o Suchen von Datensatz mit Schlüsselwert w mittels lookup o Satz wurde gefunden -> wird gelöscht (Bit auf 0)

Answer 14

•Leistungsfähigkeit stark abhängig von Hashfunktion • Schlechte Wahl kann fast alle Datensätze auf die gleiche Seite einordnen • Beispiel: o Hashindex von 100 Buckets o Kundendatensätze identifiziert durch 6-stellige Kundennummer KNr (fortlaufend vergeben) o Ersten beiden Stellen von KNr als Hashwerte => Datensätze auf wenigen Seiten abgespeichert o Letzten beiden Stellen von KNr als Hashwerte => Datensätze gleichmäßig auf alle Seiten verteilt •Anpassung der Hashfunktion an wachsende und schrumpfende Datenmengen: Fehlende Dynamik: o Zu großer Speicherbereich erlaubt Wachstum der Datenmengen, aber schlechte Speicherauslastung o Gut ausgelasteter Speicherbereich: schlechter Performanz bei Wachstum der Datenmengen • Vergrößerung des Speicherbereichs und damit Änderung der Hashfunktion einzige Möglichkeit bei Wachstum der Datenmengen: o Alle Datensätzen müssen neu „gehasht“ werden • Alternative zur kompletten Reorganisation: dynamischen Hashverfahren

Answer 15

Klassische Variante: • Klassische Hashfunktionen bilden Datenwerte auf einen festen Bereich ab • Skaliert nicht • Vergrößerung des Bildbereichs erfordert Festlegung neue Hashfunktion, erfordert komplettes Neu-Hashen aller Datensätze • Mangelnde Dynamik Dynamische Variante: • Lösung: dynamische Hashverfahren: o Automatische Vergrößerung oder Verkleinerung des Bildbereichs o Hashfunktionen mit feste Berechnungsvorschrift, aber deren Bildbereich dynamisch vergrößert werden kann o Kein komplettes Neu-Hashen erforderlich o Lineares Hashing, Erweiterbares Hashing, Spiralhashing, Kombinierte Methoden.

Answer 16

• Weitere Indexverfahren: o Basieren auch auf Grundprinzipien der Datenorganisation: • z.B. ausgeglichene Suchbäumen oder Hashfunktionen o Berücksichtigen aber zusätzlich Besonderheiten spezieller Anwendungsgebiete

Answer 17

bisherige Speichertechniken eindimensional Mehrdimensionale Speichertechniken: • Erlauben symmetrischen Zugriff über mehrere Attributen: o Z.B. Anfrage nach gut verdienenden jungen Angestellten: Attribut Alter zwischen 22 und 25; Attribut Gehalt zwischen 80K und 120K o Statt 2 Anfragen und dann Durchschnitt berechnen: gleich mehrere Attribute berücksichtigen • Anzahl der unterstützten Attribute bestimmt Anzahl der Dimensionen dieses Datenraums • Mehrdimensionale Varianten von B-Bäumen, Mehrdimensionale Varianten von Hashverfahren

Modul 5 - Dateiorganisation und Zugriffsstrukturen Flashcards

(41 cards)