Auswahl des zu archivierenden Materials

In der dLZA wird mit der Auswahl die begründete Entscheidung getroffen, warum etwas archiviert werden sollte. I.d.R. werden all diejenigen Materialien archiviert, die von kulturellem Wert sind. Viele Gedächtnisorganisationen haben ein Mandat (z.B. einen gesetzlichen Auftrag), durch das sie verpflichtet sind, bestimmte Materialien dauerhaft zu sichern.

Große Einrichtungen sollten die Anforderungen an digitale Langzeitarchive, wie sie sich in den DIN Normen DIN 31645 „Leitfaden zur Übernahme in digitale Langzeitarchive" und DIN 31644 „Kriterien für vertrauenswürdige digitale Langzeitarchive" niederschlagen, berücksichtigen und daher anhand der erwarteten Nutzergruppen einen objektiven Kriterienkatalog anlegen. Mit diesem Kriterienkatalog können sie Dritten gegenüber argumentieren, warum sie etwas archivieren und wieso dies die entstehenden Kosten und Aufwände rechtfertigt. Auch ermöglicht dies festzustellen, ob man und wie man eine notwendige Langzeitarchivierung auslagert, z.B. wenn eine ordentliche Betreuung des Archivs nach aktuellem Stand der Technik oder aufgrund der Qualifikationen der Mitarbeiter nicht möglich ist.

Diese Festlegung, warum etwas archiviert werden soll, wird „Archivwürdigkeit" genannt. Ob das Material auch „archivfähig" ist, sprich: in einem Format vorliegt, welches guten Wissens und Gewissens als Archivformat genutzt werden kann, wird in den Abschnitten „Erhaltungsstrategien“ und „Dateiformate und Codecs“ weiter unten näher beleuchtet.

Beschreibung der vorgesehenen Nutzungsszenarien

Die Archivierung und insbesondere die Langzeitarchivierung sind mit hohen Kosten verbunden. Um sicherzustellen, dass das ausgewählte Material auch langfristig nicht nur gesichert, sondern auch zur Nutzung verfügbar gehalten wird, ist es wichtig, im Auge zu behalten, welche Nutzer des Archivs infrage kommen und welche Anforderungen sich daraus ergeben.

Wenn man die Anforderungen der verschiedenen Nutzer gruppiert und die für diese jeweils relevanten Aspekte festhält, erreicht man zwei Dinge. Erstens lernt man seine Nutzergruppen kennen und kann seine Arbeit priorisieren. Beides erleichtert die Zielgruppenanalyse, d.h. die stetige Überprüfung, ob man als Einrichtung auf die Anforderungen seiner Nutzer eingestellt ist und ggf. Korrekturen vornehmen sollte.

Zweitens ergeben sich daraus die signifikanten Eigenschaften, d.h. welche Aspekte des Fernsehmitschnittes im Laufe des Archivlebens in seinen grundlegenden Eigenschaften bewahrt werden müssen: Soll der Zweikanalton erhalten bleiben, weil Nutzer die Sendung später in Englisch und Deutsch schauen wollen? Spielt die Audioqualität eine besondere Rolle, da es sich um ein Konzertmitschnitt aus dem örtlichen Konzerthaus handelt und die Einrichtung Musikstudenten als Nutzer hat? Oder ist die Bildqualität wichtig, weil man nur dann die Vortragsfolien lesen kann?

Aus der Analyse der Nutzerzielgruppen ergibt sich in Teilen auch die Frage des Zugriffs auf das Archiv. Wie und wem (einem Bereitstellungssystem oder dem Kunden direkt) werden die Daten bereitgestellt? Müssen Nutzungsrechte berücksichtigt werden und wo werden diese geprüft? Ebenso sollte schriftlich fixiert werden, was unter „Original" verstanden wird und warum.

Qualitätsmanagement

Unter Qualitätsmanagement wird verstanden, dass das zu archivierende Material in einer Form übernommen wird, die technisch fehlerfrei ist, voll den Spezifikationen entspricht und auch inhaltlich mit den Metadaten übereinstimmt. Große Einrichtungen sollten sich frühzeitig Gedanken über eine möglichst weitgehende Automatisierung machen. Händisches Qualitätsmanagement, z.B. Sichtprüfung, sollte auf das erforderliche Mindestmaß beschränkt bleiben.

Auf Einhaltung von Standards zu achten, Werkzeuge zur Validierung voranzutreiben und auf eine weitgehende Normierung des zu archivierenden Materials hinzuarbeiten sollten zu den Aufgaben des LZA-Teams gehören und organisatorisch vorbereitet sein.

Erhaltungsstrategien

Bitstream-Preservation

Basis der Erhaltungsstrategien ist immer die Bitstream-Preservation, d.h. die bitgenaue digitale Kopie des zu archivierenden Materials. Um festzustellen, ob die zu sichernden Materialien korrekt gespeichert sind, bietet es sich an, Prüfsummen zu erstellen (z.B. Sha256), mit denen sich feststellen lässt, ob der Inhalt verändert ist (Integritätssicherung). Diese sollten direkt nach der Erstellung des Materials (hier: Aufzeichnung des Fernsehmitschnittes) berechnet und nach jedem Kopiervorgang geprüft werden. Die Prüfsummen sollten bei Video auf Frame-Basis, bei Audio in festgelegten Blöcken berechnet werden. Dies erleichtert nicht nur die Überprüfung von Fehlern bei Kopiervorgängen, sondern erlaubt bei Verwendung von verlustfreien Codecs auch den automatisierten Vergleich mit dem Original.

Es gibt verschiedene Technologien, um Datenströme effizient und möglichst sicher zu speichern. Nach aktuellem Stand der Technik ist für große Einrichtungen die Speicherung von Mehrfachkopien an mehreren Standorten verpflichtend. Aus Kostengründen sollte man Kopien über Bandbibliotheken auf Bänder mit LTO-Bandlaufwerken sichern. Dies ist günstiger als die Speicherung auf Festplatten und bei ordentlicher Lagerung die haltbarste Variante.

Sinnvoll ist es, auf den Speicherpfaden zu den jeweiligen Kopien unterschiedliche Technologien zu benutzen, um Treiber- und Hardwareprobleme als single-point-of-failure auszuschließen (Sprich, wenn identische Hardware verwendet wird, können diese auch zeitnah mit gleichen Problemen ausfallen).

Content-Preservation

Um das zu archivierende Material nicht nur zu sichern, sondern auch langfristig nutzbar zu halten, im Falle der Fernsehmitschnitte also abzuspielen und anzuschauen, muss die Darstellbarkeit des Inhalts gesichert werden (Content-Preservation). Dabei sollte frühzeitig bekannt sein, welche Eigenschaften des Materials über die Zeit unbedingt erhalten bleiben müssen, d.h. welche Eigenschaften signifikant für die Nutzung sind. Dies kann in dem einen Fall der hochwertige Mehrkanalton sein, im zweiten die Bildqualität und im dritten die Farbtreue. Bei den Erhaltungsstrategien unterscheidet man grob zwischen Emulation und Formatmigration.
Im ersten Fall erstellt man eine Emulation einer bestimmten Umgebung, die Hardware, Betriebssystem und installierte Software umfasst und die zum Archivierungszeitpunkt in der Lage ist, die gesicherten Materialien wiederzugeben. Sollte ein Videoformat eines Fernsehmitschnittes nicht mehr von aktueller Software unterstützt werden, so kann man diesen über die emulierte Umgebung noch abspielen.
Im zweiten Fall versucht man die zu archivierenden Materialen in einem besonders für die Archivierung geeigneten Format zu speichern. Sollte dann ein Dateiformat veralten, kann rechtzeitig und unter Beachtung der zu bewahrenden, signifikanten Eigenschaften eine Konvertierung in ein anderes Dateiformat vorgenommen werden.
Für große Einrichtungen empfiehlt sich bisher v.a. der zweite Ansatz. Um den Migrationsaufwand in der Zukunft gering zu halten, sollte man bei Aufnahme des Videomaterials bereits eine Normierung in ein geeignetes Archivformat vornehmen. Eine Empfehlung für archivfähige Formate wird im Abschnitt „Dateiformate und Codecs", S. 110, gegeben.

Authentizität

Unter Authentizität wird verstanden, dass nachgewiesen wird, dass ein gesichertes Objekt auch das ist, was es vorgibt zu sein. Dies ist z.B. wichtig bei elektronischen Urkunden, wo man auch bei zwischenzeitlich veralteten elektronischen Signaturen nachweisen möchte, dass die Urkunde nicht verändert wurde. Für Fernsehmitschnitte ist in den Metadaten mitzuführen, welche Sendung wann aufgenommen wurde. Ebenso sind Prüfsummen über die Fernsehmitschnitte auf Frame- bzw. Block-Basis zu erstellen. Während der Archivierung sind Änderungen an den gespeicherten Archivdaten (AIP-Pakete) zu protokollieren und ggf. auszuweisen.

Für ein digitales Langzeitarchiv empfiehlt es sich, immer die Originaldaten aus dem Ingest im Archiv zu behalten und auf diese mit zu verweisen. Dies gilt auch für den Fall, dass eine Formatmigration stattgefunden hat. Durch technische und organisatorische Maßnahmen ist sicherzustellen, dass eine Überprüfung der Protokollierung möglich ist.

Metadaten

Unter Erschließung wird zum einen die Erfassung von filmografischen Metadaten verstanden (Katalogisierung), zum anderen die Inhaltserschließung. Die filmografischen Metadaten umfassen in der Regel die Urheber des Werkes, das Erscheinungsjahr, Herausgeber und Verleger, sonstige Mitwirkende und Besonderheiten sowie die Kodierung der Rechte und Rechteinhaber.
Die inhaltliche Erschließung von Filmmitschnitten ermöglicht es, in einer größeren Sammlung von Werken nach bestimmten Szenen, gesprochenen Worten, Stimmungen usw. zu suchen.

Die Basiskatalogisierung kann dabei selbstständig oder, wenn möglich, aus Beständen Dritter übernommen werden.
Um eine schnellere Verarbeitung in Fällen der Formatmigration oder Metadaten-Updates zu gewährleisten, sollten die filmografischen Metadaten separat zum Mitschnitt (und nicht primär innerhalb des Datenformats des Mitschnitts) in einem allgemein akzeptierten Metadatenstandard gespeichert werden. I.d.R. liegt man mit METS/MODS richtig, welches u.a. als Standardformat im DFG-Viewer eingesetzt wird.

Präsentation/Zugriff

Für die Nutzung der archivierten Medien wird oft auf Vorschauen zurückgegriffen, die das archivierte Material in reduzierter Auflösung, speziell kodiert oder in Sequenzen unterteilt, repräsentieren. Dies macht insbesondere dann Sinn, wenn das Archiv über Webplattformen erreichbar sein soll und die Kosten für die Datenübertragung eine große Rolle spielen.

Größere Einrichtungen sollten sich bemühen, das eigentliche Präsentationssystem vom Langzeitarchiv zu entkoppeln. Die Vorteile liegen darin, dass Aufwände für Wartungsarbeiten minimiert werden und Lastspitzen nicht auf das Archiv durchschlagen.

Dateiformate und Codecs

Im Folgenden werden Anforderungen an ein Archivformat (Dateiformat und Codec) aufgeführt:

  • Standardisierung und Offenheit des Formats (notfalls offen spezifiziert)
  • Robustheit (einzelne Bitfehler sind in ihrer Wirkung begrenzt)
  • hohe Verbreitung
  • niedrige Komplexität (benötigte Rechenzeit)
  • Selbstbeschreibung (Bin ich ein Matroska-File?)
  • Lizenz- und Patentfreiheit
  • Erkennbarkeit/Validierbarkeit des Formates (Gibt es ein Prüftool?)
  • Verschlüsselungsfreiheit
  • Unabhängigkeit von spezieller Hard-/Software


Fernsehmitschnitte werden i.d.R. via DVB-T, DVB-S oder DVB-C empfangen. Die Ausstrahlung über die digitalen Fernsehkanäle nach Digital Video Broadcasting (DVB) 3 resultiert oft in Dateien (MPEG-TS), die verschiedene Datenströme für Video, Audio, Teletext, MHP und EPG enthalten. Die Videodaten sind MPEG-2 oder MPEG-4 (in H.264) kodiert, die Audiodaten in MP2 oder AC-3. Da diese MPEG-TS-Daten oftmals mehrere Audio- und Videodaten von unterschiedlichen Sendern enthalten, bietet es sich an, diese mithilfe von Werkzeugen wie mplayer (<http://www.mplayerhq.hu/>) oder FFmpeg (<https://www.ffmpeg.org/>) in Matroska-Container (Endung .mkv) zu konvertieren.

Dabei können die Codecs für die Video- und Audiodatenströme von DVB ohne Rekodierung weiterverwendet werden, da o.g. Codecs standardisiert sind und als weitverbreitet angesehen werden können. Dabei sollte man im Hinterkopf behalten, dass diese Codecs verlustbehaftet und für den Videoschnitt eher ungeeignet sind.

Matroska (<http://www.matroska.org/>) als Container bietet sich an, weil es sich um ein freies Containerformat für Videodateien handelt, welches Synchronität gewährleistet und eine gute Verbreitung besitzt.

 

  • Keine Stichwörter