Ziele und Aufgaben
Mission Statement
Ausreichend detaillierte Kenntnisse zu Datei- und Datenträgerformaten bilden die Grundlage der Risikoabschätzung und Bestandserhaltung für die digitale Langzeitverfügbarkeit. Wegen der Fülle von Formaten weisen die vorhandenen Hilfsmittel jedoch große Lücken auf. Gleichzeitig ist es schwierig, einen Überblick über die Vielfalt bewährter und neu entstehender Werkzeuge zu behalten.
Die nestor-AG Formaterkennung zielt deshalb darauf ab, grundlegende Informationen zu den Themen Formaterkennung, Charakterisierung und Validierung zu sammeln und zu präsentieren. Die AG leistet einen Beitrag zur Verbesserung der Formaterkennung und zum Ausbau der bestehenden Formatdatenbanken (Format Registries). Sie richtet sich an alle Personen und Institutionen, die sich mit der Langzeitverfügbarkeit und -archivierung beschäftigen (v.a. Archive, Bibliotheken, Forschungseinrichtungen und Museen). Diesen Gruppen soll der Einstieg in das Thema Formaterkennung erleichtert werden. Weiterführende Links und Literaturangaben sollen zudem eine vertiefende Beschäftigung mit Fragen der Formaterkennung ermöglichen. Zu diesem Zweck wird die AG auf bereits bestehende Informationsangebote verweisen, wie etwa Tool-Sammlungen (z.B. COPTR) und Dateisammlungen zu verschiedenen Formaten (wie z.B. von Archivematica und dem ArchiveTeam), und möchte dazu anregen, sich am weiteren Ausbau existierender Sammlungen mit eigenen Beiträgen oder Aktualisierungen zu beteiligen. Obsoleszente aber noch funktionstüchtige Abspielumgebungen und Speichermedien der beteiligten Institutionen werden verzeichnet und Erfahrungen darüber ausgetauscht. Die Vernetzung mit anderen nestor-AGs (insbes. AGs E-Akte, AV-Materialien, Digitale Bestandserhaltung) wird dort angestrebt, wo inhaltliche Schnittpunkte zu erwarten sind.
Aufgaben: Die nestor-AG Formaterkennung sammelt und präsentiert grundlegende Informationen zu den Themen Formaterkennung, Charakterisierung und Validierung. Die Ergebnisse der AG sollen als erste Anlaufstelle für alle Personen dienen, die sich mit der Risikobewertung in der Bestandserhaltung befassen.
Die AG wird bereits vorhandenen Infrastrukturen wie der Toolsammlung COPTR (Community Owned digital Preservation Tool Registry) zuarbeiten und eine Dateisammlung ausgewählter Formate erstellen. Ein Verzeichnis von verfügbaren Abspielumgebungen für obsoleszente Speichermedien wird aufgebaut und der Erfahrungsaustausch gefördert. Die Vernetzung mit anderen nestor-AGs ist bei Querschnittsthemen geplant.
Ziele 2015-2017:
- 2015: Die Unter-AGs konstituieren sich und schärfen das Profil der Arbeitspakete.
- ab 2016: Informationen werden fortlaufend gesammelt, aufbereitet und zur Diskussion bereitgestellt.
laufende Arbeitspakte der nestor AG
AP1: Tool Registries
Das Arbeitspaket strebt die Erarbeitung einer Liste vorhandener Formaterkennungs-, Formatvalidierungs- und Formatcharakterisierungstools an, einerseits um Einsteigern einen schnellen Überblick über Werkzeuge zu geben, andererseits um auf neue bzw. unbekanntere Tools aufmerksam zu machen. Da es bereits Tool Registries wie COPTR gibt, soll keine eigene Seite mit Toolbeschreibungen aufgebaut werden, sondern vielmehr die vorhandene Tool Registry COPTR durch Zuarbeiten der nestor-AG unterstützt werden. Die hier nachfolgende Übersicht dient nur dem zentralen Einstieg in das Arbeitspaket und der Dokumentation der Arbeitsergebnisse. Das Arbeitspaket wird federführend von Claire Roethlisberger-Jourdan betreut; Zuarbeiten erfolgen auch durch weitere Mitglieder der AG.
AP 2: Testsuites
Ziel dieses AP ist, ein öffentlich publizierbares Sample für Dateiformate zu erstellen, das für Tests und Tests von Tools genutzt werden kann. Wenn möglich können offen publizierbare Beispiele für Dateiformate hinzugefügt werden. Federführend ist Andre Müller, die Zuarbeit erfolgt auch durch weitere Mitglieder der AG.
AP 3: Register und Kontaktbörse für obsoleszente Speichertechniken (»R.O.S.T.«)
Wenn eine potentielle Archivalie nicht online, sondern als Offline-Datenträger vorliegt, so muss das Speichermedium (Diskette, Festplatte, Cartridge, USB-Stick, Speicherkarte, ...) vor jeder weiteren Form der Verarbeitung (etwa für die Datei-Formaterkennung und -Migration) zunächst auf einer elementaren Stufe gelesen werden können. In der Regel wird dabei ein forensisch korrektes Images des gesamten Datenträgers angefertigt, das als virtuelles Medium und Ausgangspunkt für weitere Arbeiten dienen kann.
Voraussetzung für diesen elementaren ersten Kopiervorgang ist ein funktionsfähiges Lesegerät. Während sich für Dateiformate eine etablierte Infrastruktur gebildet hat, fehlt unseres Wissens ein vergleichbares einschlägiges Register für die Hardware-Ebene. (Die Abgrenzung von Hardware und Software ist allerdings nicht so klar zu treffen - Firmware für Controller, Dateisysteme und Betriebssysteme bilden auf jeden Fall einen Graubereich. Vermutlich werden Dateisysteme sinnvollerweise im Zusammenhang mit den Medien beschrieben.)
Da der Archivierungsvorgang in vielen Fällen erst erfolgen wird, wenn Speichermedien und Lesegeräte ungebräuchlich und schwer verfügbar geworden sind, ist ein Register obsoleszenter Speichertechniken (Abspielgeräte und Medien) wünschenswert. Ein solches »Register« soll niederschwellig und pragmatisch geführt werden und wird zunächst eher den Charakter einer Kontaktbörse haben. Wenn es mehr als 500 Einträge hat, denken wir über formalisierte Einträge mit IDs nach, vorläufig bauen wir einfach eine Tabelle auf.
Besitzer von seltenen Abspielumgebungen werden sich nicht darum reißen, ganze Firmenarchive mit Mengen von Datenträgern zu konvertieren. Der pragmatische, nicht-internationale Ansatz mit dem Einzugsgebiet von durchführbaren Dienstreisen hat zugleich den Vorteil, die gegenseitige Hilfe auf überschaubare Fälle mit persönlichem Kontakt zu reduzieren.
Primäre Zielgruppe sind Archivare, Bibliothekare oder Kuratoren und ggf. deren IT-Kollegen, die in ihrer Tätigkeit mit der Langzeitarchivierung von digitalen Offline-Datenträgern befasst sind. Analoge Speicherformen und solche des AV-Bereichs (Betamax-Video etc.) sollen zunächst ausgeschlossen bleiben.
AP 4: Format Registries
Dieses Arbeitspaket umfasst die praktische Zuarbeit zu Format Registries wie beispielsweise PRONOM. Die AG wird durch eigene Beiträge die Datenbestände der Format Registries erweitern. Zudem wird sie eine deutschsprachige Anleitung zur Erstellung von Formatsignaturen für PRONOM erarbeiten, um so die Kenntnisse und die Motivation zur Mitarbeit auch außerhalb der AG zu stärken. Federführend ist Martin Hoppenheit vom LA NRW.
AP 5: Formatvalidierung
Der Fokus dieses Arbeitspakets wird zurzeit geschärft. Federführend sind Yvonne Friese (ZBW) und Stefan Hein (DNB).
AP 6: Best Practices in der Identifizierung
Das Arbeitspaket strebt die Erarbeitung verschiedener Best Practices bei der Identifizierung an, einerseits um Einsteigern einen schnellen Überblick über die verschiedenen Szenarien zu geben, andererseits um auf Probleme und Lösungsmöglichkeiten aufmerksam zu machen. Das genaue Profil wird zurzeit geschärft.
laufende Aktivitäten der nestor AG
Kooperation mit der Open Preservation Foundation (OPF) Document Interest Group (DIG)
Umfrage im deutschsprachigen Raum: Welche Identifizierungs- und Validierungstools werden verwendet?
Aufbau und Ausbau eines Registers und Kontaktbörse für obsoleszente Speichertechniken (»R.O.S.T.«)
Ansprechpartner
Name, Vorname | Einrichtung | Kontakt |
---|---|---|
Tunnat (geb. Friese), Yvonne | ZBW | y.tunnat@zbw.eu |
Mitglieder
Name | Einrichtung | Kontakt |
---|---|---|
Hein, Stefan | DNB | S.Hein@dnb.de |
Lindlar, Michelle | TIB Hannover | Michelle.Lindlar@tib.eu |
Hoppenheit, Martin | Landesarchiv Nordrhein-Westfalen (LAV NRW) | |
Hasler, Tim | Konrad-Zuse-Zentrum Berlin | hasler@zib.de |
Marco Klindt | Konrad-Zuse-Zentrum Berlin | klindt@zib.de |
Röthlisberger-Jourdan, Claire | KOST Bern | Claire.Roethlisberger@kost.admin.ch |
Germies, Marion | AbbVie Ludwigshafen | marion.germies@abbvie.com |
Kramski, Heinz Werner | DLA Marbach | Heinz.Werner.Kramski@dla-marbach.de |
Röhrle, Mario | Staatliche Akademie der Bildenden Künste, Stuttgart | mario.roehrle@abk-stuttgart.de |
Müller, Andre | GESIS Köln | andre.mueller@gesis.org |
Jacobs, Rainer | Bundesarchiv | r.jacobs@bundesarchiv.de |
Träger (geb. Rost), Christine (in Mutterschutz/Elternzeit 2017) | Landesarchiv Thüringen (LATh), HStA Weimar | |
Meckel, Konrad | Landesarchiv Thüringen (LATh), HStA Weimar | Konrad.Meckel@la.thueringen.de |
Pohlkamp, Svenia | Landesarchiv Thüringen (LATh), HStA Weimar | |
Andreas Romeyke | SLUB Dresden | romeyke@slub-dresden.de |
Leistikow, Simone (in Mutterschutz/Elternzeit 2017/2018) | ZB MED Köln / Bonn | leistikow@zbmed.de |
nestor Mailingliste nestor-formaterkennung@lists.dnb.de
Protokolle der Treffen
1.Treffen: 12.05.2014, 11:30 - 16:00 Uhr an der DNB in Frankfurt a.M., Protokoll
2. Treffen: 4.11.2014, 11:00 - 16:00 Uhr an der Gesis in Köln, Protokoll
3. Treffen: 25.03.2015, 11:00 - 16:00 Uhr beim Deutschen Literaturarchiv in Marbach, Protokoll
4. Treffen: 24.08.2015, 11:00 - 16:00 Uhr am Konrad-Zuse-Institut in Berlin, Protokoll
5. Treffen: 9.05.2016. 11:00 -16:00 Uhr an der ZBW in Kiel, Protokoll
6. Treffen: 20.09.2016. 11:00 - 16 Uhr an der TIB in Hannover, Protokoll
7. Treffen: 14.03.2017. 11:00 - 16 Uhr am LAV in Duisburg
Literatur und nützliche Weblinks
- Validierungstool KOST-Val
- KOST: Formaterkennung und -validierung
- Pronom
- Google Forum von Pronom (User und Entwickler)
- Die Zukunft von JHOVE und JHOVE 2 und mögliche Weiterentwicklungen
- Ange Albertini: Funky File Formats (Vortrag): Vortragsvideo / Folien / Demodateien
- Ange Albertini: Preserving arcade games (Vortrag) (weniger zu Formaten, mehr zur Archivierung allgemein)