Versionen im Vergleich

Schlüssel

  • Diese Zeile wurde hinzugefügt.
  • Diese Zeile wurde entfernt.
  • Formatierung wurde geändert.

Ziele und Aufgaben

 

Agenda für das erste Treffen

kann von allen editiert werden

  1. Vorstellung Teilnehmende + Vorstellungen der AG-Arbeit
  2. Ziel und Scope der AG (G.Büchler: Hierzu insbesondere Begriffsdefinitionen und -abgrenzungen, sowie Ziel und Zweck der Formaterkennung, idealerweise anhand von Use Cases, z.B. aus TOP3)
  3. Erfahrungsaustausch (Tools, Formate,...)
  4. Mögliche Aufgaben
    1. Zuarbeit zu Pronom pro und contra
    2. Testen von Tools, Sammlung bereits erfolgter Tests, Überprüfung der Tests (noch aktuell? neue Versionen der Tools?)
    3. Entwicklung von offen zugänglichen Test-Sets (siehe Idee Heinz Kramski)
  5. Aufgabenteilung

Input der Interessenten

Die Konzeption der Formate in Pronom wird neueren Kompositformaten (zusammengesetzte Formate) nicht gerecht.

Inhalt

Mission Statement

Ausreichend detaillierte Kenntnisse zu Datei- und Datenträgerformaten bilden die Grundlage der Risikoabschätzung und Bestandserhaltung für die digitale Langzeitverfügbarkeit. Wegen der Fülle von Formaten weisen die vorhandenen Hilfsmittel jedoch große Lücken auf. Gleichzeitig ist es schwierig, einen Überblick über die Vielfalt bewährter und neu entstehender Werkzeuge zu behalten.

Die nestor-AG Formaterkennung zielt deshalb darauf ab, grundlegende Informationen zu den Themen Formaterkennung, Charakterisierung und Validierung zu sammeln und zu präsentieren. Die AG leistet einen Beitrag zur Verbesserung der Formaterkennung und zum Ausbau der bestehenden Formatdatenbanken (Format Registries). Sie richtet sich an alle Personen und Institutionen, die sich mit der Langzeitverfügbarkeit und -archivierung beschäftigen (v.a. Archive, Bibliotheken, Forschungseinrichtungen und Museen). Diesen Gruppen soll der Einstieg in das Thema Formaterkennung erleichtert werden. Weiterführende Links und Literaturangaben sollen zudem eine vertiefende Beschäftigung mit Fragen der Formaterkennung ermöglichen. Zu diesem Zweck wird die AG auf bereits bestehende Informationsangebote verweisen, wie etwa Tool-Sammlungen (z.B. COPTR) und Dateisammlungen zu verschiedenen Formaten (wie z.B. von Archivematica und dem ArchiveTeam), und möchte dazu anregen, sich am weiteren Ausbau existierender Sammlungen mit eigenen Beiträgen oder Aktualisierungen zu beteiligen. Obsoleszente aber noch funktionstüchtige Abspielumgebungen und Speichermedien der beteiligten Institutionen werden verzeichnet und Erfahrungen darüber ausgetauscht. Die Vernetzung mit anderen nestor-AGs (insbes. AGs E-Akte, AV-Materialien, Digitale Bestandserhaltung) wird dort angestrebt, wo inhaltliche Schnittpunkte zu erwarten sind.


Aufgaben: Die nestor-AG Formaterkennung sammelt und präsentiert grundlegende Informationen zu den Themen Formaterkennung, Charakterisierung und Validierung. Die Ergebnisse der AG sollen als erste Anlaufstelle für alle Personen dienen, die sich mit der Risikobewertung in der Bestandserhaltung befassen.

Die AG wird bereits vorhandenen Infrastrukturen wie der Toolsammlung COPTR (Community Owned digital Preservation Tool Registry) zuarbeiten und eine Dateisammlung ausgewählter Formate erstellen. Ein Verzeichnis von verfügbaren Abspielumgebungen für obsoleszente Speichermedien wird aufgebaut und der Erfahrungsaustausch gefördert. Die Vernetzung mit anderen nestor-AGs ist bei Querschnittsthemen geplant.

Ziele 2015-2017:

  • 2015: Die Unter-AGs konstituieren sich und schärfen das Profil der Arbeitspakete.
  • ab 2016: Informationen werden fortlaufend gesammelt, aufbereitet und zur Diskussion bereitgestellt. 

laufende Arbeitspakte der nestor AG

AP1: Tool Registries

Das Arbeitspaket strebt die Erarbeitung einer Liste vorhandener Formaterkennungs-, Formatvalidierungs- und Formatcharakterisierungstools an, einerseits um Einsteigern einen schnellen Überblick über Werkzeuge zu geben, andererseits um auf neue bzw. unbekanntere Tools aufmerksam zu machen. Da es bereits Tool Registries wie COPTR gibt, soll keine eigene Seite mit Toolbeschreibungen aufgebaut werden, sondern vielmehr die vorhandene Tool Registry COPTR durch Zuarbeiten der nestor-AG unterstützt werden. Die hier nachfolgende Übersicht dient nur dem zentralen Einstieg in das Arbeitspaket und der Dokumentation der Arbeitsergebnisse. Das Arbeitspaket wird federführend von Claire Roethlisberger-Jourdan betreut; Zuarbeiten erfolgen auch durch weitere Mitglieder der AG. 

AP 2: Testsuites

 Ziel dieses AP ist, ein öffentlich publizierbares Sample für Dateiformate zu erstellen, das für Tests und Tests von Tools genutzt werden kann.Wenn möglich können offen publizierbare Beispiele für Dateiformate hinzugefügt werden. Federführend ist Andre Müller, die Zuarbeit erfolgt auch durch weitere Mitglieder der AG. 

AP 3: Register und Kontaktbörse für obsoleszente Speichertechniken (»R.O.S.T.«)

siehe Unterseite

AP 4: Format Registries

Dieses Arbeitspaket umfasst die praktische Zuarbeit zu Format Registries wie beispielsweise PRONOM. Die AG wird durch eigene Beiträge die Datenbestände der Format Registries erweitern. Zudem wird sie eine deutschsprachige Anleitung zur Erstellung von Formatsignaturen für PRONOM erarbeiten, um so die Kenntnisse und die Motivation zur Mitarbeit auch außerhalb der AG zu stärken. Federführend ist Martin Hoppenheit vom LA NRW.

AP 5: Formatvalidierung

Der Fokus dieses Arbeitspakets wird zurzeit geschärft. Federführend sind Yvonne Friese (ZBW) und Stefan Hein (DNB).

AP 6: Best Practices in der Identifizierung

Das Arbeitspaket strebt die Erarbeitung verschiedener Best Practices bei der Identifizierung an, einerseits um Einsteigern einen schnellen Überblick über die verschiedenen Szenarien zu geben, andererseits um auf Probleme und Lösungsmöglichkeiten aufmerksam zu machen. Das genaue Profil wird zurzeit geschärft.

laufende Aktivitäten der nestor AG

Kooperation mit der Open Preservation Foundation (OPF) Document Interest Group (DIG)

Umfrage im deutschsprachigen Raum: Welche Identifizierungs- und Validierungstools werden verwendet?

Aufbau und Ausbau eines Registers und Kontaktbörse für obsoleszente Speichertechniken (»R.O.S.T.«)Ggf. ist Fido besser für Ausgabestatistik geeignet als DROID (Fazit aus dem KOST-Paper) - Test mit CSV Export der Analyse in DROID sind aber auch mgl.

Ansprechpartner

Name, VornameEinrichtungKontakt
Tunnat (geb. Friese), YvonneZBWy.
friese@zbw
tunnat@zbw.eu

Mitglieder

NameEinrichtungKontakt
Willems, LauraBundesarchivl.willems@bundesarchiv.de
Jacobs, RainerBundesarchivr.jacobs@bundesarchiv
Hein, StefanDNBS.Hein@dnb
.de
Steinke
Rausch,
Tobias
Joachim
DNB
Bundesarchiv
T
j.
Steinke@dnb
rausch@bundesarchiv.de
Lindlar
Kramski,
MichelleTIB Hannover
Heinz WernerDLA MarbachHeinz.Werner.Kramski@dla-marbach
Michelle.Lindlar@tib.uni-hannover
.de
Schmidt
Hein,
Christoph
Stefan
LA NRWChristoph.Schmidt@lav.nrw.deHasler, Tim
DNBS.Hein@dnb.de
Steinke, TobiasDNBT.Steinke@dnb.de
Müller, AndreGESIS Kölnandre.mueller@gesis.org
Klindt, MarcoKonrad-Zuse-Zentrum Berlin
hasler@zib
klindt@zib.de
Büchler, Georg
Vertretung:

Röthlisberger-Jourdan, Claire

)

KOST Bern
Georg
Claire.
Buechler@kost
Roethlisberger@kost.admin.ch
Germies, MarionAbbVie Ludwigshafenmarion.germies@abbvie.com

Hoppenheit, Martin

Landesarchiv Nordrhein-Westfalen (LAV NRW)

Martin.Hoppenheit@lav.nrw.de

Meckel, KonradLandesarchiv Thüringen (LATh)Konrad.Meckel@la.thueringen.de
Kortyla, StephanieSächsisches StaatsarchivStephanie.Kortyla@sta.smi.sachsen.de
Romeyke, AndreasSLUB Dresdenromeyke@slub-dresden
Kramski, Heinz WernerDLA MarbachHeinz.Werner.Kramski@dla-marbach
.de
Röhrle, Mario

Staatliche Akademie der Bildenden Künste, Stuttgart

mario.roehrle@abk-stuttgart.de
Alfredo WutschkaZB MED Köln / Bonnwutschka@zbmed.de
Schilke, Steffen

IT-Stelle der hessischen Justiz 

Steffen.Schilke@it-stelle.justiz.hessen.deBousfiha, AdnaneLandesarchiv Baden-Württembergadnane.bousfiha@la-bw.de
Silke ReichHebissreich@hebis.uni-frankfurt.de
Fabienne Hartwig (geb. Metzger)Kreisarchiv EsslingenHartwig.Fabienne@lra-es.de
Julia Krämer-RiedelStadt Köln Historisches Archivjulia.kraemer-riedel@stadt-koeln.de
Christian TreuSächs. Informatik Dienstechristian.treu@sid.sachsen.de
Müller, AndreGESIS Kölnandre.mueller@gesis.org

nestor Mailingliste nestor-formaterkennung@lists.dnb.de

Interessen im Bereich Formaterkennung

Leitfragen

  • Was versprechen Sie sich von der Teilnahme in der AG?
  • Welche Formate und/oder Tools sind für Sie besonders interessant?
  • Welche Aufgaben sind für Sie interessant (Testen von Tools, Zuarbeit zu Pronom, (Weiter-)entwickeln von nützlichen Tools?

Yvonne Friese (ZBW):

  • Zuarbeit zur Pronom-Formatbibliothek (bisher nicht bekannte Formate) - hier besteht Interesse, aber noch keine Erfahrung!
  • Erweiterungen der DROID-Funktionalitäten (Ausgabestatistik)
  • Erweiterungen der JHOVE-Fähigkeiten, speziell zu PDF-Dateien (Informationen zu Fehlermeldungen, bisher nicht erkannte Fehler), dies ist u. a. ein Thema des geplanten PDF-Hackathon an der ZBW Hamburg
  • Hilfsprogramme und Plugins für die LZA / den Umgang mit Dateiformaten (Passwortschutzerkennung bei PDFs, Validierung, Qualitätskontrolle nach Migrationsaktionen)
  • Edit: Die Idee von Herrn Kramski, Test-Sets zu erstellen (oder bereits vorhandene zu recherchieren) wäre auch für mich nützlich. So etwas ist mir bisher nur für PDF-Dateien bekannt und da reicht die Vielfalt jetzt für meine Bedürfnisse auch noch nicht aus (immerhin sammle ich aber bereits "böse" PDF-Dateien). Zip-Files nutzen wir für die CD-Archivierung, Erfahrungen sind aber bisher begrenzt.
  • deutschsprachige Kurzanleitung in diesem Wiki "Wie füge ich ein neues Format zu Pronom zu und reiche es ein?"
  • deutschsprachige Kurzanleitung(en) für beliebte Tools wie FITS, JHOVE usw. (für FITS haben wir intern etwas erstellt, dies könnte als Basis dienen)
  • Dokumentation bereits von der AG einreichten Formate

Erfahrung mit Formaten: Hauptsächlich Standard-PDF, etwas JPEG, dazu neuerdings diverse andere Formate (aber erst Phase der Bestandsaufnahme) aufgrund der CD-ROM-Archivierung

Georg Büchler, Claire Röthlisberger (KOST):

  • Wir hoffen, dass diese AG zunächst als Forum für grundsätzliche Diskussionen dienen kann:
    • Welche Art der Formaterkennung brauchen wir? Wie detailliert soll sie sein? Wie ist das Zusammenspiel mit der Formatvalidierung?
    • Welches sind die konzeptionellen Limiten der aktuellen Ansätze und Tools zur Formaterkennung?
    • Wie können diese Limiten überwunden werden?
  • Interessant sind für uns in erster Linie die für die Archive idealen oder akzeptablen Formate: PDF/A-1 und -2, TIFF, JPEG, JPEG2000, PNG, MP3, WAV, MPEG4, SIARD (siehe http://www.kost-ceco.ch/wiki/whelp/KaD/index.php).
  • Bevor sich die AG konkreten Aufgaben zuwendet, ist es unabdingbar, dass sie sich über die oben skizzierten grundsätzlichen Fragen Klarheit verschafft. Erst dann können diese Erkenntnisse in Tools etc. umgesetzt werden. Von der Zuarbeit zu PRONOM würden wir momentan auf jeden Fall absehen.

Erfahrung mit Formaten: PDF/A-1 und -2, SIARD, TIFF (vor allem unter dem Aspekt der Formatvalidierung), daneben punktuelle Erfahrung mit den oben genannten Formaten sowie CSV.

Heinz Werner Kramski (DLA):

  • Aus literarischen Nachlässen sind wir mit unkalkulierbaren Formaten konfrontiert. Absprachen dazu sind meist nicht möglich.
  • Interessant sind deshalb für uns vor allem Tools und Verfahren, Formate zuverlässig zu erkennen, Metadaten herauszuziehen und in archivgeeignete zu überführen (möglichst gescriptet).
  • Aktuelle Frage: Umgang mit geschachtelten Container-Formaten, z.B. MS-Office-Einbettungen in MS-Office-Dateien, PDF/A V.3, Zip-Files usw.
  • Gibt es international Test-Sets von frei verfügbaren Dateien, mit denen die Güte von Erkennungstools quantifiziert werden kann (so ähnlich wie der Acid-Test für Web-Browser)? Falls nicht könnte ich mir vorstellen, dass die AG so etwas entwickelt, ggf. für verschiedene Anwendungsgebiete (Office, Grafik, Audio usw.).

Andre Müller (Gesis):

...

Protokolle der Treffen

1.Treffen: 12.05.2014, 11:30 - 16:00 Uhr an der DNB in Frankfurt a.M., Protokoll

2. Treffen: 4.11.2014, 11:00 - 16:00 Uhr an der Gesis in Köln,  Protokoll

3. Treffen: 25.03.2015, 11:00 - 16:00 Uhr beim Deutschen Literaturarchiv in Marbach, Protokoll

4. Treffen: 24.08.2015, 11:00 - 16:00 Uhr am Konrad-Zuse-Institut in Berlin, Protokoll

5. Treffen: 9.05.2016, 11:00 -16:00 Uhr an der ZBW in Kiel, Protokoll

6. Treffen: 20.09.2016, 11:00 - 16 Uhr an der TIB in Hannover, Protokoll

7. Treffen: 14.03.2017, 11:00 - 16 Uhr am LAV in Duisburg, Protokoll

8. Treffen: 27.06.2017, 14:30 - 18:30 Uhr in der ZBW Kiel, Protokoll

9. Treffen:19.03.2018, 11:00 - 15:00 Uhr an der GESIS, Köln, Protokoll

10. Treffen: 06.11.2018, 11:00 - 16:00 Bundesarchiv in Koblenz, Protokoll

11. Treffen: 27.03.2019, 11:00 - 16:00 ZB MED in Köln, Protokoll

12. Treffen: 05.11.2019, 9:00 - 15:00 in Kiel

13. Treffen: voraussichtlich März 2020 in Hannover (10:00 - 16:00 ?)

...

...