...
- Aus literarischen Nachlässen sind wir mit unkalkulierbaren Formaten konfrontiert. Absprachen dazu sind meist nicht möglich.
- Interessant sind deshalb für uns vor allem Tools und Verfahren, Formate zuverlässig zu erkennen, Metadaten herauszuziehen und in archivgeeignete zu überführen (möglichst gescriptet).
- Aktuelle Frage: Umgang mit geschachtelten Container-Formaten, z.B. MS-Office-Einbettungen in MS-Office-Dateien, PDF/A V.3, Zip-Files usw.
- Gibt es international Test-Sets von frei verfügbaren Dateien, mit denen die Güte von Erkennungstools quantifiziert werden kann (so ähnlich wie der Acid-Test für Web-Browser)? Falls nicht könnte ich mir vorstellen, dass die AG so etwas entwickelt, ggf. für verschiedene Anwendungsgebiete (Office, Grafik, Audio usw.).
Andre Müller (Gesis):
- Entwicklung eines Howto zur Formaterkennung: Methoden und verfügbare Tools / abgedeckte Formate
- ggf. Beitrag zur bzw. Weiterentwicklung von Tools zur Formaterkennung. (In unserem Datenarchiv sind die Dateitypen quasi vollständig bekannt; so liegt mir ein gutes Test-Set an Dateien vor, mit denen Tools getestet werden können (insbes. SPSS (por/sav), STATA, pdf (verschiedene Subtypen) aus mehreren Dateiformat-Generationen).
Literatur und nützliche Weblinks
...