Versionen im Vergleich

Schlüssel

  • Diese Zeile wurde hinzugefügt.
  • Diese Zeile wurde entfernt.
  • Formatierung wurde geändert.
Kommentar: Added Andre Müllers interests

...

  • Aus literarischen Nachlässen sind wir mit unkalkulierbaren Formaten konfrontiert. Absprachen dazu sind meist nicht möglich.
  • Interessant sind deshalb für uns vor allem Tools und Verfahren, Formate zuverlässig zu erkennen, Metadaten herauszuziehen und in archivgeeignete zu überführen (möglichst gescriptet).
  • Aktuelle Frage: Umgang mit geschachtelten Container-Formaten, z.B. MS-Office-Einbettungen in MS-Office-Dateien, PDF/A V.3, Zip-Files usw.
  • Gibt es international Test-Sets von frei verfügbaren Dateien, mit denen die Güte von Erkennungstools quantifiziert werden kann (so ähnlich wie der Acid-Test für Web-Browser)? Falls nicht könnte ich mir vorstellen, dass die AG so etwas entwickelt, ggf. für verschiedene Anwendungsgebiete (Office, Grafik, Audio usw.).

Andre Müller (Gesis):

  • Entwicklung eines Howto zur Formaterkennung: Methoden und verfügbare Tools / abgedeckte Formate
  • ggf. Beitrag zur bzw. Weiterentwicklung von Tools zur Formaterkennung. (In unserem Datenarchiv sind die Dateitypen quasi vollständig bekannt; so liegt mir ein gutes Test-Set an Dateien vor, mit denen Tools getestet werden können (insbes. SPSS (por/sav), STATA, pdf (verschiedene Subtypen) aus mehreren Dateiformat-Generationen).

...