Sie zeigen eine alte Version dieser Seite an. Zeigen Sie die aktuelle Version an.

Unterschiede anzeigen Seitenhistorie anzeigen

« Vorherige Version anzeigen Version 46 Nächste Version anzeigen »

Ziele und Aufgaben

Werden beim ersten Treffen von allen festgelegt.

Für das erste Treffen am 12. Mai haben zugesagt:

  • Tobias Steinke
  • Armin Straube
  • Yvonne Friese
  • Georg Büchler
  • Andre Müller
  • Michelle Lindlar
  • Adnane Bousfiha

  • Marion Germies
Agenda für das erste Treffen

kann von allen editiert werden

  1. Vorstellung Teilnehmende + Vorstellungen der AG-Arbeit
  2. Ziel und Scope der AG (G.Büchler: Hierzu insbesondere Begriffsdefinitionen und -abgrenzungen, sowie Ziel und Zweck der Formaterkennung, idealerweise anhand von Use Cases, z.B. aus TOP3)
  3. Erfahrungsaustausch (Tools, Formate,...)
  4. Mögliche Aufgaben
    1. Zuarbeit zu Pronom pro und contra
    2. Testen von Tools, Sammlung bereits erfolgter Tests, Überprüfung der Tests (noch aktuell? neue Versionen der Tools?)
    3. Entwicklung von offen zugänglichen Test-Sets (siehe Idee Heinz Kramski)
  5. Aufgabenteilung

Input der Interessenten

Die Konzeption der Formate in Pronom wird neueren Kompositformaten (zusammengesetzte Formate) nicht gerecht.

Ggf. ist Fido besser für Ausgabestatistik geeignet als DROID (Fazit aus dem KOST-Paper) - Test mit CSV Export der Analyse in DROID sind aber auch mgl.

Ansprechpartner

Name, VornameEinrichtungKontakt
Friese, YvonneZBWy.friese@zbw.eu

Mitglieder

NameEinrichtungKontakt
Hein, StefanDNBS.Hein@dnb.de
Steinke, TobiasDNBT.Steinke@dnb.de
Lindlar, MichelleTIB HannoverMichelle.Lindlar@tib.uni-hannover.de
Schmidt, ChristophLA NRWChristoph.Schmidt@lav.nrw.de
Hasler, TimKonrad-Zuse-Zentrum Berlinhasler@zib.de

Büchler, Georg

Vertretung: Röthlisberger-Jourdan, Claire)

KOST BernGeorg.Buechler@kost.admin.ch
Germies, MarionAbbVie Ludwigshafenmarion.germies@abbvie.com
Kramski, Heinz WernerDLA MarbachHeinz.Werner.Kramski@dla-marbach.de
Röhrle, Mario

Staatliche Akademie der Bildenden Künste, Stuttgart

mario.roehrle@abk-stuttgart.de
Schilke, Steffen

IT-Stelle der hessischen Justiz 

Steffen.Schilke@it-stelle.justiz.hessen.de
Bousfiha, AdnaneLandesarchiv Baden-Württembergadnane.bousfiha@la-bw.de
Müller, AndreGESIS Kölnandre.mueller@gesis.org

nestor Mailingliste nestor-formaterkennung@lists.dnb.de

Interessen im Bereich Formaterkennung

Leitfragen

  • Was versprechen Sie sich von der Teilnahme in der AG?
  • Welche Formate und/oder Tools sind für Sie besonders interessant?
  • Welche Aufgaben sind für Sie interessant (Testen von Tools, Zuarbeit zu Pronom, (Weiter-)entwickeln von nützlichen Tools?

Yvonne Friese (ZBW):

  • Zuarbeit zur Pronom-Formatbibliothek (bisher nicht bekannte Formate) - hier besteht Interesse, aber noch keine Erfahrung!
  • Erweiterungen der DROID-Funktionalitäten (Ausgabestatistik)
  • Erweiterungen der JHOVE-Fähigkeiten, speziell zu PDF-Dateien (Informationen zu Fehlermeldungen, bisher nicht erkannte Fehler), dies ist u. a. ein Thema des geplanten PDF-Hackathon an der ZBW Hamburg
  • Hilfsprogramme und Plugins für die LZA / den Umgang mit Dateiformaten (Passwortschutzerkennung bei PDFs, Validierung, Qualitätskontrolle nach Migrationsaktionen)
  • Edit: Die Idee von Herrn Kramski, Test-Sets zu erstellen (oder bereits vorhandene zu recherchieren) wäre auch für mich nützlich. So etwas ist mir bisher nur für PDF-Dateien bekannt und da reicht die Vielfalt jetzt für meine Bedürfnisse auch noch nicht aus (immerhin sammle ich aber bereits "böse" PDF-Dateien). Zip-Files nutzen wir für die CD-Archivierung, Erfahrungen sind aber bisher begrenzt.
  • deutschsprachige Kurzanleitung in diesem Wiki "Wie füge ich ein neues Format zu Pronom zu und reiche es ein?"
  • deutschsprachige Kurzanleitung(en) für beliebte Tools wie FITS, JHOVE usw. (für FITS haben wir intern etwas erstellt, dies könnte als Basis dienen)
  • Dokumentation bereits von der AG einreichten Formate

Erfahrung mit Formaten: Hauptsächlich Standard-PDF, etwas JPEG, dazu neuerdings diverse andere Formate (aber erst Phase der Bestandsaufnahme) aufgrund der CD-ROM-Archivierung

Georg Büchler, Claire Röthlisberger (KOST):

  • Wir hoffen, dass diese AG zunächst als Forum für grundsätzliche Diskussionen dienen kann:
    • Welche Art der Formaterkennung brauchen wir? Wie detailliert soll sie sein? Wie ist das Zusammenspiel mit der Formatvalidierung?
    • Welches sind die konzeptionellen Limiten der aktuellen Ansätze und Tools zur Formaterkennung?
    • Wie können diese Limiten überwunden werden?
  • Interessant sind für uns in erster Linie die für die Archive idealen oder akzeptablen Formate: PDF/A-1 und -2, TIFF, JPEG, JPEG2000, PNG, MP3, WAV, MPEG4, SIARD (siehe http://www.kost-ceco.ch/wiki/whelp/KaD/index.php).
  • Bevor sich die AG konkreten Aufgaben zuwendet, ist es unabdingbar, dass sie sich über die oben skizzierten grundsätzlichen Fragen Klarheit verschafft. Erst dann können diese Erkenntnisse in Tools etc. umgesetzt werden. Von der Zuarbeit zu PRONOM würden wir momentan auf jeden Fall absehen.

Erfahrung mit Formaten: PDF/A-1 und -2, SIARD, TIFF (vor allem unter dem Aspekt der Formatvalidierung), daneben punktuelle Erfahrung mit den oben genannten Formaten sowie CSV.

Heinz Werner Kramski (DLA):

  • Aus literarischen Nachlässen sind wir mit unkalkulierbaren Formaten konfrontiert. Absprachen dazu sind meist nicht möglich.
  • Interessant sind deshalb für uns vor allem Tools und Verfahren, Formate zuverlässig zu erkennen, Metadaten herauszuziehen und in archivgeeignete zu überführen (möglichst gescriptet).
  • Aktuelle Frage: Umgang mit geschachtelten Container-Formaten, z.B. MS-Office-Einbettungen in MS-Office-Dateien, PDF/A V.3, Zip-Files usw.
  • Gibt es international Test-Sets von frei verfügbaren Dateien, mit denen die Güte von Erkennungstools quantifiziert werden kann (so ähnlich wie der Acid-Test für Web-Browser)? Falls nicht könnte ich mir vorstellen, dass die AG so etwas entwickelt, ggf. für verschiedene Anwendungsgebiete (Office, Grafik, Audio usw.).

Andre Müller (Gesis):

  • Entwicklung eines Howto zur Formaterkennung: Methoden und verfügbare Tools / abgedeckte Formate
  • ggf. Beitrag zur bzw. Weiterentwicklung von Tools zur Formaterkennung. (In unserem Datenarchiv sind die Dateitypen quasi vollständig bekannt; so liegt mir ein gutes Test-Set an Dateien vor, mit denen Tools getestet werden können (insbes. SPSS (por/sav), STATA, pdf (verschiedene Subtypen) aus mehreren Dateiformat-Generationen).

Validierungstool KOST-Val

Archivierung von Unterlagen aus digitalen Systemen, 2012, URL

Pronom

Google Forum von Pronom (User und Entwickler)

Die Zukunft von JHOVE und JHOVE 2 und mögliche Weiterentwicklungen

 

  • Keine Stichwörter