Collaborative Notes // Fragen und Antworten

Hinweis: Diese Collaborative Notes sind im Rahmen des virtuellen nestor-Praktikertags 2021 entstanden. Während der Veranstaltung konnten die Teilnehmer*innen in einem öffentlich zugänglichen Pad gemeinsame Notizen verfassen. Diese wurden nach dem Ende der Veranstaltung ins nestor-Wiki übernommen.

Bereits während der Veranstaltung wurden Fragen des Publikums und Antworten der Vortragenden in den Collaborative Notes dokumentiert. Einige Vortragende haben sich die Mühe gemacht, die an sie gerichteten Fragen nach der Veranstaltung zudem schriftlich zu beantworten. Auch dafür wurden die Collaborative Notes genutzt, sodass hier nun eine Mischung aus Vortragsnotizen und Fragen mit Antworten zu lesen ist.

Begrüßung, Vorstellung von nestor und der AG Formaterkennung (Svenia Pohlkamp, nestor-Geschäftsstelle / DNB und Yvonne Tunnat, ZBW)

An den nestor-AGs können auch Interessierte aus Institutionen teilnehmen, die nicht in nestor-Partnerinstitutionen arbeiten. Auch für interessierte Privatpersonen ist eine Mitarbeit möglich.

nestor for newbies musste coronabedingt aussetzen und wird hoffentlich 2022 wieder stattfinden. Teilweise wird diese Reihe allerdings durch die Angebote der Webseminare aus der Reihe “nestor virtuell” ersetzt, da dort einige Angebote auch speziell für Einsteiger:innen gedacht sind.

Worum geht es in den nestor Schools?

Bei den nestor Schools gibt es meist ein übergeordnetes Thema, dessen Teilaspekte (ca. 4) die mit praktischen Übungen bearbeitet werden. Bspw. gab es nestor Schools zu den Themen Forschungsdaten, Digitalisierung oder Praxiserfahrungen. Die Themen, die behandelt werden, werden von den Organisatoren festgelegt. Wunschthemen können an Herrn Stefan Strathmann (SUB Göttingen) gesendet werden.

Formatauswahl (Claire Röthlisberger-Jourdan, KOST)

Claire fragt die Teilnehmenden, welche Datei-Endungen ihnen einfallen und bittet darum, diese in den Chat zu schreiben. Abgesehen von mal den Antworten “alle” und “keine” gibt es einen großen Zoo an Datei-Endungen, von Textverarbeitung, Bild, Video, Ton, verpackten Formaten, Tabellenformate etc.

die Teilnehmenden nennen: PDF/A, CSV, XML, epub, rar, tiff, PDF, WARC, mkv, flac, txt, wav, mpeg4, html, docx, png, bmp, wma, siard

Die Teilnehmenden dürfen Fragen oder Ergänzungen zum Sinn und Zweck der Formatauswahl in den Chat schreiben, Claire geht dann während des Vortrags darauf ein.

Sind Significant properties ein Faktor für die Formatauswahl?

Gibt es “technology watch” bei den Formatkriterien? Bzw. gibt es eine jährliche Überprüfung?

ja; Versionierung des KAD

Wird PDF/R als Bildformat von der KOST betrachtet werden?

Wie ist das genau zu verstehen? PDF/A-2 mit JPEG2000? Dass Bilder im Format JPEG2000 in PDF/A-2 eingebettet werden?

Gibt es Planungen, epub als gängiges Buchhandelsformat (multimedia- und hypertestfähig) zu prüfen?

Was ist mit Kriterien auf Exemplarebene? PDF kann Kopierschutz haben, was - wenn vorhanden - problematisch ist.

Was ist mit xls-Dateien?

Formatidentifizierung (Micky Lindlar, TIB)

Die TIB hat einen sehr großen Formatzoo, da sie stets die Originale archivieren und es gibt einen recht langen Long tail.

Frage zu Syntax/Semantik: Dass in einer Matrix jede Zeile gleich viele Spalten haben muss - wäre das eher Syntax oder Semantik?

Antwort: Das wäre ein Beispiel von Syntax.

Ob man nun einen Satz textuell (wie auf dem Blatt geschrieben) oder Binär (wie auf ner Schallplatte gesprochen) aufnimmt, hat doch keinen Unterschied, ob die Anordnung eher sequentiell oder eher beliebig ist. Die Unterscheidung verstehe ich noch nicht.

Antwort: Das Beispiel in der Präsentation war ein Blatt Papier, an dem eine Ecke fehlte. Dadurch fehlte zwar ein Teil des Textes, aber der restliche Teil war noch lesbar. Bei der zerbrochnen Schallplatte ist diese ohne Reparaturmaßnahme auf dem Plattenspieler nicht abspielbar, daher kann auch die teilweise auf dem erhaltenen Teil der Schallplatte noch vorhandene Information nicht einfach genutzt werden. Ferner sind auf Schallplatten abgebildete Daten nicht binär :-) Das Prinzip wäre aber auch bei einer zerbrochenen CD das Gleiche.

Gibt es Droid auch als maven repository (oder allgemein als Java Bibliothek), um innerhalb eines Java-Programms Dateiformate zu erkennen und die Infos zurück zu kriegen? Wie ist das bei Siegfried?

Antwort zu DROID von Claire Röthlisberger-Jourdan: In KOST-Val (Java-Programm) habe ich DROID hineingenommen. Es geht, aber nicht einfach…
Antwort zu Siegfried von Andreas Romeyke: Siegfried ist in GO geschrieben, daher nein.
Steffen Fritz (DLA Marbach) weist darauf hin, dass er Siegfried in einem eigenen Programm verwendet. Wenn es dazu Fragen gibt, kann gerne an fritz@dla-marbach.de eine E-Mail geschickt werden.
Antwort: Für eine kurze Erläuterung der DROID Code-Structure (inkl. Maven Hinweis), siehe https://digital-preservation.github.io/droid/

Hält wikidp.org auch Signaturen vor?

nein, sammelt Informationen zu Dateiformaten und deren Nutzungskontext (Tools, etc.)

Datei-Validierung - Wie kaputt ist das denn? (Yvonne Tunnat, ZBW)

Kennt jemand eine Software, mit der man leichter eigene Spezifikation erstellen und validieren kann?

https://kaitai.io/ (dort kann man Strukturen hinterlegen (Schritt für Schritt) und damit Dateiformate reverse engineeren, dokumentieren und automatisiert Leseprogramme entwickeln)

Validiert ihr die Migrationsergebnisse, die ihr selbst erstellt habt, oder vertraut ihr Euren Migrationstools in dieser Hinsicht?
Ist bei Invalidität des Migrationsergebnisses dann ein nochmaliges migrieren die Lösung oder, wenn nicht, kriegt ihr dies anderweitig gelöst oder lebt ihr letztlich doch damit?

Antwort von einer Teilnehmerin: PDF/As validiere ich in fast allen Fällen, da hier so viele Fehler passieren (können) - ja auch wenn ich es selbst konvertiert habe. Bei Invalidität des Migrationsergebnisses versuche ich es meist mit einem anderen Tool oder über den “Umweg” 1b - so lassen sich über 95% der Fehler beheben… ein valides 1b habe ich bisher auf irgendeine Art immer erzeugt bekommen.
Antwort von Andreas Romeyke (SLUB): Wir validieren immer.
Antwort von Claire Röthlisberger-Jourdan: Die “invaliden” werden je nach Fehler übernommen oder soweit möglich behoben.

Kann man Adobe Acrobat als Validierungstool verwenden?

Antwort von Claire Röthlisberger-Jourdan: preflight in Adobe Acrobat Pro ist das gleiche wie pdfapilot
Antwort von einem Teilnehmenden: Soweit ich weiß ist das Tool in Acrobat ein zugekaufter PDF/A-Pilot. Also ja. Adobe Acrobat kann also zumindest als ein Tool von mehreren oder zur manuellen Prüfung genutzt werden.
Hinweis von Micky Lindlar: Ich finde auch wichtig anzumerken, dass kein Tool aktuell pdf vollumfänglich validiert - es kann also auch den Fall von validen PDF/As geben, deren PDF-syntax kaputt ist und es zu Rendering-Problemen kommt.

Problembehandlung - Am Beispiel TIFF (Andreas Romeyke, SLUB)

Ich bin mir nicht ganz sicher, wie das zu verstehen war. Ist z.B. 270 für tiffset -s 270 eine Konstante oder nur in einem Beispiel so und man muss immer erstmal schauen wo der entsprechender Tag gerade ist?

270 ist die Nummer des Tags. Tags sind in der TIFF-Spezifikation mit ihrer Tagnummer (hier: 270) und ihrem Namen aufgeführt.

Wenn die Tags in der falschen Reihenfolge sind, könnte das auf einen Softwarefehler hindeuten? Heißt das nicht, dass das sortieren den Softwarefehler nicht bloß an die richtige Stelle verschiebt?

Die falsche Reihenfolge ist oft durch einen Fehler in der Software verursacht, in seltenen Fällen kann es sich auch um Bitfehler in der Datei handeln.

Kennt sich jemand mit Photoshop-Metadaten in TIFFs aus? Laut Exiftools können sie in den betroffenen Dateien nicht ausgelesen werden. Laut Photoshop CS5 sind sie beschädigt.

Photoshop Tags sind erlaubte, proprietäre Tags. Diese sind bei Adobe registriert. Da diese bzgl. Struktur und Semantik nicht öffentlich dokumentiert sind, können diese mit den verfügbaren Werkzeugen in aller Regel nicht repariert werden. Die betroffenen Tags könnte man aber löschen.

Werden bei fixit_tiff Reparaturen dokumentiert?

Nein. Da jede Reparatur aber explizit über einen Kommandozeilen-Parameter ausgewählt wird, reicht es, den Aufruf entsprechend zu dokumentieren.

Wenn man den Inhalt verlängert, muss man die Offsets neu berechnen, oder? Welche alle?

Ja, die Offsets bzw. IFDs müssen neu berechnet werden. In der Regel wird man ein neues IFD schreiben und darauf verweisen. Dies bedeutet aber auch, dass die Versionsgeschichte nachvollziehbar ist, und dass TIFFs, die nahe der 4GB Grenze sind uU. nicht ohne weiteres reparierbar sind, da nur Offsets bsi zu 4GB unterstützt werden.

Wie sind die Erfahrungen hinsichtlich Aufwand und Nutzen; resp. wann lohnt es sich?

Der Aufwand ist hoch, bei digitalen Vor- und Nachlässen, oder wenn die TIFFs uniqe sind unter Umständen gerechtfertigt.

Wie verhält sich mit GeoTIFFs? Würden diese in einem Archiv akzeptiert werden, oder müssten diese konvertiert werden?

GeoTIFF ist eine Variante von TIFF, die eigene Tags einführt. Diese sind offen spezifiert und können daher akzeptiert werden.

Sollte man beschädigte TIFFs aufheben schon alleine weil es in Zukunft geeignete Tools zur Wiederherstellung geben könnte?

Antwort von Yvonne Tunnat: Ja, Digital Preservation Science Fiction, ich bin dafür!
Antwort von Andreas Romeyke: In der Regel wird man weder Zeit, noch Ressourcen haben, etwas im Nachgang zu reparieren.

Seitenhierarchie