Entwurf: "Wie füge ich ein neues Dateiformat zu Pronom dazu?"
Benötigt werden:
- Hex Viewer
- XML Viewer/Editor (offenbar reicht hier Notepad++)
Es ist generell hilfreich, wenn das File Sample groß genug ist, da nur wenige Beispiele ggf. nicht genügend Auskunft über das Dateiformat geben.
Die File Signature muss in XML geschrieben werden.
Beispiel des GIF-Formats:
<DefaultShift>7</DefaultShift>
<Shift Byte ="37">2</Shift>
<Shift Byte ="38">3</Shift>
<Shift Byte ="46">4</Shift>
<Shift Byte ="47">6</Shift>
<Shift Byte ="49">5</Shift>
<Shift Byte ="61">1</Shift>
Die Reihenfolge ist egal, da DROID sich eh nach der angegeben Stelle richtet und nicht danach, welche Zeile zuerst kommt. Da der Pattern 6 Stellen lang ist, und +1 genommen wird, ist das ist dann der DefaultShift-Wert. Die Strings sind allerdings nicht immer so kurz wie beim GIF Beispiel.
Eigene Signaturen eintragen in sieben Schritten
- Mehrere Dateien desselben Formats sammeln. Es muss darauf geachtet werden, dass die Files aus verschiedenen Quellen stammen.
- Hex: Nach gemeinsamen Patterns/Strings suchen (besonders BOF (Begin of File) und EOF (End of File), kann aber auch mittendrin sein). Dies kann auch durch das Lesen der Formatspezifikation erleichtert bzw. auch ersetzt werden, da die BOF und EOF dort definiert sind.
- Falls Hex keine Ergebnisse liefert: TrIDScan (von Marco Pontello), das sucht nach gemeinsamen String in den Dateien und gibt es als XML aus. (Marco möchte die XMl Ausgabe als Feedback zu seiner Knowledge Base)
- Format Identifizierung: z. B. Hex String in Google suchen (Wikipedia listet auch die Hex signatures auf)
- XML Snippet erstellen: Hier gibt es eine UI-Vorlage, die so aussehende XML Files erstellt.
- Test - man kann die Signatur in DROID hochladen (upload signature file menu) und auf das Test Set jagen (testweise auch gegen andere File-Formats, die dann kein Treffer sein dürfen, testen ob es false positives gibt) + Full XML erstellen + erneuter Test
- http://www.nationalarchives.gov.uk/PRONOM/submitinfo.htm, und einreichen
Informationen aus dem TNA Guide
- Extensions sind nicht eindeutig und verschiedene Formate können die gleichen Extension haben (Beispiel .wks für Lotus 1-2-3 worksheets und MS Works documents)
- Die Version ist an der Extension nicht erkennbar (Beispiel .pdf, man weiß nicht einmal ob es sich um ein PDF/A, PDF/X oder eines der Standard-PDFs handelt)
- Extensions können per Hand verändert und überschrieben werden
Beispiele für deutlich und einfach zu identifizierende interne Signaturen im Hex Viewer
Format | Signatur | Entsprechung | Bemerkungen |
---|---|---|---|
html | 68 74 6D 6C | html | |
GIF87a | 47 49 46 38 37 61 | GIF87A | |
GIF89a | 47 49 46 38 39 61 | GIF89a | |
CDA | 43 44 44 41 66 6D 74 | CDDAfmt | |
25 50 44 46 | Dahinter erfolgt i.d.R. die Versionsnummer, z. B. -1.5 (2D 31 2E 35) | ||
MS Excel | 4D 69 63 72 6F 73 6F 66 74 20 45 78 63 65 6C 45 78 63 65 6C 2E 53 68 65 65 74 | Microsoft Excel Excel Sheet | Eher gegen Ende aber nicht ganz am Ende (mehrfach in der Datei gefunden) |
jpeg | 4A 46 49 46 | JFIF |
Quellen
- Adrian Brown, The National Archives: "Digital Preservation Technical Paper 1: Automatic Format Identification Using PRONOM and DROID" Technische Spezifikation des in PRONOM verwendeten Signaturschemas, der DROID-signature file und Beschreibung der in DROID implementierten Algorithmen zur Formatidentifizierung. Nicht unbedingt nötig für das Erstellen eigener Signaturen und schon gar nicht für die Benutzung von PRONOM/DROID. Anspruchsvoll, aber interessant fürs tiefere Verständnis.
- Adrian Brown, The National Archives: "Digital Preservation Technical Paper 2: The PRONOM Unique Identifier Scheme. A scheme of persistent unique identifiers for representation information" Technische Spezifikation der in PRONOM verwendeten PUIDs. Kurzform für unsere Zwecke: PUIDs für Formate haben das Schema "fmt/<Nummer>" oder "x-fmt/<Nummer>".
- Jay Gattuso, National Library of New Zealand: "How to write a new signature file for DROID" Erste Hälfte Erläuterung der DROID-signature file und Einführung in das Arbeiten mit einem Hex-Editor. Zweite Hälfte Beschreibung der Schritte zur Erstellung einer signature file für DROID. Leicht verständliches, stellenweise etwas ausführliches Tutorial/Werkstattbericht.