Sie zeigen eine alte Version dieser Seite an. Zeigen Sie die aktuelle Version an.

Unterschiede anzeigen Seitenhistorie anzeigen

« Vorherige Version anzeigen Version 9 Nächste Version anzeigen »

Pronom Library Updates und die Persistenz von PUIDs

Unterschied zwischen x-fmt und fmt-PUIDS

Rund 450 Nummern sind sowohl als fmt als auch als x-fmt in der Pronom Library enthalten. Es gibt keine Relation zwischen z. B. fmt/382 und x-fmt/382 (in diesem Fall Microsoft Visual FoxPro database container und Macromedia FLV). Jeder Identifikator ist eindeutig.

In der Historie waren x-fmt-PUIDs mal als vorübergehende PUIDs gedacht:

PUID types prefixed by 'x-' are used to provide temporary, privat or experimental namespaces for that type. These may be used, for example, where a system requires a PUID identifier to be present which has not yet been formally assigned. Thus, format PUIDs of the type 'x-fmt' might be assigned for formats which have not yet been assigned an 'fmt' identifier. An 'x-' PUID should not be considered persistent.

 (PUID Schema von 2006, S. 7)

Diese Idee rührt daher, erst eine fmt-PUID zu vergeben, wenn man sicher war, dass die Byte Sequenz (oder eine andere formale Identifizierungsstrategie) korrekt war. Sie wurde aber zugunsten der Persistenz rasch wieder verworfen, die Priorität lautet nun Stabilität der PUIDs (letzter Paragraph hier).

Deprecated PUIDs

Grundsätzlich bleibt jede PUID persistent, d. h. eine einmal verwendete PUID wird nicht eines Tages für ein anderes Format verwendet. Es kann aber durchaus sein, dass eine PUID fürderhin nicht mehr verwendet wird und somit als "deprecated" gilt. Im Normalfall wird für das Dateiformat dann eine aktuellere PUID verwendet.

Deprecated PUIDs bleiben allerdings auch weiterhin in der Dokumentation erhalten (TODO: Link einfügen) und werden keinesfalls gelöscht (es gibt zwei historische Ausnahmen, x-fmt/366 und x-fmt/431, die zwar gelöscht, aber dokumentiert sind). Die letzte deprecatedPUID ist vom 26.02.2013.

Beispiel deprecated PUID TIFF

So war zwischen 2005 und 2011 die PUID für das TIFF-Format noch fmt/10 (für die anderen drei TIFF-Versionen fmt/9, fmt/8 und fmt/7). Seit Juli 2011 jedoch wird das TIFF-Format unter der fmt/353 geführt. Es gibt unter fmt/10 einen Verweis auf fmt/353. Unter der fmt/353 wird zwar angedeutet, dass es Schwierigkeiten mit der Identifikation gab und daher eine neue Interpretation des Standards notwendig war, es gibt einen keinen direkten Verweis auf die deprecated PUID fmt/10.

Weiterentwicklung von DROID und Pronom und die praktischen Auswirkungen auf Dateiformatidentifizierung

Aufgrund der Weiterentwicklung der Pronom-Bibliothek wachsen die Möglichkeiten, ein Dateiformat sicher zu erkennen mit jedem Update der Bibliothek. Zum Beispiel war es früher nicht möglich, das Format "epub" zu erkennen, dies wurde lediglich als Containerformat erkannt (auch richtig, aber sehr allgemein).

Außerdem wurden vor der DROID v6 viele Office-Objekte einfach als "OLE2 Compound Document fmt/111" identifiziert, erst seitdem können sie gezielt als Word 97 -2003 Objekt identifiziert werden. Es ist daher sehr empfehlenswert, im Archiv eine Re- Identifizierung anzustoßen, wenn eine neue Version von DROID bzw. ein Update der Library bereitgestellt wird.

Beispiel vormals nicht erkanntes Format epub

Das epub-Format wird erst seit 2013 (Droid v6) erkannt. Soweit zurzeit (07/2015) bekannt ist, macht Pronom aber noch keinen Unterschied zwischen epub 2 und epub 3.

Praktischer Einfluss von mittlerweiele 82 Pronom Libraries auf den Identifzierungsalltag

Sofern man ein ausreichend großes Sample nimmt und es über die verschiedenen DROID-Versionen / Pronom Libraries laufen lässt, erhält man definitiv für einige Dateien im Laufe der Zeit verschiedene PUIDs (David Tarrant hatte da auch mal einen interessanten Zeitstrahl gebastelt, ML fragt bei der OPF nach, was daraus geworden ist).

Die hat diverse Ursachen, z. B.:

  • eine bereits existierende PUID war fehlerhaft und wurde korrigiert
  • von Zeit zu Zeit werden neue Methoden eingeführt. Z. B. kamen erst mit DROID v6 Container Signatures auf (was auch die Wende bei den Office-Dateien erklärt und auch bei epub ( ?) ).
  • oftmals gibt es neue PUIDs und Dateien, die vorher in allgemeinere Kategorien verfrachtet worden waren (siehe fmt/111), erhalten nun eine detailliertere Identifzierung
  • manchmal ändert sich auch konzeptionell etwas, so hatte TIFF früher vier PUIDs für die Verschiedenen TIFF-Versionen (fmt/7, fmt/8, fmt/9 und fmt/10), seit 2011 ist es aber nur fmt/353 (es gibt noch andere mit dem mimetype/TIFF, aber die Unterteilung in die vier TIFF-Versionen wurde aufgegeben). Hintergrund war, dass es nicht möglich war, die vier TIFF-Versionen verlässlich voneinander zu unterscheiden.

Formatidentifizierung ist keine exakte Wissenschaft. DROID und Pronom - und auch andere Ansätze - werden sich immer weiterentwickeln und somit wird es immer mal wieder zu Änderungen kommen, diese sind ja auch gewünscht und Ergänzungen ja sowieso. Wichtig ist ja vor allem, dass einmal vergebene PUIDs stets weiterhin dokumentiert sind.

Referenzen

Historische Entwicklung von Pronom (neue PUIDs, Updates usw.)

Fragen kann man auch an die offizielle Mailingliste schicken: PRONOM@nationalarchives.gsi.gov.uk

Persönliche Erfahrungen von Jay Gattuso (NLNZ)

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

(Yvonne erstellt hier eine Seite aus den Infos von Michelle und Jay Gattuso/NLNZ)

  • Keine Stichwörter