Blog-Eintrag vom 2012-01-17

PETRUS Szenario 1


Mit Projektabschluss von PETRUS wird die maschinelle Sachgruppenvergabe jetzt in die Erschließungspraxis der Deutsche Nationalbibliothek eingebunden. Ab dem 16. Januar 2012 wird deutsch- und englischsprachigen monografischen Netzpublikationen der Reihe O, die im PDF-Format vorliegen, maschinell eine DDC-Sachgruppe zugewiesen. Für Netzpublikationen, die zwischen 2010 und 2012 abgeliefert wurden, wird die maschinelle Sachgruppenvergabe rückwirkend durchgeführt. Von der maschinellen Sachgruppenvergabe ausgenommen sind Zeitschriften, Musikalien und Tonträger.

Netzpublikationen in anderen Dateiformaten, z.B. EPub werden im Laufe des Jahres in den Prozess integriert.

Für die maschinelle DDC-Sachgruppenvergabe wurde ein neuer Geschäftsprozess entwickelt und in die bestehenden Geschäftsprozesse integriert.
Das Erschließungsmodul „Averbis Extraction Platform“ der Firma Averbis wurde in die Systeminfrastruktur der DNB eingebettet.

Abbildung: Schematische Darstellung der Abläufe im Produktionsbetrieb.

Im laufenden Betrieb wird der Prozess der maschinellen DDC-Sachgruppenvergabe jede Nacht zu einer festgelegten Zeit gestartet. Die Identnummern [IDN] der neuen Netzpublikationen werden über das Erfassungsdatum, den Publikationstyp und weitere Kriterien selektiert und an den DNBPetrusService [2] übergeben. Die Übergabe bewirkt, dass der DNBPetrusService sich die zu erschließenden Texte mittels ARAS (Abstract Repository Access Service) aus dem Repository [Rep] und die zugehörigen Metadaten über eine lesende Schnittstelle [1]  aus der bibliografischen Datenbank [CBS]  holt. Dabei werden die Textobjekte vom PDF- in das UTF8-Format umgewandelt. Anhand festgelegter Schwellenwerte für Stoppwörter, Größe, Wortanzahl usw. wird der Text analysiert. Ist mindestens ein Kriterium nicht erfüllt, wird der Text abgelehnt. Es kann keine Sachgruppe maschinell vergeben werden und eine Fehlermeldung wird generiert. Bei Dokumenten, die aus mehreren Dateien bestehen, wird die hinsichtlich der Wortanzahl größte Datei  für die weitere Verarbeitung übergeben. Im nächsten Schritt wird mit dem Language Guesser – einem vorgeschalteten Modul aus der Averbis Extraction Platform – die Sprache des Textes ermittelt. Als Ergebnis erstellt der Language Guesser für jedes Dokument eine Sprachen-Rangliste. Die Sprache mit dem höchsten Rang wird als Dokumentsprache gewählt. Nach der Übergabe an den Averbis-Webservice [3] werden deutschsprachige und englischsprachige Dokumente jeweils einer eigenen Konfiguration der Averbis Extraction Platform zugeführt. Die zwei Konfigurationen wurden durch ein separates Training erstellt, die eine für deutschsprachige, die andere für englischsprachige monografische Netzpublikationen.

Die Averbis Extraction Platform weist den Netzpublikationen Sachgruppen mit den berechneten Konfidenzwerten zu. Liegt der höchste dieser Konfidenzwerte für einen Titel unter einem vorgegebenen Schwellenwert, dann wird zusätzlich ein Statusindikator hinzugefügt, damit diese Netzpublikationen von der Abteilung Inhaltserschließung nachbearbeitet werden können. Die drei Sachgruppen mit den höchsten Konfidenzwerten und der Statusindikator, wenn vorhanden, werden über den Averbis-Webservice an den DNBPetrusService zurückgeben. Dieser fügt über eine schreibende Schnittstelle [4] die Sachgruppe mit dem höchsten Konfidenzwert und gegebenenfalls den Statusindikator als Metadaten für diesen Titel in den bibliografischen Datensatz [CBS] ein.

Somit bestehen für die DDC-Sachgruppen bei der Reihe O folgende Erfassungsarten:

  • Bis zu drei Sachgruppen können im Zuge von Qualitätsmanagementprozessen durch intellektuelle Erschließung vergeben werden.
  • Eine Sachgruppe kann durch die maschinelle Sachgruppenvergabe vergeben werden.
  • Falls eine parallele Druckausgabe vorhanden ist, können bis zu drei Sachgruppen durch einen maschinellen Abgleich aus dieser Ausgabe übernommen werden. Dabei werden alte Sachgruppen nicht übernommen, sondern nur die über Konkordanzen gemapten DDC-Sachgruppen.
  • Eine Sachgruppe kann bei der Ablieferung erstellt werden. Dieser Fall liegt vor, wenn sie entweder durch den Ablieferer im Webformular ausgewählt oder über Konkordanzen zu anderen mitgelieferten Systematiken erstellt wurde.

Damit verbunden sind interne Anpassungen der Metadatenfelder im PICA-Datenformat.

Die neuen Unterfelder sind in der folgenden Tabelle dargestellt:

PICA3

PICA+

Unterfeld

Trennzeichen

Bezeichnung

5050

045E

 

 

Sachgruppen der Deutschen Nationalbibliografie

 

 

$E

"$E"

Erfassungsart der DDC-SG
$Ei        intellektuell vergeben
$Ep       aus Parallelausgabe übernommen
$Em      maschinell vergeben
$Ea       abgeliefert
Neuer Suchschlüssel: efa

 

 

$H

"$H"

Herkunft der DDC-Sachgruppe
dnb       durch die DNB maschinell erzeugte Sachgruppe
mrc      Ablieferung im Format MARC 21
onx       Ablieferung im Format ONIX
xmp      Ablieferung im Format XmetadissPlus
wbf       Ablieferung über das Webformular
Neuer Suchschlüssel: her

 

 

$K

"$K"

Konfidenzwert der maschinell erstellten DDC-Sachgruppe
zwischen 1,000 und 0,000.
Neuer Suchschlüssel: kfw

 

 

$D

"$D"

Datum (JJJJ-MM-TT) der maschinellen Erstellung der DDC-
Sachgruppe/Übernahme beim Import. 
Neuer Suchschlüssel: sda

5051

 

$a

 

Statusindikator: Kennzeichnung mit qs, wenn die maschinell erstellte
Sachgruppe unter einem definierten Schwellenwert liegt.
Neuer Suchschlüssel: sgf


Das Unterfeld Erfassungsart $E gibt Auskunft, ob die Sachgruppen maschinell, durch Import, über einen Parallelausgabenabgleich oder intellektuell vergeben wurde. Keine Belegung bedeutet eine intellektuelle Vergabe der Sachgruppe für Printpublikationen.

Das Unterfeld mit dem Konfidenzwert $K kann zwischen 1,000 und 0,000 liegen. Das Unterfeld $H gibt Auskunft über die Herkunft der DDC-Sachgruppe. Das Datumsunterfeld $D zeigt das Übernahmedatum beim Import für übernommene Sachgruppen aus der parallelen Printausgabe, das Datum der maschinellen Erstellung für maschinell vergebene Sachgruppen und das Datum der Ablieferung für abgelieferte Sachgruppen an.

Zusätzlich zu den neuen Unterfeldern wird das Feld 5050 bzw. 045E wiederholbar. So können in einem Titeldatensatz mehrere Sachgruppen verschiedener Erfassungsarten und unterschiedlicher Herkunft untereinander stehen.

Beispiel einer Netzpublikation mit maschineller Sachgruppe in ILTIS:

4000 Creating High-Quality Products in Open Content Virtual Communities  
...
4030 Saarbrücken : VDM Verlag Dr. Müller
4060 Online-Ressource

5050 004$Ep$D2012-01-17
5050 004$Em$Hdnb$K0,818$D2012-01-17       
5050 004$Ea$Honx$D2012-01-16