Blog-Eintrag vom März, 2011

An den Wochenenden 1.-3. und 8.-11. April 2011 werden umfangreiche Kontingente Normdaten aus dem Bibliotheksverbund Bayern in den Hauptbestand der DNB eingespielt. Dabei handelt es sich um ca. 1 Mio. PND- und 50.000 GKD-Sätze. Die Datensätze sind im Vorfeld durch das Match&Merge-Programm geprüft worden, Dubletten sind dadurch zwar nicht ausgeschlossen, aber in ihrer Anzahl weitestmöglich reduziert.

Informationen zu den PND-Sätzen
Es handelt sich fast ausschließlich um Tn-Sätze mit dem Katalogisierungslevel 6. Sie werden als integraler Bestandteil der PND in den IDN-Bereich 15.100.000.x bis 16.200.000.x eingespielt. Das gespeicherte Einspieldatum der Datensätze ist der 22.03. - 25.03.2011. Alt-IDNs des BVB sind im Feld 101 |z| ("Lokale Kennung") vorhanden und über den Index BAF suchbar. Datensätze aus dem ersten Kontingent der neuen PND-Sätze sind ab Montag, 4. April, über die üblichen Personen-Indices zu finden und normal verwendbar.

Informationen zu den GKD-Sätzen
Auch die GKD-Sätze werden integraler Bestandteil der GKD, sie erhalten die ILTIS-IDNs 5.100.000.x bis 5.157.000.x und die GKD-IDs 16.103.452ff. Auch hier handelt es sich größtenteils um Datensätze mit dem Katalogisierungslevel 6. Das gespeicherte Einspieldatum der Datensätze ist der 17.03.2011. Alt-IDNs des BVB sind im Feld 255 ("zusätzliche Suchwörter") vorhanden und über Index ZSW suchbar. Die neuen GKD-Sätze sind ab Montag, 11. April, über die üblichen Körpeschafts-Indices zu finden und normal verwendbar.

Alle Datensätze haben als ISIL des Urhebers und der Verbundredaktion "DE-12" (BSB München), der PICA-Urhebercode lautet 9010.

Bei der Migration zur GND Anfang 2012 werden die Alt-IDNs des BVB automatisch gelöscht.

Seit 1. März 2011 gilt ein neues Verfahren für die Planung, Bearbeitung und Durchführung von Anforderungen an das ILTIS-Katalogsystem.
Am 4. April 2011 wird das erste nach diesem Verfahren zusammengestellte Release „veröffentlicht“.

In diesem CBS-Konfigurations-Release sind die folgenden Anpassungen enthalten:

Jira-Vorgang

Zusammenfassung

Komponente

ILT-1153

Neue Unterfelder in 045E

Datenformat / Validation

ILT-1742

Neues Unterfeld $5 in 044K

Datenformat

ILT-1819

[ZDB-172] Zulassung neuer Codes in 0600/017A

Validation

ILT-1821

Validation von 037H in Titel- und Normdaten

Validation

ILT-1822

Externe Sicht: Datenformat der Felder 4700 und 4701 anpassen

Datenformat

ILT-1826

Gattungsbegriffe: Einrichtung Index GAT für 510 und 530

Indexierung

ILT-1828

Gattungsbegriffe: Expansion für 175 (Satzart Te) und 5580 (Titeldaten) einrichten

Präsentation

ILT-1848

Externe Sicht: Indexierung 4700/047A $S (wortweise)

Indexierung

ILT-1867

[ZDB-186] Änderung der Validation für 4237 (037G)

Validation

ILT-1868

[ZDB-187] Feld 5450 (045Z) Erweiterung der Indexierung

Indexierung

Hinweis: Für den Aufruf der einzelnen Jira-Vorgänge über die eingerichteten Links werden Zugangsberechtigungen für das Bugtracking-Tool Jira der Deutschen Nationalbibliothek benötigt!


Durch die verstärkte Öffnung des ILTIS-Produktionssystems für externe Anwender (Verbünde, ZDB-Teilnehmer) ist die bisher als strikt intern gedachte Kategorie 4700 für diesen Anwenderkreis sichtbar. Dies gilt auch für Kategorie 4701 in monografischen Datensätzen.

Seit über einem Jahr gibt es Überlegungen - möglichst ohne großen Aufwand - interne Bemerkungen in den Titeldaten vor externen Anwendern zu verbergen. Zukünftig sollen die internen Bemerkungen nur in Kategorie 4700 abgespeichert werden. Dieses Feld soll dann für externe Anwender unsichtbar sein. Für DNB-MitarbeiterInnen und die KollegInnen der ZRT bleibt das Feld weiterhin sichtbar. Kategorie 4701 in ZDB-Datensätzen bleibt von den Änderungen unberührt.

Es folgen Details zur Umsetzung.

1. Datenformat

Die Kategorie 4700 wurde bereits im Februar 2011 für maschinell generierte Bemerkungen aus dem PETRUS-Projekt wiederholbar gemacht und um das Unterfeld $S "|....|" erweitert. In diesem Unterfeld soll zukünftig in Form eines Kürzels hinterlegt werden, wer die in der aktuellen Kategorie enthaltene Bemerkung verfasst hat. Folgende Urheber sind zurzeit möglich:

Urheberkürzel

Beschreibung

BEN

Benutzung

BSM

Buch- und Schriftmuseum

DEA

Exilarchiv

DMA

Musikarchiv

ERW

Erwerbung

EXI

Sammlung Exil-Literatur

FE

Formalerschließung

IE

Inhaltserschließung

ISS

ISSN-Zentrum

ND

ND-Sätze

PE

PETRUS-Projekt

ZS

Integrierte Zeitschriftenbearbeitung

Da in monografischen Datensätzen die Inhalte von Kategorie 4701 nach Kategorie 4700 verschoben werden sollen, damit auch diese für externe Anwender nicht sichtbar sind, müssen die Formatbeschreibungen beider Felder angeglichen werden. Das bedeutet, dass auch in Feld 4700 die Unterfelder $d (Sammel- bzw. Nichtsammelgebietsvermerk) und $e (Begründung zum Sammel- bzw. Nichtsammelgebietsvermerk) definiert werden. In diesem Zusammenhang soll das Unterfeldeinleitungszeichen für $e von „¬:¬„ nach „++...“ geändert werden, um die Lesbarkeit zu verbessern.

2. Batchverarbeitungen

Ab 14.03.2011 werden bestehende Kategorien 4700 und 4701 automatisch überarbeitet. Ab diesem Zeitpunkt werden vermehrt Datensätze vorhanden sein, bei denen die genannten Felder um Unterfeld $S ergänzt wurden. Von diesen Batchverarbeitungen sind die Titeldaten der Zeitschriftendatenbank jedoch ausgeschlossen. Alle im folgenden einzeln aufgeführten Verarbeitungen sollen bis zum 31.03.2011 abgeschlossen sein. Die Datensatzänderungen werden nicht über die üblichen Schnittstellen an lokale Systeme bzw. Verbünde ausgeliefert.

  • In den Datensätzen des Neuerscheinungsdienstes, die die Kategorie 4700 enthalten, wird diese Kategorie durch den einleitenden Text „ND“ in Unterfeld $S ergänzt. Diese Verarbeitung betrifft ca. 1300 Datensätze.
  • In den monografischen Datensätzen der Deutschen Nationalbibliothek wird die Kategorie 4700 durch den einleitenden Text „FE“ in Unterfeld $S ergänzt. Die Infosätze werden dabei nicht berücksichtigt. Diese Verarbeitung betrifft ca. 5 Millionen Datensätze.
  • In den monografischen Datensätzen, den Datensätzen des Neuerscheinungsdienstes und Infosätzen der DNB wird die Kategorie 4701 durch den einleitenden Text „ERW“ in Unterfeld $S ergänzt und in Kategorie 4700 umgewandelt. Diese Verarbeitung betrifft ca. 1,4 Millionen Datensätze.

3. Stichtag

Ab Montag, dem 2. Mai 2011, ist der einleitende Text in Feld 4700 verpflichtend. Ausnahmen sind die Titeldaten der Zeitschriftendatenbank und die Daten der Musikalien und Tonträger des Deutschen Musikarchivs! In allen WinIBW-Funktionen der DNB wird ab diesem Zeitpunkt das Feld 4700 mit dem einleitenden Text der zugehörigen Abteilung erzeugt. Erweiterte Funktionalitäten (Prüfungen, Sortierung) stehen ggf. erst zu einem späteren Zeitpunkt mit WinIBW3 zur Verfügung. Ab dem genannten Stichtag wird bei allen Kennungen externer Anwender sukzessive bis Ende April 2011 das Feld 4700 ausgeblendet.

Ab Dienstag, dem 15.03.2011 stehen auf den ILTIS-Seiten aktualisierte Katalogisierungsrichtlinien für Titeldaten zur Verfügung.

Zu diesem Anlaß wurde das Design der ILTIS-Seiten in folgenden Punkten überarbeitet:

1. In der Navigationsleiste am linken Bildschirmrand befinden sich nur noch die Themen ILTIS-Handbuch und ILTIS-Infos.
Das Thema „WinIBW-Handbuch“ ist zukünftig innerhalb des ILTIS-Handbuch zu finden.

2. Die Hauptseite des ILTIS-Handbuch ist in fünf Bereiche aufgeteilt: Systembeschreibungen, Titeldaten, Normdaten, Codes und Konkordanzen Pica+ - Pica3
Unter Systembeschreibungen befinden sich u.a. das WinIBW-Handbuch, die Online-Routinen, Meldungen des Systems und Architektur und Schnittstellen. Die Übersicht der Kommandosprache wird noch ergänzt.
Unter Titeldaten befinden sich die Feldverzeichnisse, Katalogisierungsrichlinien und Indexierungsübersichten der unterschiedlichen Titeldaten.
Unter Normdaten findet man die Feldverzeichnisse, Redaktionsrichtlinien, Indexierungsübersichten und Validationsbeschreibungen der überregionalen und lokalen Normdaten.
Unter Codes befinden sich die SWD-Notationen, Ländercodes und Sprachencodes.
Unter Konkordanzen Pica+ – Pica3 findet man ebendiese für Norm- und Titeldaten

3. Für die Katalogisierungsrichtlinien der Titeldaten von DNB Leipzig/Frankfurt wurde eine Zwischenseite mit dem Teil 1 Monografien, Loseblattausgaben, Hochschulprüfungsarbeiten, Karten und fortlaufende Sammelwerke eingefügt, von der aus man u.a. zur Beschreibung der Datenfelder des Externformats und zu Beschreibungen der maschinellen Bildung der Sortierhilfe gelangt. Weitere Teile und Dokumente werden ergänzt.

4. Die Seite Beschreibung der Datenfelder des Externformats enthält eine Liste der Datenfelder, zu denen es einzelne Beschreibungen im PDF-Format gibt. Diese Beschreibungen können auch innerhalb der WinIBW3 mit der Taste F1 aufgerufen werden, wenn der Cursor sich im Editiermodus in der Zeile der entsprechenden Kategorie befindet. Wenn zu einem Feld noch keine Beschreibung vorhanden ist, kommt die Meldung: „Seite nicht gefunden“. Mit Fragen dazu wenden Sie sich bitte an Frau Reinsch oder Frau Freidhof. Grundsätzliche Probleme mit dieser Hilfefunktion bitte dem IT-Service melden.

5. Die Statistiken der Satzarten befinden sich nun direkt auf der Startseite unterhalb des Bildschirmbereichs „Zuletzt aktualisiert“. Zum Stichtag ist geplant einzelne Statistikseiten für

  • die überregionalen Normdaten,
  • die Titeldaten und lokalen Normdaten der Deutschen Nationalbibliothek und
  • die Titeldaten und das Sigelverzeichnis der Zeitschriftendatenbank.

zur Verfügung zu stellen.

Im Rahmen des PETRUS-Sz. 3 wurde unter Einsatz der PICA-Match-und-Merge-Software ein automatisches Verfahren zur Erkennung von parallelen Print- und Onlineausgaben entwickelt.

Ziele sind:

  1. die automatische Verknüpfung von parallelen Print- und Onlineausgaben und
  2. die maschinelle Übernahme bereits vorhandener Inhaltserschließungsdaten und Normdatenverknüpfungen in die Titelaufnahmen der entsprechenden parallelen Ausgaben.

Die Datengrundlage für den regelmäßig stattfindenden Abgleich bildet der gesamte ILTIS-Bestand  an Print- und Online-Monografien. Die Zeitschriften-Datensätze sind ausgenommen, da diese nach dem Zeitschriften-Regelwerk ZETA bereits parallele Verknüpfungen zwischen Ausgaben in unterschiedlichen Materialarten (darunter auch Online-Ausgaben) enthalten.

Implementiert werden zwei Prozesse: einer für die Oaf-Sätze nach ihrem ILTIS-Import und ein zweiter für Aa-/AF-Sätze nach Abschluss ihrer intellektuellen Bearbeitung. Für alle bereits in ILTIS vorhandenen NP-Datensätze (Oa, Oc, OF, Oaf) wird das Verfahren rückwirkend einmalig durchgeführt.

Die Prozesse sehen so aus, dass zuerst mittels eines Datenabgleichs (Match) nach einem passenden Pendant gesucht wird. Werden zwei parallele Datensätze gefunden, können Normdatenverknüpfungen (PND, GKD) übernommen und Inhaltserschließungsdaten wechselseitig ausgetauscht werden.

Nach erfolgreichem Match sind in beiden Datensätzen folgende Felder von Neuerungen betroffen:

Pica3

Pica+

Neuerung bzw. Aktion

0600

017A

Vergabe eines neuen Codes:
- pb (parallele Ausgabe bestätigt): wird vergeben, wenn zwei Datensätze verknüpft wurden
- pn (parallele Ausgabe nicht bestätigt): wird vergeben, wenn zwei Datensätze zwar nicht verknüpft wurden, aber aufgrund ihrer Ähnlichkeit Normdatenverknüpfungen und Inhaltserschließungsdaten untereindander ausgetauscht haben könnten

30XX

028X

Gegenseitiger Abgleich der verbalen Personeneinträge und ggf. Übernahme einer PND-Verknüpfung in das jeweilige Pendant

31XX

029X

Gegenseitiger Abgleich der verbalen Körperschaftseinträge und ggf. Übernahme einer GKD-Verknüpfung in das jeweilige Pendant.
Besonderheit: Fehlt in einem Oaf-Satz bei der Ablieferung der verbale Körperschaftseintrag, wird der verbale Eintrag oder die GKD-Verknüpfung aus der parallelen Ausgabe (pb-Code) übernommen.

4243

039D

Gegenseitige Verknüpfung der parallelen Datensätze (Vergabe des pb-Codes in 0600) mit entsprechendem Vortext:
- Online-Ausg.!IDN des parallelen Titels!
- Druckausg.!IDN des parallelen Titels!

4700

047A

Kurzer Kommentar entsprechend des in 0600 vergebenen Codes:
- |PE|*Parallelverknüpfung wurde automatisch erstellt (bei pb-Code)
- |PE|*Dieser Datensatz kann Normdatenverknüpfungen und Inhaltserschließungsdaten enthalten, die von IDN … übernommen wurden (bei pn-Code)

5050

045E

Die DNB-Sachgruppe wird in den O*-Datensatz übertragen, auch wenn das Feld bereits besetzt ist. Das Feld 5050 ist wiederholbar.
In den A*-Datensatz wird die DNB-Sachgruppe nur übernommen, wenn noch keine 5050 vorhanden ist. Damit gibt es im Print-Datensatz immer nur eine 5050 (oder keine).
Die übernommene Sachgruppe wird in ein weiteres Feld 5050 geschrieben, ergänzt durch $Ep$D<Datum>. Das kleine p in dem neu geschaffenen Unterfeld $E ist der Indikator dafür, dass der Feldinhalt aus einer parallelen Ausgabe übernommen wurde. Das Datum zeigt an, wann die Sachgruppe übertragen wurde. Über Sz. 3 hinaus sind im Unterfeld $E weitere Belegungen möglich: a für abgelieferte Sachgruppen oder m für maschinell erstellte Sachgruppe.

51XX

041A/XX

RSWK-Ketten bzw. -Folgen werden wechselseitig übernommen, sofern sie im jeweiligen Pendant nicht bereits zu finden sind.
Besonderheit: Formschlagwörter, die die Materialart beschreiben, werden nicht in die parallele Ausgabe übernommen.

540X-544X

045F-045J/04

DDC-Notation(en) werden wechselseitig übernommen, sofern sie im jeweiligen Pendant nicht bereits zu finden sind.

5450
5530
5550
5560

045Z
044F
044K
044N

Inhaltserschließungsdaten aus Fremd- und Altdaten werden wechselseitig übernommen, sofern sie im jeweiligen Pendant nicht bereits zu finden sind. Besonderheit: Wenn das Feld 5560 materialartspezifische Informationen enthält, die mit [VLB-PF], [VLB-PG], [VLB-WI], [VLB-WN] oder [Produktform] eingeleitet werden, oder die Formulierung „für Harvesting bereitgestellt“ aufweist, werden die Feldinhalte nicht in den parallelen Datensatz übernommen.

Im Rahmen des PETRUS-Projektes wurde unter Einsatz der PICA-Match-und-Merge-Software ein Verfahren zur automatischen Verknüpfung von Personennamen in Titeldaten zur Personennamendatei (PND) entwickelt.

Ziele

  1. Das Szenario 2 ist Teil der Intensivierung und Förderung von Metadatenübernahme in der DNB. Es sollen alle in Fremddaten gelieferten Verfasser und sonstige beteiligte Personen dauerhaft in den Titeldatensatz übernommen werden, auch über den Umfang der derzeit angewandten Regeln hinaus. 
  2. Alle Verfasser und sonstige beteiligte Personen in Titeldatensätzen sollen mit der PND verknüpft sein. Alle Personennamen, die nach derzeit angewandtem Regelwerk und vorliegendem Erschließungskonzept nicht intellektuell bearbeitet werden, sollen automatisch relationiert werden.

Am 1. März 2011 wurde die automatische PND-Verknüpfung (Stufe 1) implementiert.

In der ersten Stufe sieht der Prozess für die automatische PND-Verknüpfung folgendermaßen aus:

Berücksichtigt werden alle nicht mit der PND-verknüpften Personennamen bei Netzpublikationen in den Kategorien 3000-3002, 3019 und bei intellektuell bearbeiteten Printdatensätzen im Feld 3019.

Personennamen, die als Textphrase vorliegen, werden mit den Ansetzungsformen der PND-Einträge abgeglichen, wobei in Stufe 1 nur Tn-Sätze berücksichtigt werden.

Wenn

  • genau 1 Tn-Satz passt, dann wird der Titeldatensatz mit diesem verknüpft
  • kein Tn-Satz passt, dann wird automatisch ein Tn-Satz angelegt und der Titeldatensatz mit diesem verknüpft
  • mehrere Tn-Sätze passen, dann wird der Titeldatensatz mit dem Tn-Satz mit dem besten Katalogisierungslevel bzw. bei gleichem Level mit dem zuerst erstellten verknüpft. (Der dublette Tn-Satz wird gemeldet und muss gelöscht werden.)

Für Namensformen, denen mehrere Titel automatisch zugeordnet wurden, erfolgt eine

Überprüfung: Nicht individualisierte PND-Sätze, die automatisch mit 5 Titeldatensätzen verknüpft

wurden, werden gemeldet und intellektuell individualisiert.

Personen in den Kategorien 3000-3002 und 3019, die automatisch zur PND relationiert wurden, erhalten im Unterfeld $S die Kennzeichnung |m|.

Bsp.: 3000 |m|!1100036504!Wilhelmi, Friederike

PICA3

PICA+

Sbf

Bezeichnung

30XX

028A

 

Verfasser, sonstige beteiligte Personen oder weitere beteiligte Personen

 

 

$S

|m| = maschinell verknüpft

Namensphrasen, für die automatisch ein PND-Datensatz erzeugt wurde, erhalten im Feld 005 das Erschließungslevel 7.

Bsp.: 005 Tn7

        100 Wilhelmi, Friederike

PICA3

PICA+

Sbf

Bezeichnung

005

002@

$0

Gattung und Status
Pos. 1: T Thesaurus
Pos. 2: n Name (nichtindividualisierter Satz)
Pos. 3: 7 maschinell aus Metdadaten erstellt