Empfehlung für die RDF-Repräsentation bibliografischer Daten (Textressourcen) NEU 2017

In Arbeit

Diese Seite wird als Nachfolger von Empfehlung für die RDF-Repräsentation bibliografischer Daten (Textressourcen) vorbereitet und ist derzeit in Bearbeitung und noch nicht final abgestimmt! [Jana Hentschke, 20.02.2017]

Versionshistorie

XX.05.2017	Version 2.0 Überarbeitungen im Zuge der Einführungen der Resource Description and Access (RDA) an vielen Institutionen des deutschen Sprachraums, Anpassungen an Erkenntnisse aus der Praxis der beteiligten RDF-Datenproduzenten
02.06.2014	Version 1.1 urn:nbn:de:kobv:11-100217673 Korrektur des RDA Namespaces und der Base Domain
30.09.2013	Version 1.0 urn:nbn:de:kobv:11-100212769

Über die DINI-AG-KIM Gruppe Titeldaten

In den letzten Jahren wurde eine Vielzahl an Datensets aus Kultur- und Wissenschaftseinrichtungen als Linked Open Data veröffentlicht. Auch das deutsche Bibliothekswesen hat sich aktiv an den Entwicklungen im Bereich Linked Data beteiligt. Die zuvor lediglich in den Bibliothekskatalogen vorliegenden Daten können weiteren Sparten geöffnet und so auf vielfältige Weise in externe Anwendungen eingebunden werden. Gemeinsames Ziel bei der Veröffentlichung der Bibliotheksdaten als Linked Data ist außerdem, Interoperabilität und Nachnutzbarkeit zu ermöglichen und sich auf diese Weise stärker mit anderen Domänen außerhalb der Bibliothekswelt zu vernetzen.

Es bestehen sowohl Linked-Data-Services einzelner Bibliotheken als auch der deutschen Bibliotheksverbünde. Trotz ihres gemeinsamen Ziels sprechen die bestehenden Services nicht die gleiche Sprache, da sie auf unterschiedlichen Modellierungen basieren. Um die Interoperabilität dieser Datenquellen zu gewährleisten, sollten die Dienste künftig einer einheitlichen Modellierung folgen.

Vor diesem Hintergrund wurde im Januar 2012 eine Arbeitsgruppe gegründet, in der alle deutschen Bibliotheksverbünde, die Deutsche Nationalbibliothek sowie einige weitere interessierte und engagierte Kolleginnen und Kollegen mit entsprechender Expertise vertreten sind. Die Arbeitsgruppe Titeldaten agiert seit April 2012 als Untergruppe des Kompetenzzentrums Interoperable Metadaten (DINI AG KIM). Die Moderation und Koordination liegt bei der Deutschen Nationalbibliothek.
Im Dezember 2012 schloss sich auch der OBVSG der Arbeitsgruppe an. Die Schweizerische Nationalbibliothek folgte im Mai 2013.

Vorliegende Empfehlungen sollen zu einer Harmonisierung der RDF-Repräsentationen von Titeldaten im deutschsprachigen Raum beitragen und so möglichst einen Quasi-Standard etablieren.

Auch international wird an der Herausforderung gearbeitet, die bestehenden bibliothekarischen Strukturen in die heute zur Verfügung stehenden Konzepte des Semantic Web zu überführen und ihren Mehrwert auszuschöpfen. Die neuesten internationalen Entwicklungen im Bereich der Bereitstellung bibliografischer Daten im Semantic Web wie die Bibliographic Framework Transition Initiative der Library of Congress (BIBFRAME) haben ebenfalls das Ziel, ein Modell zur RDF-Repräsentation bibliothekarischer Daten bereitzustellen. Die Gruppe Titeldaten beobachtet diese Entwicklungen und beabsichtigt, die Erfahrungen und Anforderungen der deutschsprachigen Bibliothekswelt mit einzubringen. Dabei werden einerseits international erarbeitete Empfehlungen aufgegriffen und andererseits Impulse aus der nationalen Kooperation dort eingebracht. Die hier verwendeten Properties könnten z.B. als Grundlage für ein Mapping zu BIBFRAME dienen.

Erläuterungen zur Vorgehensweise

Die DINI AG KIM Gruppe Titeldaten analysierte zunächst, welche Metadaten zur Beschreibung einer bibliografischen Ressource erforderlich sind und welcher Gruppe einer bibliografischen Beschreibung sie zugeordnet werden können. Dies sind:

Titel
Beteiligte Personen / Rollen / Organisationen
Datumsangaben
Ortsangaben
Identifier
Medientypen
Relationen / Hierarchien
Inhaltserschließende Angaben
Sprache

Die vorliegenden Empfehlungen beinhalten die Modellierung eines Kernelementsets. Unter Kernelementen werden hier Properties verstanden, die in einer RDF-Repräsentation enthalten sein sollen, sofern der Ausgangsdatensatz diese enthält. Im ersten Schritt wird ein Kernelementset für textuelle Ressourcen beschrieben. Die Beschreibung von Kernelementen für spezifische Objekttypen (Film, Musik, etc.) sollen in einer späteren Version folgen.

Je nach Anwendungsfall können Anforderungen bestehen, zusätzlich einzelne Felder mit weiteren RDF-Properties auszuweisen oder eine größere Auswahl an Feldern in die RDF-Repräsentation eines Titeldatensatzes mit aufzunehmen. Dies liegt im Ermessen der jeweiligen Institution.

Namespaces

Die vorliegende Modellierung nutzt folgende Ontologien nach. Die Auswahl richtet sich nach dem Grad der Verbreitung, d.h. im ersten Schritt wird das Dublin Core-Vokabular nach geeigneten Elementen untersucht, da dieses auch außerhalb der Bibliothekswelt stark verbreitet ist und – im Gegensatz zu z. B. dem ISBD-Vokabular – sprechende Elementbezeichnungen hat. Wenn dieses kein passendes RDF-Element bietet, wird die Bibliographic Ontology daraufhin geprüft usw.. Es ist den Beteiligten bewusst, dass das Vokabular bestehender Ontologien nicht immer den Anforderungen an die Abbildung von Datenstrukturen in voller Tiefe entspricht.
Es sei darauf hingewiesen, dass die Anwendung der RDA-Vocabularies und ihrer RDF-Elemente keinen Hinweis auf das bei der Erschließung zugrunde gelegte Regelwerk zulässt.

• Dublin Core terms

• Dublin Core elements 1.1

• Bibliographic Ontology (Bibo)

• Resource Description and Access Vocabularies (RDA)

• International Standard Bibliographic Description (ISBD)

• RDF Schema

• Upper Mapping and Binding Exchange Layer (Umbel)

• schema.org: Library extension terms (diese haben den Status „work in progress“. Stand: 14. Mai 2013)

Darstellung

Ilustrierende Beispiele werden in Terse RDF Triple Language ("Turtle") Serialisierung notiert.

Mappings

Da die bestehenden Linked Data Services in Deutschland unabhängig voneinander entstanden und jede Bibliothek bzw. jeder Verbund eine eigene Datenmodellierung erarbeitete, sind die Umsetzungen vielfältig. Die unterschiedlichen Modellierungen resultieren unter anderem aus differierenden Katalogisierungsumgebungen an den verschiedenen Institutionen: Die RDF-Beschreibungen werden jeweils auf Basis unterschiedlicher Ausgangsformate erstellt. Als gemeinsames Ausgangsformat für die konkrete Datenmodellierung in RDF wurde daher MARC 21 gewählt. Zunächst folgt ein vom Ausgangsformat unabhängiges konzeptuelles Mapping. Es ist geplant, in Zukunft auch Mappings weiterer Ausgangsformate zur Verfügung zu stellen (siehe hierzu auch: Beispielimplementierungen).

Nicht-verlinkte Information

Viele Datenerzeuger haben mit dem Problem zu tun, dass einzelne Informationselemente sowohl als Referenz auf ein anderes Datenset als auch als Literal in den Daten vorliegen können.

Beispiel

Das Element "Schöpfer" wird nach aktueller Erfassungspraxis der Beispielinstitution über einen Link auf die Gemeinsame Normdatei (GND) identifiziert, wurde aber in einer bestimmten Generation von Altdaten als Literal erfasst.

Da es sich um dasselbe Informationselement handelt, sollte für beide Fälle dieselbe rdf:Property verwendet werden. Andernfalls ist für den Nutzer der Daten Hintergrundwissen über der Modellierung der Daten notwendig, um beide Formen auswerten zu können.

Es ist außerdem nicht ratsam, eine rdf:Property im selben Datenset sowohl als owl:ObjectProperty (d.h. mit URI in Objektposition) als auch als owl:Datatype oder owl:AnnotationProperty (d.h. mit Literal in Objektposition) zu verwenden. Das sollte auch gelten, wenn ihre Definition keine Aussage zum erwarteten Objekttyp macht, d.h. z.B. keine rdfs:range-Beschränkung vorliegt. Deshalb wird hier empfohlen, im beschriebenen Fall jeweils mit einer owl:ObjectProperty zu arbeiten.

Bei Literalangaben sollte demzufolge die Entität, für die das Literal steht, in RDF modelliert und referenzierbar gemacht werden. Die Modellierung sollte mindestens eine Property rdfs:label (oder vergleichbar) enthalten. Für die Referenzierung werden hier zwei Optionen skizziert:

Generierung eines Hash-URIs für die Entität
Arbeiten mit einem blank node

Option 1 "Hash-URI"

Ein Fragmentsbezeichner, eingeleitet durch das Hash-Zeichen ("#"), kann einem URI angefügt werden und macht einen Teil des Dokuments indirekt referenzierbar.

Beispiel Option 1 "Hash-URI"

<http://id.meineInstitution.de/12345> dcterms:creator <http://id.meinebibliothek.de/12345#creator_Bergmann_Bertram> .
<http://id.meineInstitution.de/12345#creator_Bergmann_Bertram> rdfs:label "Bertram Bergmann" .

Bei der Erzeugung der RDF-Daten sollte der Fragmentbezeichner so generiert werden, dass er sich bei ggf. anfallender erneuten Erzeugung der Daten (falls diese regelmäßig aus einem anderen Format konvertiert werden) möglichst nicht ändert. Diese Lösung ist der Option "blank node" vorzuziehen, da so die Entität hinter dem Literal nicht nur temporär und im Kontext der Datenversion referenzierbar ist (wie beim blank node, siehe dort), sondern längerfristig. Das kann auch Mappingprojekte begünstigen, die auf eine Ergänzung der fehlenden Links hinarbeiten.

Option 2 "blank node"

Ein "leerer Knoten" bzw. englisch "blank node" wird im RDF-Modell eine nicht-referenzierbare Ressource genannt.

Beispiel Option 2 "blank node"

<http://id.meineInstitution.de/12345> dcterms:creator [
    rdfs:label "Bertram Bergmann" .
]

Die Verwendung von blank nodes mindert die Nutzbarkeit der Daten (gegenüber URIs), da niemand sich auf die betroffene Entität beziehen kann und sie somit vernetzen könnte. Innerhalb einer Datenversion (z.B. Datendumpdatei vom 16.05.2017) wird die Referenzierbarkeit der im blank node beschriebenen Entität hergestellt über einen nur für diese Datenversion gültigen temporären Identifier. In der folgenden alternativen Notation in Turtle wird dies sichtbar, sie entspricht semantisch dem Beispiel oben:

Beispiel Option 2 "blank node", Darstellung mit temporärer ID

<http://id.meineInstitution.de/12345> dcterms:creator _:node1b6mbf4tqx36921502 .
_:node1b6mbf4tqx36921502 rdfs:label "Bertram Bergmann" .

Anhang

Mitwirkende der DINI-AG-KIM Gruppe Titeldaten:
- Sarah Hartmann - DNB
- Andreas Kahl - BSB
- Cornelia Katz - BSZ
- Adrian Pohl - hbz
- Stefanie Rühle - SUB Göttingen
- Christiane Schmidt - Schweizerische Nationalbibliothek
- Dr. Thomas Striffler - HeBIS
- Carsten Klee - ZDB
Mitwirkende an früheren Versionen
- Stefan Brecheisen - BVB
- Pascal Christoph - hbz
- Julia Hauser - DNB
- Dieter Janka - BSZ
- Verena Schaffner - OBVSG
- Stephani Scholz - hbz
Beispiele in RDF-turtle
URI-Design-Empfehlungen
Best Pratices / Beispielimplementierungen:
- Linked Data Service der Deutschen Nationalbibliothek (seit 14.05.2013). Die Konversionsdatei der DNB-Titeldatenumsetzung auf Basis von Pica+ steht auf Github zur Verfügung.

Seitenhierarchie

Empfehlung für die RDF-Repräsentation bibliografischer Daten (Textressourcen) *NEU 2017*