In Arbeit
Diese Seite wird als Nachfolger von Empfehlung für die RDF-Repräsentation bibliografischer Daten (Textressourcen) vorbereitet und ist derzeit in Bearbeitung und noch nicht final abgestimmt! [Jana Hentschke, 20.02.2017]
Versionshistorie
XX.05.2017 | Version 2.0 |
02.06.2014 | Version 1.1 urn:nbn:de:kobv:11-100217673 Korrektur des RDA Namespaces und der Base Domain |
30.09.2013 | Version 1.0 |
Über die DINI-AG KIM Gruppe Titeldaten
Die Gruppe Titeldaten wurde im Januar 2012 gegründet, seit April 2012 agiert sie als Untergruppe des Kompetenzzentrums Interoperable Metadaten (DINI-AG KIM). Vertreten sind alle deutschen Bibliotheksverbünde, die Deutsche Nationalbibliothek, die Österreichischen Bibliothekenverbund und Service GmbH, die Schweizerische Nationalbibliothek sowie einige weitere interessierte und engagierte Kolleginnen und Kollegen mit entsprechender Expertise. Die Moderation und Koordination liegt bei der Deutschen Nationalbibliothek.
Die Gruppe Titeldaten dient als Forum für den fachlichen Austausch über die Repräsentation von bibliografischen Daten als Linked Data. Die Teilnehmerinnen und Teilnehmer teilen ihre Erfahrungen, sammeln Best Practices und markieren Fallstricke in Bezug auf die Transformation vorhandener Titeldaten nach RDF.
Ergebnis dieser Diskussionen sind die "Empfehlungen zur RDF-Repräsentation bibliografischer Daten", die nun in der Version 2.0 vorliegen. Die Empfehlungen dokumentieren Lösungen und zeigen mögliche Alternativen auf. Sie sollen zum einen Neueinsteigern auf dem Gebiet die Arbeit erleichtern und zum anderen zu einer Harmonisierung der RDF-Repräsentationen von Titeldaten im deutschsprachigen Raum beitragen. Durch die Etablierung eines “Quasi-Standards” soll die Interoperabilität bibliografischer Linked-Open-Data-Publikationen im deutschsprachigen Raum gewährleistet werden.
Die vorliegende Version 2.0 der Empfehlungen berücksichtigt die Entwicklungen der letzten Jahre. Den initialen Anlass für die Überarbeitung gab die Einführung des Katologisierungsregelwerks Resource Description and Access (RDA) in Großteilen der deutschsprachigen Bibliothekslandschaft in 2015/2016.
Erläuterungen zur Vorgehensweise
Die DINI-AG KIM Gruppe Titeldaten analysierte zunächst, welche Metadaten zur Beschreibung einer bibliografischen Ressource erforderlich sind. und welcher Gruppe einer bibliografischen Beschreibung sie zugeordnet werden können. Dies sind:
TitelBeteiligte Personen / Rollen / OrganisationenDatumsangabenOrtsangabenIdentifierMedientypenRelationen / HierarchienInhaltserschließende AngabenSprache
Die vorliegenden Empfehlungen beinhalten die Modellierung eines Kernelementsets, das für die eindeutige Identifizierung einer bibliografischen Ressource als notwendig erachtet wird. Unter Kernelementen werden hier Properties verstanden, die in einer RDF-Repräsentation enthalten sein sollen, sofern der Ausgangsdatensatz diese enthält. Im ersten Schritt wird ein Kernelementset für textuelle Ressourcen beschrieben. Die Beschreibung von Kernelementen für spezifische Objekttypen (Film, Musik, etc.) sollen in einer späteren Version folgen.
Je nach Anwendungsfall können Anforderungen bestehen, zusätzliche Informationselemente mit weiteren RDF-Properties auszuweisen oder eine größere Auswahl an Informationselementen in die RDF-Repräsentation eines Titeldatensatzes mit aufzunehmen. Dies liegt im Ermessen der jeweiligen Institution einzelnen Datenproduzenten. Die Erweiterten Empfehlungen der DINI-AG KIM Gruppe Titeldaten sammeln über das Kernelementeset hinaus Best Practices.
Nachnutzung von RDF-Elementen
Die vorliegende Modellierung nutzt die unten tabellarisch aufgeführten RDF-Element Sets nach.
Die Auswahl richtet sich nach dem Grad der Verbreitung. Das heißt konkret: im ersten Schritt wird das Dublin Core-Vokabular nach geeigneten Elementen untersucht, da dieses auch außerhalb der Bibliothekswelt stark verbreitet ist. In den Versionen 1.x dieser Empfehlungen wurden (bibliotheks-)spezifischere Elemente bevorzugt aus der Bibliographic Ontology entnommen. Mit Version 2.0, nach der Einführung der Resource Description and Access (RDA) an vielen Bibliotheken im deutschen Sprachraum, werden weitere Spezifizierungen auch mit den unconstrained Properties des RDA Element Sets empfohlen. Deren Verwendung ist dabei unabhängig vom zugrunde liegenden Regelwerk der damit abzubildenden Daten möglich. Der Grund für die Wahl der unconstrained Variante der RDA-Element Sets ist der Wunsch, keine Ebenen der Functional Requirements for Bibliographic Records (FRBR) zu implizieren, damit diese Empfehlungen möglichst breit anwendbar sind.
Präfix | Element Set |
---|---|
dcterms | DCMI Metadata Terms, /terms/ namespace |
dc | DCMI Metadata Terms, /elements/ namespace |
rdau | RDA Unconstrained properties |
bibo | Bibliographic Ontology |
marcRole | |
umbel | Upper Mapping and Binding Exchange Layer |
schema | Schema.org |
isbd | International Standard Bibliographic Description |
Darstellung
Illustrierende Beispiele werden in Terse RDF Triple Language ("Turtle")-Serialisierung notiert.
Mappings
Da die bestehenden Linked Data Services in Deutschland unabhängig voneinander entstanden und jede Bibliothek bzw. jeder Verbund eine eigene Datenmodellierung erarbeitete, sind die Umsetzungen vielfältig. Die unterschiedlichen Modellierungen resultieren unter anderem aus differierenden Katalogisierungsumgebungen an den verschiedenen Institutionen: Die RDF-Beschreibungen werden jeweils auf Basis unterschiedlicher Ausgangsformate erstellt. Als gemeinsames Ausgangsformat für die konkrete Datenmodellierung in RDF wurde daher MARC 21 gewählt. Zunächst folgt ein vom Ausgangsformat unabhängiges konzeptuelles Mapping. Es ist geplant, in Zukunft auch Mappings weiterer Ausgangsformate zur Verfügung zu stellen (siehe hierzu auch: Beispielimplementierungen).
Nicht-verlinkte Information
Viele Datenerzeuger haben mit dem Problem zu tun, dass einzelne Informationselemente sowohl als Referenz auf ein anderes Datenset als auch als Literal in den Daten vorliegen können.
Beispiel
Das Element "Schöpfer" wird nach aktueller Erfassungspraxis der Beispielinstitution über einen Link auf die Gemeinsame Normdatei (GND) identifiziert, wurde aber in einer bestimmten Generation von Altdaten als Literal erfasst.
Da es sich um dasselbe Informationselement handelt, sollte für beide Fälle dieselbe rdf:Property verwendet werden. Andernfalls ist für den Nutzer der Daten Hintergrundwissen über der Modellierung der Daten notwendig, um beide Formen auswerten zu können.
Es ist außerdem nicht ratsam, eine rdf:Property im selben Datenset sowohl als owl:ObjectProperty (d.h. mit URI in Objektposition) als auch als owl:DatatypeProperty oder owl:AnnotationProperty (d.h. mit Literal in Objektposition) zu verwenden. Das sollte auch gelten, wenn ihre Definition keine Aussage zum erwarteten Objekttyp macht, d.h. z.B. keine rdfs:range-Beschränkung vorliegt. Deshalb wird hier empfohlen, im beschriebenen Fall jeweils mit einer owl:ObjectProperty zu arbeiten.
Bei Literalangaben sollte demzufolge die Entität, für die das Literal steht, in RDF modelliert und referenzierbar gemacht werden. Die Modellierung sollte mindestens eine Property rdfs:label (oder vergleichbar) enthalten. Für die Referenzierung werden hier zwei Optionen skizziert:
- Generierung eines Hash-URIs für die Entität
- Arbeiten mit einem blank node
Option 1 "Hash-URI"
Ein Fragmentsbezeichner, eingeleitet durch das Hash-Zeichen ("#
"), kann einem URI angefügt werden. Die Kombination bildet dann einen weiteren URI, der etwas eindeutig identifizieren kann. Über das was er identifizieren soll, kann dann ebenfalls unter dem Ausgangs-URI eine Beschreibung geliefert werden.
<http://id.meineInstitution.de/12345> dcterms:creator <http://id.meinebibliothek.de/12345#creator_Bergmann_Bertram> . <http://id.meineInstitution.de/12345#creator_Bergmann_Bertram> rdfs:label "Bertram Bergmann" .
Bei der Erzeugung der RDF-Daten sollte der Fragmentbezeichner so generiert werden, dass er sich bei ggf. anfallender erneuten Erzeugung der Daten (falls diese regelmäßig aus einem anderen Format konvertiert werden) möglichst nicht ändert. Diese Lösung ist der Option "blank node" vorzuziehen, da so die Entität hinter dem Literal nicht nur temporär und im Kontext der Datenversion referenzierbar ist (wie beim blank node, siehe dort), sondern längerfristig. Das kann auch Mappingprojekte begünstigen, die auf eine Ergänzung der fehlenden Links hinarbeiten.
Option 2 "blank node"
Ein "leerer Knoten" bzw. englisch "blank node" wird im RDF-Modell eine nicht-referenzierbare Ressource genannt.
<http://id.meineInstitution.de/12345> dcterms:creator [ rdfs:label "Bertram Bergmann" . ]
Die Verwendung von blank nodes mindert die Nutzbarkeit der Daten (gegenüber URIs), da niemand sich auf die betroffene Entität beziehen kann und sie somit vernetzen könnte. Innerhalb einer Datenversion (z.B. Datendumpdatei vom 16.05.2017) wird die Referenzierbarkeit der im blank node beschriebenen Entität hergestellt über einen nur für diese Datenversion gültigen temporären Identifier. In der folgenden alternativen Notation in Turtle wird dies sichtbar, sie entspricht semantisch dem Beispiel oben:
<http://id.meineInstitution.de/12345> dcterms:creator _:node1b6mbf4tqx36921502 . _:node1b6mbf4tqx36921502 rdfs:label "Bertram Bergmann" .
Lizenzangaben für bibliografische Daten
@prefix void: <http://rdfs.org/ns/void#> . @prefix dcterms: <http://purl.org/dc/terms/> . <http://lobid.org/resource/HT008790149/about> void:inDataset <http://lobid.org/resources/dataset#!> . <http://lobid.org/resources/dataset#!> dcterms:license <https://creativecommons.org/publicdomain/zero/1.0/> .
Anhang
- Mitwirkende der DINI-AG-KIM Gruppe Titeldaten:
- Barbara Block - GBV
- Iris Hausmann - BSZ
- Sarah Hartmann - DNB
- Jana Hentschke - DNB
- Reinhold Heuvelmann - DNB
- Andreas Kahl - BSB
- Cornelia Katz - BSZ
- Carsten Klee - ZDB
- Adrian Pohl - hbz
- Stefanie Rühle - SUB Göttingen
- Christiane Schmidt - Schweizerische Nationalbibliothek
- Dr. Thomas Striffler - HeBIS
- Mitwirkende an früheren Versionen
- Stefan Brecheisen - BVB
- Pascal Christoph - hbz
- Julia Hauser - DNB
- Dieter Janka - BSZ
- Verena Schaffner - OBVSG
- Stephani Scholz - hbz
- Beispiele in RDF-turtle
- URI-Design-Empfehlungen
- Best Practices / Beispielimplementierungen:
- Weitere?
- Linked Data Service der Deutschen Nationalbibliothek
- Linked Data Service der Zeitschriftendatenbank
- lobid-resources – der hbz-Verbundkatalog als LOD, hbz — Hochschulbibliothekszentrum des Landes NRW
- LinkedOpenData-Service des B3Kat
- HeBIS Linked Open Data Services
- SWB-Verbunddatenbank als Linked Open Data