Session D - Zu viele URLs?

Moderation: Kai Eckert, Magnus Pfeffer

Die Session startet mit 2 Kurzvorträgen:

Zusammenführung von bibliographischen Titeldaten (Kai Eckert und Magnus Pfeffer)

Kai Eckert gibt einen kurzen Überblick über URIs und weist darauf hin, dass ein großer Vorteil von URIs darin besteht, dass statements kontextunabhängig genutzt werden können. Die Notwendigkeit einer ein-eindeutigen URI ist dabei nicht notwendig, da sich verschiedene URIs für ein- und dieselbe Ressource im RDF-Kontext problemlos mappen lassen - z. B. mit owl:sameAs wenn die Ressource wirklich identisch ist oder ansonsten mit anderen Mappingrelationen, wie zum Beispiel skos:closeMatch für SKOS-Konzepte.

Dafür muss aber darauf geachtet werden:

dass sich eine URI auf genau eine Ressource bezieht,
dass klar getrennt wird zwischen dem URI einer non-information resource (ein physisches Objekt wie z. B. ein Buch) und dem URI der information resource (z. B. einer online verfügbaren Volltext, einer digitalen Version der non-information resource oder ein Titeldatensatz in einem OPAC).

Die klare Abgrenzung zwischen diesen verschiedenen Ressourcen ist notwendig, damit die Daten RDF-kompatibel sind.

Magnus Pfeffer beschreibt das Vorgehen beim Zusammenführen von bibliographischen Titeldaten in der UB Mannheim. Die Titeldaten wurden mit einer URI versehen und durch automatischen Abgleich der Metadaten auf der Ebene der Sacherschließung (über die property „equalsForClassification) zusammengeführt. Vorteil dieses Vorgehens ist die Möglichkeit der Nachnutzung um Titel anzureichern, weitere Titelinformationen einzubinden usw.

Das culturegraph Teilprojekt von DNB und hbz (Andres Quast)

In dem culturegraph Projekt geht es um die Identifikation von kulturellen Erzeugnissen aller Art. Andres Quast stellt das Teilprojekt vor, in dem es um einen Resolving und Lookup Dienst für die Bibliothekswelt geht. Hier werden bereits existierende Identifier identifiziert, identische oder ähnliche Ressourcen gebündelt mit dem Ziel, Dubletten zu vermeiden.

Auch hier ist problematisch, dass nicht ganz eindeutig ist, was die vorhandenen Identifier überhaupt repräsentieren, die physischen Objekte oder die Beschreibungen dieser Objekte in Form von Metadaten. In der Bibliothekswelt haben beide einen Identifier, teilweise wird aber derselbe Identifier für beides genutzt.

Da sich die Identität zwischen den durch Identifier/URIs identifizierten Ressourcen bzw. Beschreibungen nicht immer eindeutig klären lässt, wird kein 1:1 Abgleich durchgeführt, sondern ein Ähnlichkeits-Merging. Dabei wird natürlich auch die EKI (Erstkatalogisierungsidentifier, der die Manifestation identifiziert) berücksichtigt. Die gematchten Daten werden in einer NoSQL-Datenbank zur Verfügung gestellt, die Triple, über die die Titelsätze miteinander verknüpft werden, in einem Triple-Store. Formate, die in diesem Zusammenhang verarbeitet werden: JSON, MAB, MARC.

Informationen zu dem Projekt gibt es unter www.culturegraph.org und im hbz wiki.

Diskussion

Die Gruppe stellt fest, dass culturegraph ein wichtiges Projekt ist, nicht nur für die Bibliothekswelt. Vielmehr bietet sich hier die Möglichkeit, Daten, die aus den unterschiedlichsten Bereich kommen, über einen gemeinsamen Identifier miteinander in Beziehung zu setzen. Allerdings wird bemängelt, dass das Projekt culturegraph kaum bekannt ist und die Dokumentation nicht optimal. Kai Eckert schlägt vor, dass sich eine KIM Gruppe damit beschäftigt, Projekte, die sich mit Linked Data beschäftigen, an zentraler Stelle zu dokumentieren und so für alle Interessenten einen Überblick zu schaffen.

In der Gruppe wird zudem diskutiert, ob Dubletten tatsächlich ein Problem darstellen. Natürlich müssen Dubletten als solche sichtbar gemacht werden. Die Redundanz, die im lokalen System problematisch ist, ist im Netwerk aber nützlich und hilft z.B., die Nachhaltigkeit der Erschließungsarbeit zu gewährleisten – gehen Erschließungsdaten an einer Stelle verloren, bleiben sie an anderer Stelle erhalten.

Schließlich wird noch einmal diskutiert, wie problematisch es ist, URIs im Kontext von information und non-information resources semantisch falsch zu verwenden. Es ist wichtig, dass sich die RDF-Anwender diese Unterscheidung bewusst machen, nur dann ist es lösbar. Auch hier wird die Notwendigkeit gesehen, im Rahmen von KIM tätig zu werden, u.U. durch die Veröffentlichung eines Artikels, der sich mit dem Thema beschäftigt.

Seitenhierarchie

Session D - Zu viele URLs?