Mapping GND mit lobid/HBZ und Cocoda/GBV (ohne Lizenzangabe)
 Zum Vergrößern bitte auf das Bild klicken.

Termin

DONNERSTAG 10. JUNI 2021

Slot 3: 13:30 - 15:00 Uhr

100 Teilnehmende

MiniCon
Technik

Siehe auch: Runde der Resümees Tag 4 Fokus: Technik


Video-Mitschnitt Technik Wie verlinken wir unsere Daten ...



Wie verlinken wir unsere Daten mit der GND?

Diese MiniCon befasste sich mit dem Mapping von Daten auf die GND. Präsentiert wurden #OpenRefine Reconciliation und die Verwendung von #Cocoda.

Mit Öffnung der GND für Projekte und Institutionen außerhalb der Bibliothekswelt (etwa Archive und Museen, Digital Humanities) entsteht in vielen Einrichtungen die Frage, wie existierende Daten mit der GND verknüpft werden können. In der MiniCon wurden Verfahren zur Verlinkung von Daten mit der GND vorgestellt und diskutiert.
Dabei wurden grob zwei Anwendungsfälle unterschieden:

  1. Identifikation und Anreicherung von Personen, Körperschaften, Orten etc. mit Daten aus der GND
  2. Mapping eines bereits verwendeten kontrollierten Vokabulars (Klassifikation, Thesaurus etc.) auf die GND

Technische Grundlage ist die in OpenRefine entstandene und im Rahmen des W3C zu standardisierende Reconciliation Service API.
Teilnehmer*innen dieser MiniCon lernten, wie Daten, die gar nicht bzw. nicht mit der GND normiert sind, auf die GND gemappt und mit Informationen aus der GND angereichert werden können. Präsentiert wurden OpenRefine Reconciliation mit der GND (s. https://lobid.org/gnd/reconcile) und die Verwendung von Cocoda mit der GND (s. https://coli-conc.gbv.de/de/cocoda/). Die MiniCon richtete sich damit sowohl an Personen, die ein Werkzeug zur Verknüpfung ihrer Daten mit der GND suchen, als auch an OpenRefine-Nutzer*innen, die erweiterte Möglichkeiten dieses Werkzeugs kennenlernen möchten.



Referenten

Adrian Pohl (Hochschulbibliothekszentrum des Landes Nordrhein-Westfalen, hbz)

Fabian Steeg (hbz)

Jakob Voß (Verbundzentrale des Gemeinsamen Bibliotheksverbundes (GBV), VZG)


Materialien der Referent*innen

Bericht

Original als Blogpost veröffentlicht.


Reconciliation mit lobid, OpenRefine und Cocoda bei der GNDCon

18 Jun 2021, Adrian Pohl, Fabian Steeg, Jakob Voß | 

In der letzten Woche fand die GNDCon 2.0 statt. Die zweite Ausgabe der GNDCon wurde dezentral veranstaltet. Verschiedene Akteure übernahmen dabei die inhaltliche Umsetzung und kümmerten sich um das technische Hosting für eine “MiniCon”. Wir haben gemeinsam mit Jakob Voß von der Verbundzentrale des GBV die MiniCon “Wie verlinken wir unsere Daten mit der GND?” angeboten.

Die Logos von ColiConc, OpenRefine, lobid und GND

Reconciliation als Grundlage für die Verlinkung mit Normdaten

Grundlage einer solchen Verlinkung eigener Daten ist ein Abgleich dieser Daten mit der GND. Dieser zugrunde liegende Prozess des Datenabgleichs wird auch als Reconciliation bezeichnet. Adrian bestimmte in seinem Einleitungsvortrag Reconciliation wie folgt:

“Reconciliation ist ein Prozess zum Abgleich von Namen und ggf. weiteren Attributen (einer Person, eines Ortes, eines Schlagworts etc.) mit jeweils einem Eintrag innerhalb einer Normdatei”

Anwendungsfälle gibt es viele, allein schon im Kontext der Gemeinsamen Normdatei (GND) wollen viele Akteure aus Museen und Archiven oder etwa den Digital Humanities eigene Daten mit der GND verknüpfen. Neben der GND gibt es eine größere Anzahl weiterer Datenquellen, für die eine Reconciliationschnittstelle angeboten wird. Der große Bedarf an Möglichkeiten zur Reconciliation mit Normdatenquellen – nicht nur im Bibliotheksbereich – wurde von der Community erkannt und hat zur Gründung einer Entity Reconciliation Community Group (CG) im Rahmen des World Wide Web Consortium (W3C) geführt. Das lobid-Team ist mit Adrian und Fabian in der Gruppe vertreten, siehe auch Fabians Blogbeitrag “Supporting reconciliation from a library perspective”.

Die Entity Reconciliation CG zielt mittelfristig auf die Spezifikation eines allgemeinen Protokolls für den Datenabgleich im Web ab. In einem ersten Schritt wird zunächst die bestehende API der Reconciliation-Funktionalität in OpenRefine spezifiziert. OpenRefine ist – auch im Bibliotheksbereich – eines der meistbenutzten und -bewährten Werkzeuge für Datenbereinigung und -abgleich und wird als Essential Open Source Software for Science gefördert. Als generisches tabellenbasiertes Werkzeug zur Bereinigung und Transformation von Daten ermöglicht OpenRefine auch die Verknüpfung mit verschiedenen Normdatenquellen und die darauf folgende Anreicherung aus den verknüpften Normdaten.

Reconciliation von lokalen Daten und der GND mit OpenRefine

In seiner Präsentation zur OpenRefine Reconciliation mit lobid-gnd gab Fabian zunächst einen Überblick zu den Datenquellen und der Rechercheoberfläche von lobid-gnd. Die Oberfläche dient hier zum Erkunden der Daten, deren Verständnis eine wichtige Grundlage für einen erfolgreichen Abgleich darstellt.

Im Anschluss wurde zunächst das grundsätzliche Vorgehen beim Datenabgleich mit der Reconciliation-Schnittstelle von lobid-gnd in OpenRefine vorgestellt sowie die darauf aufbauende Anreicherung auf Basis der abgeglichenen GND-Einträge.

Schließlich wurden verschiedene Strategien zur Verbesserung der Qualität des Abgleichs vorgestellt, insbesondere die Verwendung zusätzlicher lokalen Daten (z.B. Lebensdaten und Berufe) als Merkmale zur Disambiguierung der abzugleichenden Namen.

Reconciliation von Normdaten untereinander mit Cocoda

Mit Cocoda wurde im zweiten Teil der MinCon eine Webanwendung vorgestellt, die ebenfalls die Reconciliation API verwendet, um passende Einträge in der GND oder in anderen Normdateien zu finden. Wie Jakob in seiner Präsentation und einer kurzen Live-Demo zeigte, ist Cocoda im Rahmen des Projekts coli-conc vor allem entwickelt worden, um verschiedene Klassifikationen durch Mappings aufeinander abzubilden. Herausgekommen ist allerdings auch eine Infrastruktur zum einheitlichen Zugriff auf unterschiedlichste Vokabulare, darunter GND, RVK, DDC und Wikidata.

In Cocoda lassen sich nicht nur Vokabulare auf die GND abbilden, sondern auch vorhandene Mappings von und auf die GND durchsuchen. Eine Besonderheit von Cocoda ist, dass einzelne Mappings mit ihrer Provenienz gespeichert werden und mit einem Review-System auch komplexere Workflows zur Qualitätssicherung umgesetzt werden können. Der Vortrag schloss mit einem Vergleich von Cocoda und OpenRefine, um Anhaltspunkte zu geben, wann welches Werkzeug besser geeignet ist.

Diskussion

Schon während der Vorträge entstand im Chat eine lebhafte Diskussion, die zum Teil in Pausen, zum Teil nach den Vorträgen im Plenum aufgegriffen wurde. Den vollständigen Chatverlauf und die Ergebniss von zwei Umfragen finden sich im Etherpad zu der Veranstaltung.

So wurde etwa das Einspielen eigener Daten angesprochen, wenn die GND keinen passenden Eintrag enthält. In OpenRefine lässt sich eine Liste von nicht gemappten Einträgen exportieren, um anschließend beispielsweise im GND-Redaktionssystem neue GND-Einträge zu erstellen. In Cocoda ist es möglich, zumindest auf übergeordnete Einträge zu mappen. Eine Vorschlagsfunktion für neue GND-Einträge ist in Cocoda angedacht, erfordert jedoch die Anbindung an eine Schreib-API für neue Begriffe. Solch eine API könnte auch in OpenRefine verwendet werden, um direkt aus der Anwendung Ergänzungen in die GND aufzunehmen, vergleichbar mit der in OpenRefine enthaltenen Extension zum Import in Wikidata.

In der Runde der Resümees am Ende des Tages 4 wurde mit Vertreter*innen verschiedener technisch orientierter MiniCons über die technische Weiterentwicklung der GND diskutiert. Auch hier war der Datenabgleich ein Thema, insbesondere wurde die Bedeutung von Standards bei der Zusammenarbeit in einer verteilten Infrastruktur wie der GND-Kooperative betont.

Zugleich wurde deutlich, wie herausfordernd eine konsolidierte webbasierte Bereitstellung der GND-Daten ist. Die Daten liegen originär in traditionell bibliothekarischen Datenformaten vor (Internformat Pica, Austauschformat MARC), die sich nicht unmittelbar für die Webentwicklung eignen. Deshalb bildet für lobid-gnd der Linked-Data-Service (LDS) der DNB die Datenbasis, allerdings bilden die LDS-Daten nicht alle Informationen aus den Pica-Daten ab. Die Möglichkeit einer kollaborativen Weiterentwicklung der LDS-Daten wäre aus unserer Sicht ein wichtiger Schritt hin zu mehr Zusammenarbeit in der GND-Kooperative bei der Entwicklung neuer bzw. Konsolidierung bestehender GND-Webangebote.

Comments? Feedback? Just add an annotation with hypothes.is.