Ein Blogpost von Susanne Al-Eryani, Chantal Köppl, Patrick Leiske, Jens Lill, Verena Mack, Michael Markert, Julia Rössel, Stefanie Rühle und Uwe Sikora.

GND-Agenturen unterstützen ihre Kund*innen dabei, Daten in die Gemeinsame Normdatei einzubringen.

Auf dem Weg dorthin werden die Daten transformiert, bereinigt, angereichert und in das notwendige Format gebracht. Dafür stehen den Datengebenden und Agenturen verschiedene Werkzeuge zur Verfügung. Abhängig von der Beschaffenheit und Qualität der gelieferten Daten und von der Arbeitsweise der jeweiligen Agentur, kommen ein oder mehrere Tools zum Einsatz.

Welche Funktionen die verschiedenen Tools haben und wie sie von den Agenturen zur Datenprozessierung genutzt werden, lesen Sie in diesem Blogpost.

Dazu muss zunächst erwähnt werden, dass sich der nicht unerhebliche Aufwand für eine maschinelle Datenprozessierung erst ab einem gewissen Datenumfang lohnt und es ebenfalls einer gewissen Datenqualität bedarf. Im Vorfeld ist daher anhand einer ersten Datenanalyse zwischen Agentur und Datenlieferanten abzuklären, welche Datenfelder noch aufzubereiten oder um weitere Informationen zu ergänzen sind – auch um den Mindestanforderungen an identifizierenden Merkmalen zu entsprechen, die je nach Entität für einen möglichen GND-Import vorausgesetzt werden. Die Verantwortung für die Auftrennung von z.B. in Fließtexten enthaltenen biografischen Angaben zu Personen in entsprechende Datenfelder für Berufe, Geografika oder Datumsangaben sieht die Agentur auf Seiten der Datenlieferanten. Aus einer Datenlieferung muss auch klar hervorgehen, ob es sich bei einer Ortsangabe um den Geburts-, Sterbe- oder Wirkungsort einer Person handelt (Ähnliches gilt für Datumsangaben). Die GND-Agentur gibt in Form von Schulungen/Workshops Hilfestellung zur Datenaufbereitung und bereinigung – die Interpretation von Daten aufgrund nicht vorhandener Datenstrukturen obliegt ihr allerdings nicht. Dies liegt alleinig in der Verantwortung der Datenlieferanten.

Credit: Chantal Köppl (DNB), CC BY-SA 4.0 Jan 2024

Bereinigen, Abgleichen und Anreichern – das bieten die verschiedenen Tools

GND4C-Toolbox

Die GND4C-Toolbox ist ein Werkzeug zum differenzierten und zuverlässigen Matching von Datensätzen auf die GND im großen Stil. Im Hintergrund wird die GND-Schnittstelle von lobid.org eingesetzt, die auch die GND-Abgleiche in OpenRefine ermöglicht. In der Toolbox werden für Personen Abfragen mit verschiedenen Kombinationen von Namensbestandteilen durchgeführt, um das Trefferbild zu verbreitern. Anschließend werden bei der Bewertung der Suchergebnisse auch die von den Datengebenden mitgelieferten Informationen berücksichtigt. Während in OpenRefine eine GND-Suche im Regelfall die ersten 10 Treffer nach Namensähnlichkeit zurückgibt, bewertet die Toolbox bei Personen mit vielen Vor- und Nachnamen manchmal Hunderte von GND-Datensätzen und gewichtet sie unter Einbezug von Lebensdaten, Orten und Berufsangaben. Im Falle von Bauwerken werden auch OpenStreetMap und Wikidata befragt, um über Quervergleiche etwa anhand von Adressdaten oder Koordinaten zuverlässiger entscheiden zu können, ob etwa mit der "Stadtkirche Neustadt" in einem Datenset jene in Holstein oder in Brandenburg gemeint ist.
Gedacht ist die Toolbox als eine pythonbasierte Serveranwendung nicht für individuelle Recherchen etwa bei der Anlage von neuen Datensätzen in einem Erfassungssystem, sondern für Massenverarbeitungen von Daten – wenn es darum geht, Hunderte oder gar Tausende von Datensätzen auf einmal abzugleichen. Sie richtet sich entsprechend nicht an Anwender:innen in einzelnen GLAM-Einrichtungen, sondern an die neuen GND-Agenturen mit ihrem Bedarf für schnelle und zuverlässige Bewertungen von großen Datenmengen in Hinblick auf vorhandene GND-Identifier und Kandidaten für Neuanlagen in der GND.

Personen-Matching in der Toolbox. Es wurden Dubletten in der GND gefunden.
Credit: Michael Markert (ThULB), CC 0, Jan 2024

OpenRefine

OpenRefine, ehemals bekannt als Google Refine, ist eine Open-Source-Software zur Datenaufbereitung und -bereinigung. Es ermöglicht Benutzer:innen, große Mengen von unstrukturierten Daten in tabellarischer Form zu importieren, zu erkunden, zu transformieren und zu bereinigen. OpenRefine wurde entwickelt, um den Datenbereinigungsprozess zu vereinfachen und die Qualität von Datensätzen zu verbessern. OpenRefine kann auf verschiedenen Betriebssystemen ausgeführt werden, einschließlich Windows, macOS und Linux. Es wird über einen Webbrowser bedient, daher wird empfohlen, einen modernen und aktuellen Browser zu verwenden. Unterstützte Browser sind Chrome, Firefox und Safari. Die Bearbeitung der Daten erfolgt jedoch lokal, weshalb nicht zwingend eine Internetverbindung vorhanden sein muss. Für den Datenaustausch besonders relevante Funktionen sind etwa der Import von Daten aus verschiedenen Quellen wie CSV-Dateien, Excel-Tabellen oder JSON, Datenexploration um Muster, Fehler oder Inkonsistenzen in Quelldaten zu identifizieren und nicht zuletzt Transformation und Bereinigung: Mit einer Vielzahl von eingebauten Transformationen können Benutzer Daten manipulieren, kombinieren und bereinigen, um konsistente Datensätze zu erhalten. Zudem können die Daten in OpenRefine über Schnittstellen mit der GND und anderen Normdateien gematcht, abgeglichen und angereichert werden. Bereinigte und transformierte Daten können in verschiedenen Formaten, wie z.B. Marc21 exportiert werden, um sie in anderen Systemen zu verwenden.

GND-Abgleich für Personen in OpenRefine

entityXML

EntityXML ist ein XML-basiertes Datenformat zur Beschreibung von Entitäten. Voraussetzung für das Arbeiten mit entityXML ist eine oXygen-Umgebung. Der oXygen XML Editor bietet u.a. den Vorteil, dass Einträge auch in einem nutzerfreundlichen Author-Modus ediert werden können.
In dem auf der GND-Ontologie basierenden entityXML-Schema können Projekte Entitäten unter Berücksichtigung ihrer spezifischen Charakteristika in einer einheitlichen Struktur beschreiben, was der Agentur ein direktes Mapping auf die Datenstruktur der GND ermöglicht. Darüber hinaus können über individuelle Namensräume projektrelevante Elemente außerhalb des Schemas erschlossen werden, die nicht für den Datenimport in die GND gedacht sind. Eine Überprüfung der Datenqualität ist durch das in entityXML implementierte Validierungsschema Relax NG und dem darin enthaltenen Schematron für Projekt und Agentur gleichermaßen durchführbar. Weiterhin lassen sich mit Hilfe bereitgestellter generischer Transformationsszenarien in entityXML angelegte Daten in andere relevante Datenformate (z. B. JSON) übersetzen. Anhand einer Revisionsbeschreibung werden die einzelnen Schritte des Workflows dokumentiert, Anmerkungen zu den Daten können an direkter Stelle notiert werden, sodass sowohl Kommunikation zwischen Datenlieferant und Agentur als auch das Berichtswesen unterstützt werden. Eine Versionierung der Daten ist möglich.
Mit entityXML können zunächst Personen beschrieben werden, das Format wird aber sukzessive für die Beschreibung weiterer Entitäten ausgebaut.

Beispielset für die Auszeichnung einer Person in entityXML (im Text- und Autor-Modus).

Data Preparation Tool

Das Data Preparation Tool (DPT) ist ein Mappingwerkzeug zur Aufbereitung von (bislang vornehmlich) archivischen Metadaten für die Einspielung in die Portale DDB, Archivportal-D, Archivportal Europa und LEO-BW. Entwickelt wurde das Tool in der DDB-Fachstelle Archiv mit dem primären Ziel, die Erstellung granularer providerspezifischer Anpassungen zu ermöglichen, um einmal umgesetzte Anpassungen für weitere Datengeber nachnutzen zu können.

Es handelt sich beim DPT um eine Python-basierte Desktop-Anwendung, die es ermöglicht, Daten aus beliebigen Quellformaten mit einem Workflow aus aneinander gereihten Python-Modulen zu transformieren. Die Verwendung von Python ermöglicht es etwa, auch Quelldaten aus Excel-Dateien und anderen Datenquellen mit einzubeziehen, sowie Feldinhalte aus verschiedenen Quelldateien gleichzeitig anzureichern.

Kern der XML-Transformation ist die Python-Bibliothek lxml, welche eine fehlertolerante und äußerst performante Verarbeitung der Lieferdaten erlaubt und dabei nur geringe Anforderungen an das Host-System stellt. Neben dem erwähnten Providerskript-Workflow bietet das Tool einige "Maintenance-Funktionen", mit dem Ziel, aus möglicherweise fehlerhaften Lieferdaten möglichst schnell einen sauberen ersten Stand zu erhalten, auf dessen Basis dann der Workflow angewandt werden kann.

Im Rahmen des GND4C-Projekts wurde das DPT um eine MARC-XML-Konkordanz für Personen ergänzt, um Datenlieferungen an die DNB für einen GND-Import übergeben zu können. Diese Erweiterung beinhaltet auch die freie Konfiguration einzelner (GND-interner) Datenfelder, die für einen Import vorausgesetzt werden, in der Regel aber nicht in den Ausgangsdaten der Kultureinrichtungen enthalten sind. In der GND-Agentur LEO-BW-Regional ist das DPT fester Bestandteil der Datenprozessierung.

Die aktuellste, für das GND4C-MARC-XML-Mapping angepasste Version des DPT kann hier heruntergeladen werden:
https://github.com/Deutsche-Digitale-Bibliothek/ddblabs-datapreparationtool/releases/tag/v3.5.0-pre6 (letztes Update: 24.07.2023).

Das DPT wird derzeit zu einer webbasierten Anwendung weiterentwickelt, die die gemeinsame Arbeit an Datenlieferungen an zentraler Stelle ermöglicht. Eine erste Version mit Fokus auf die Anforderungen von archivischen Datenlieferungen wird voraussichtlich bis Ende 2024 in Betrieb genommen.

Einblick in das Data Preparation Tool (DPT)

GND-Webformular

Das GND-Webformular bietet sich für Forschungsprojekte und Kulturinstitutionen an, wie etwa für kleinere Bibliotheken, Archive und Museen. Es ermöglicht ihnen, Personen- und Körperschaftsdatensätze in der GND neu anzulegen sowie bestehende Datensätze zu korrigieren oder zu ergänzen. In den nächsten Monaten wird auch die Erfassung von Gebietskörperschaften über das Webformular möglich sein. Die Nutzung des Webformulars kann sinnvoll sein, wenn man eine kleinere Menge von Normdaten ansetzen oder bearbeiten will. Außerdem bietet es sich beispielsweise begleitend zu Projekten an, in denen laufend Daten erfasst werden und auch neue Normdaten-Kandidaten identifiziert werden. Im Gegensatz zu den Erfassungsclients, die in Bibliotheken zum Einsatz kommen, können Personen und Körperschaften über das Webformular nur mit einer begrenzten Auswahl von Eigenschaften erfasst werden.

Sind die Daten über das Webformular eingegeben, landen sie unmittelbar in der GND. Für die Anwender*innen des Webformulars besteht daher ein großer Vorteil des Tools darin, dass sie die generierte GND-ID direkt im eigenen System einfügen können.

Um das Webformular nutzen zu können, braucht man zum Einen eine Vereinbarung mit einer GND-Agentur, die die eingegebenen Daten prüft und langfristig ihre Qualität sicherstellt. Zum Anderen benötigt man einen ISIL. Der International Standard Identifier for Libraries and Related Organizations ist Bestandteil des QS-Systems der GND, mit dem die Herkunft eines Datensatzes deklariert und nachvollziehbar wird. Einrichtungen können ihn bei der ISIL-Sigelstelle an der Staatsbibliothek zu Berlin beantragen. Weitere Infos zum Webformular finden Sie unter https://www.dnb.de/gndwebformular.

Erfassungsmaske des GND-Webformulars zur Bearbeitung von Personennormdaten in der GND.

So kommen die Tools in den neuen GND-Agenturen zum Einsatz

Die Datenprozessierung der GND-Agentur LEO-BW-Regional. Credit: Jens M. Lill (BSZ), CC BY SA

GND-Agentur LEO-BW-Regional

Im Fokus der GND-Agentur LEO-BW-Regional steht der Ansatz, Kultureinrichtungen aus Baden-Württemberg eine einfache, niedrigschwellige Möglichkeit anzubieten, wie diese ihre benötigten Datensätze unkompliziert und ohne allzu großen Aufwand in die GND einbringen und auch unmittelbar nachnutzen können. Dreh- und Angelpunkt der Agenturservices stellen daher die GND-Webformulare der DNB dar, für die regelmäßig Schulungen angeboten werden. Als Agentur unterstützen wir die Kultureinrichtungen bei der Klärung der Zugangsvoraussetzungen und Kommunikation mit der GND-Zentrale und übernehmen die Redaktion und Qualitätssicherung der neu eingetragenen oder bearbeiteten Normdatensätze. Auch für OpenRefine werden Workshops und Selbstlernkurse angeboten, um Kultureinrichtungen in die Lage zu versetzen, ihre Bestands-/Sammlungsdaten selbst analysieren, bereinigen und verbessern zu können.

OpenRefine kommt auch eine besondere Stellung innerhalb der Agenturarbeit an größeren Datensets (bislang nur für Personen) zu, um diese für einen GND-Import aufzuarbeiten. In verschiedenen Arbeitsschritten werden die Personendaten analysiert und bereinigt (u.a. Vereinheitlichung von offensichtlichen Schreibfehlern, geschlechtsspezifische Anpassung von Berufsangaben, Bereinigung von Datumsangaben in ein einheitliches Format) sowie mit der GND abgeglichen und ggf. um weitere Angaben ergänzt (für einen späteren Import in die GND müssen v.a. für Berufs- und Ortsangaben die äquivalenten GND-Nummern nachgeladen werden). Nach diesem Pre-processing werden die Datensets mittels Python-Skripten in ein GND4C-internes Datenformat transformiert, um im Data Preparation Tool die Ergänzung von für einen GND-Import relevanten Datenfelder automatisiert vornehmen zu können. Abschließend erfolgt die Ausgabe des Datensets im MARC-XML-Format zur Übergabe an die GND-Zentrale.

Exemplarischer Datenfluss zwischen Datengebenden, GND-Agentur und GND-Zentrale. Credit: Chantal Köppl (DNB), CC BY SA

Deutsches Dokumentationszentrum – Bildarchiv Foto Marburg | Bauwerke-Redaktion

Institutionen wie Denkmalfachämter, bauhistorische Forschungs- bzw. Publikationsprojekte, wie etwa Dehio digital (DDK 2022) oder auch das Bildarchiv Foto Marburg selbst produzieren Daten zu Bauwerken in sehr unterschiedlichen Datenbank- bzw. Erfassungssystemen. Zudem ist die Standardisierung im Bereich der Bauwerke noch nicht so weit fortgeschritten, wie z.B. in Museen oder Bibliotheken. Zunächst muss intellektuell geprüft werden, welche der Informationen, die in den Quellsystemen bzw. lokalen Erfassungsdatenbanken erhoben werden, für die künftigen Normdatensätze übernommen werden sollen. Für den beiderseitigen Austausch nutzt die Pilot-Agentur – gewissermaßen als Übersetzungshilfe – das Anwendungsprofil Bauwerke. Bauwerke werden in der GND als Geographika (Entitätencode GIB) geführt. Hierzu gehören Ingenieurbauten, bauliche Ensembles, archäologische Stätten mit Baudenkmälern, aber auch Bauskulpturen oder freistehende Objekte wie Monumentalplastik, Denkmäler oder Brunnen. Bislang gibt es kein Webformular, sodass die Erfassung für die GND händisch oder über Masseneinspielung geschieht. Um Bauwerks-Daten in Normdaten umzuwandeln und in die GND einspeisen zu können, werden sie in der Pilot-Agentur Bauwerke mit OpenRefine vorverarbeitet. Hier werden der Standort in Form einer Ortsangabe und der Objekttyp in der GND als instantieller Oberbegriff definiert, mit GND-IDs schon vorhandener Entitäten gemachted, sofern diese vorhanden sind. In OpenRefine wird auch geprüft, ob sich das Bauwerk bereits in der GND befindet. Es findet also einen Abgleich mit bereits vorhandenen Datensätzen in der GND und gleichzeitig eine Anreicherung der Quelldaten statt. Darüber hinaus können folgende Angaben ebenfalls in den Normdatensatz zu einem ortsfesten Werk übernommen werden, sofern diese vorhanden sind: Alternativbenennung, Datierung, Orts-/Stadtteil, Beziehungen zu übergeordneten Bauwerken, Beziehungen zu Personen oder die Denkmalart entsprechend der denkmalpflegerischen Zuordnung (z.B. Kulturdenkmal, Einzeldenkmal, Flächendenkmal etc.). Nach dem Preprocesseing werden die Daten über ein Template im Format MARC21 exportiert, welches das Lieferformat für die GND darstellt.

GND-Agentur data4kulthura

data4kulthura befindet sich in der Aufbauphase, weshalb es noch keine festen Workflows oder erfolgreichen Großprojekte gibt. OpenRefine ist aber auch bei data4kulthura der Schlüssel zu Datenbereinigung, -anreicherung und -weitergabe. In der Museumsbetreuung werden seit vielen Jahren damit Importe von Daten in die in Thüringen meistgenutzte Erfassungssoftware digiCULT.web vorbereitet. Mit OpenRefine kann man sehr schnell herausfinden, ob in Tausenden Tabellenzellen irgendwo aus Versehen als Objekttyp "Gemläde" statt "Gemälde" angegeben wurde und das für die Anwendung kontrollierter Vokabulare wie der Objektbezeichnungsdatei (OBG) korrigieren. Im Agenturbetrieb wird die Software etwa eingesetzt, um sich schnell einen Überblick über ein neues Datenset zu verschaffen, da praktisch jedes Format verarbeitet und in leicht interpretierbare Tabellen umgewandelt werden kann. Leicht lassen sich komplexere Aufgaben über Python-Skripte direkt in der Programmoberfläche automatisieren. Über die Reconciliation-Schnittstelle in OpenRefine lassen sich nicht nur neue Identifier etwa zu Ortsangaben oder Sachbegriffen schnell erzeugen, sondern auch leicht Zusatzinformationen aus der GND oder Wikidata nachholen, wenn entsprechende Identifier vorliegen. So kann geprüft werden, ob Identifier überhaupt korrekt oder Angaben im Quelldatensatz fehlerhaft sind.
Leider sind die Exportmöglichkeiten aus OpenRefine heraus recht eingeschränkt und es lässt sich nicht so ohne Weiteres das Format wieder erzeugen, das hineingegeben wurde. Hier müssen aufwändige Transformationen für den jeweiligen Einzelfall erstellt oder nachträglich angewendet werden. Eine Exportfunktion, die zweifellos in Zukunft weiter an Bedeutung gewinnen wird, ist die Einspielung in Wikibase-Instanzen wie Wikidata oder Factgrid über die eingebaute und sehr komfortable Wikibase-Erweiterung. Damit lassen sich die ohnehin in der Agenturarbeit verbesserten und angereicherten Daten schnell und einfach als Linked Open Data der GLAM-Community zugänglich machen. Auf diesem Wege wurden etwa schon Berufsangaben in Factgrid um GND-Identifier ergänzt und Thüringer Baudenkmale in Wikidata mit dem entsprechenden Denkmalschutzstatus markiert.

GND-Agentur Text+

EntityXML wurde im Rahmen der sich im Aufbau befindenden GND-Agentur Text+ entwickelt, um grundlegende Arbeitsprozesse zu unterstützen. Das Format dient im Wesentlichen text- und sprachbasierten Forschungsprojekten und der Agentur als Austausch- und Speicherformat für Daten, die als Normdaten in die GND eingebracht werden sollen bzw. die aufgrund von Forschungsergebnissen bereits in der GND verzeichnete Einträge ergänzen oder korrigieren sollen. Ziel der Agentur ist es, einen Workflow zu entwickeln, der eine halbautomatisierte Anreicherung von Daten mit GND-URIs und die Einspielung von Daten in die GND ermöglicht. In diesem Kontext wird eine auf entityXML aufbauende technische Umgebung entwickelt.
EntityXML ist ein Erschließungs- und Redaktionsformat. Projektspezifische Daten werden von den Projekten angelegt, gepflegt und eventuell in eigenen Systemen direkt genutzt. Die vom Projekt als GND-relevant identifizierten Daten zu Entitäten (Personen, Werken, Orten etc.) werden als Lieferungen mit der Agentur ausgetauscht.
Die Datenlieferungen werden von der Agentur in einem ersten Schritt durch in entityXML enthaltene Validierungsroutinen hinsichtlich formaler Qualitätsrichtlinien überprüft. Lieferungen, die schwerwiegende Verstöße gegen diese Richtlinien aufweisen, werden mit Anweisungen zum notwendigen Datencleaning an die liefernde Institution zurückgesendet. Qualitätskonforme Daten werden von der Agentur übernommen. Je nach Absprache mit dem Datenlieferanten werden die Daten durch die Agentur nachträglich bereinigt und harmonisiert.
Anschließend werden die Daten über ein in entityXML implementiertes Transformationsszenario in das JSON-Format der Toolbox konvertiert und dort mit der GND abgeglichen. Datensätze, die bereits in der GND enthalten sind, können über eine Konversion mit Daten aus der GND angereichert werden. Hierfür wird die LOBID-API genutzt. Die mit dem entsprechenden GND-URI und ggf. weiteren Daten aus der GND angereicherten Daten werden an das Projekt zurückgeliefert. Derzeit wird ein Verfahren entwickelt, wie Datensätze, die keine Entsprechung in der GND haben, wieder zurück in das entityXML-Format gespielt werden können.
Entitäten, die neu in die GND eingebracht werden sollen, werden anhand des in entityXML enthaltenen Validierungsschemas hinsichtlich ihrer Eignung und Relevanz geprüft. Das Ergebnis der Überprüfung wird dem Projekt mitgeteilt, sodass das Projekt unzulängliche Datensätze ggf. nach den geltenden Kriterien nachbessern kann.
Das bereinigte entityXML-Datenset, in dem nun die potentiellen GND-Kandidaten enthalten sind, wird schließlich durch XSLT in das GND-Lieferformat MARCXML konvertiert. Der aus Leader und entsprechenden Kontroll- und Datenfelder bestehende vollständige MARCXML-Datensatz wird von der Agentur an die Redaktion der GND zur Prüfung und Einspielung ins Testsystem versendet. Abschließend wird die mit den URIs der neu erstellten GND-Einträge angereicherte entityXML-Datenlieferung zusammen mit einem Bearbeitungs- und Einspielungsbericht an das Projekt zurückgeschickt.

Blog

It's Tool Time! Datenprozesse in den neuen GND-Agenturen