Ein Blogpost von Susanne Al-Eryani, Chantal Köppl, Patrick Leiske, Jens Lill, Verena Mack, Michael Markert, Julia Rössel, Stefanie Rühle und Uwe Sikora.
GND-Agenturen unterstützen ihre Kund*innen dabei, Daten in die Gemeinsame Normdatei einzubringen.
Auf dem Weg dorthin werden die Daten transformiert, bereinigt, angereichert und in das notwendige Format gebracht. Dafür stehen den Datengebenden und Agenturen verschiedene Werkzeuge zur Verfügung. Abhängig von der Beschaffenheit und Qualität der gelieferten Daten und von der Arbeitsweise der jeweiligen Agentur, kommen ein oder mehrere Tools zum Einsatz.
Welche Funktionen die verschiedenen Tools haben und wie sie von den Agenturen zur Datenprozessierung genutzt werden, lesen Sie in diesem Blogpost.
Dazu muss zunächst erwähnt werden, dass sich der nicht unerhebliche Aufwand für eine maschinelle Datenprozessierung erst ab einem gewissen Datenumfang lohnt und es ebenfalls einer gewissen Datenqualität bedarf. Im Vorfeld ist daher anhand einer ersten Datenanalyse zwischen Agentur und Datenlieferanten abzuklären, welche Datenfelder noch aufzubereiten oder um weitere Informationen zu ergänzen sind – auch um den Mindestanforderungen an identifizierenden Merkmalen zu entsprechen, die je nach Entität für einen möglichen GND-Import vorausgesetzt werden. Die Verantwortung für die Auftrennung von z.B. in Fließtexten enthaltenen biografischen Angaben zu Personen in entsprechende Datenfelder für Berufe, Geografika oder Datumsangaben sieht die Agentur auf Seiten der Datenlieferanten. Aus einer Datenlieferung muss auch klar hervorgehen, ob es sich bei einer Ortsangabe um den Geburts-, Sterbe- oder Wirkungsort einer Person handelt (Ähnliches gilt für Datumsangaben). Die GND-Agentur gibt in Form von Schulungen/Workshops Hilfestellung zur Datenaufbereitung und bereinigung – die Interpretation von Daten aufgrund nicht vorhandener Datenstrukturen obliegt ihr allerdings nicht. Dies liegt alleinig in der Verantwortung der Datenlieferanten.
Credit: Chantal Köppl (DNB),
Jan 2024Bereinigen, Abgleichen und Anreichern – das bieten die verschiedenen Tools
GND4C-Toolbox
Die GND4C-Toolbox ist ein Werkzeug zum differenzierten und zuverlässigen Matching von Datensätzen auf die GND im großen Stil. Im Hintergrund wird die GND-Schnittstelle von lobid.org eingesetzt, die auch die GND-Abgleiche in OpenRefine ermöglicht. In der Toolbox werden für Personen Abfragen mit verschiedenen Kombinationen von Namensbestandteilen durchgeführt, um das Trefferbild zu verbreitern. Anschließend werden bei der Bewertung der Suchergebnisse auch die von den Datengebenden mitgelieferten Informationen berücksichtigt. Während in OpenRefine eine GND-Suche im Regelfall die ersten 10 Treffer nach Namensähnlichkeit zurückgibt, bewertet die Toolbox bei Personen mit vielen Vor- und Nachnamen manchmal Hunderte von GND-Datensätzen und gewichtet sie unter Einbezug von Lebensdaten, Orten und Berufsangaben. Im Falle von Bauwerken werden auch OpenStreetMap und Wikidata befragt, um über Quervergleiche etwa anhand von Adressdaten oder Koordinaten zuverlässiger entscheiden zu können, ob etwa mit der "Stadtkirche Neustadt" in einem Datenset jene in Holstein oder in Brandenburg gemeint ist.
Gedacht ist die Toolbox als eine pythonbasierte Serveranwendung nicht für individuelle Recherchen etwa bei der Anlage von neuen Datensätzen in einem Erfassungssystem, sondern für Massenverarbeitungen von Daten – wenn es darum geht, Hunderte oder gar Tausende von Datensätzen auf einmal abzugleichen. Sie richtet sich entsprechend nicht an Anwender:innen in einzelnen GLAM-Einrichtungen, sondern an die neuen GND-Agenturen mit ihrem Bedarf für schnelle und zuverlässige Bewertungen von großen Datenmengen in Hinblick auf vorhandene GND-Identifier und Kandidaten für Neuanlagen in der GND.
Personen-Matching in der Toolbox. Es wurden Dubletten in der GND gefunden.
Credit: Michael Markert (ThULB), CC 0, Jan 2024
OpenRefine
OpenRefine, ehemals bekannt als Google Refine, ist eine Open-Source-Software zur Datenaufbereitung und -bereinigung. Es ermöglicht Benutzer:innen, große Mengen von unstrukturierten Daten in tabellarischer Form zu importieren, zu erkunden, zu transformieren und zu bereinigen. OpenRefine wurde entwickelt, um den Datenbereinigungsprozess zu vereinfachen und die Qualität von Datensätzen zu verbessern. OpenRefine kann auf verschiedenen Betriebssystemen ausgeführt werden, einschließlich Windows, macOS und Linux. Es wird über einen Webbrowser bedient, daher wird empfohlen, einen modernen und aktuellen Browser zu verwenden. Unterstützte Browser sind Chrome, Firefox und Safari. Die Bearbeitung der Daten erfolgt jedoch lokal, weshalb nicht zwingend eine Internetverbindung vorhanden sein muss. Für den Datenaustausch besonders relevante Funktionen sind etwa der Import von Daten aus verschiedenen Quellen wie CSV-Dateien, Excel-Tabellen oder JSON, Datenexploration um Muster, Fehler oder Inkonsistenzen in Quelldaten zu identifizieren und nicht zuletzt Transformation und Bereinigung: Mit einer Vielzahl von eingebauten Transformationen können Benutzer Daten manipulieren, kombinieren und bereinigen, um konsistente Datensätze zu erhalten. Zudem können die Daten in OpenRefine über Schnittstellen mit der GND und anderen Normdateien gematcht, abgeglichen und angereichert werden. Bereinigte und transformierte Daten können in verschiedenen Formaten, wie z.B. Marc21 exportiert werden, um sie in anderen Systemen zu verwenden.
GND-Abgleich für Personen in OpenRefine
entityXML
EntityXML ist ein XML-basiertes Datenformat zur Beschreibung von Entitäten. Voraussetzung für das Arbeiten mit entityXML ist eine oXygen-Umgebung. Der oXygen XML Editor bietet u.a. den Vorteil, dass Einträge auch in einem nutzerfreundlichen Author-Modus ediert werden können.
In dem auf der GND-Ontologie basierenden entityXML-Schema können Projekte Entitäten unter Berücksichtigung ihrer spezifischen Charakteristika in einer einheitlichen Struktur beschreiben, was der Agentur ein direktes Mapping auf die Datenstruktur der GND ermöglicht. Darüber hinaus können über individuelle Namensräume projektrelevante Elemente außerhalb des Schemas erschlossen werden, die nicht für den Datenimport in die GND gedacht sind. Eine Überprüfung der Datenqualität ist durch das in entityXML implementierte Validierungsschema Relax NG und dem darin enthaltenen Schematron für Projekt und Agentur gleichermaßen durchführbar. Weiterhin lassen sich mit Hilfe bereitgestellter generischer Transformationsszenarien in entityXML angelegte Daten in andere relevante Datenformate (z. B. JSON) übersetzen. Anhand einer Revisionsbeschreibung werden die einzelnen Schritte des Workflows dokumentiert, Anmerkungen zu den Daten können an direkter Stelle notiert werden, sodass sowohl Kommunikation zwischen Datenlieferant und Agentur als auch das Berichtswesen unterstützt werden. Eine Versionierung der Daten ist möglich.
Mit entityXML können zunächst Personen beschrieben werden, das Format wird aber sukzessive für die Beschreibung weiterer Entitäten ausgebaut.
Beispielset für die Auszeichnung einer Person in entityXML (im Text- und Autor-Modus).
Data Preparation Tool
Das Data Preparation Tool (DPT) ist ein Mappingwerkzeug zur Aufbereitung von (bislang vornehmlich) archivischen Metadaten für die Einspielung in die Portale DDB, Archivportal-D, Archivportal Europa und LEO-BW. Entwickelt wurde das Tool in der DDB-Fachstelle Archiv mit dem primären Ziel, die Erstellung granularer providerspezifischer Anpassungen zu ermöglichen, um einmal umgesetzte Anpassungen für weitere Datengeber nachnutzen zu können.
Es handelt sich beim DPT um eine Python-basierte Desktop-Anwendung, die es ermöglicht, Daten aus beliebigen Quellformaten mit einem Workflow aus aneinander gereihten Python-Modulen zu transformieren. Die Verwendung von Python ermöglicht es etwa, auch Quelldaten aus Excel-Dateien und anderen Datenquellen mit einzubeziehen, sowie Feldinhalte aus verschiedenen Quelldateien gleichzeitig anzureichern.
Kern der XML-Transformation ist die Python-Bibliothek lxml, welche eine fehlertolerante und äußerst performante Verarbeitung der Lieferdaten erlaubt und dabei nur geringe Anforderungen an das Host-System stellt. Neben dem erwähnten Providerskript-Workflow bietet das Tool einige "Maintenance-Funktionen", mit dem Ziel, aus möglicherweise fehlerhaften Lieferdaten möglichst schnell einen sauberen ersten Stand zu erhalten, auf dessen Basis dann der Workflow angewandt werden kann.
Im Rahmen des GND4C-Projekts wurde das DPT um eine MARC-XML-Konkordanz für Personen ergänzt, um Datenlieferungen an die DNB für einen GND-Import übergeben zu können. Diese Erweiterung beinhaltet auch die freie Konfiguration einzelner (GND-interner) Datenfelder, die für einen Import vorausgesetzt werden, in der Regel aber nicht in den Ausgangsdaten der Kultureinrichtungen enthalten sind. In der GND-Agentur LEO-BW-Regional ist das DPT fester Bestandteil der Datenprozessierung.
Die aktuellste, für das GND4C-MARC-XML-Mapping angepasste Version des DPT kann hier heruntergeladen werden:
https://github.com/Deutsche-Digitale-Bibliothek/ddblabs-datapreparationtool/releases/tag/v3.5.0-pre6 (letztes Update: 24.07.2023).
Das DPT wird derzeit zu einer webbasierten Anwendung weiterentwickelt, die die gemeinsame Arbeit an Datenlieferungen an zentraler Stelle ermöglicht. Eine erste Version mit Fokus auf die Anforderungen von archivischen Datenlieferungen wird voraussichtlich bis Ende 2024 in Betrieb genommen.
Einblick in das Data Preparation Tool (DPT)
GND-Webformular
Das GND-Webformular bietet sich für Forschungsprojekte und Kulturinstitutionen an, wie etwa für kleinere Bibliotheken, Archive und Museen. Es ermöglicht ihnen, Personen- und Körperschaftsdatensätze in der GND neu anzulegen sowie bestehende Datensätze zu korrigieren oder zu ergänzen. In den nächsten Monaten wird auch die Erfassung von Gebietskörperschaften über das Webformular möglich sein. Die Nutzung des Webformulars kann sinnvoll sein, wenn man eine kleinere Menge von Normdaten ansetzen oder bearbeiten will. Außerdem bietet es sich beispielsweise begleitend zu Projekten an, in denen laufend Daten erfasst werden und auch neue Normdaten-Kandidaten identifiziert werden. Im Gegensatz zu den Erfassungsclients, die in Bibliotheken zum Einsatz kommen, können Personen und Körperschaften über das Webformular nur mit einer begrenzten Auswahl von Eigenschaften erfasst werden.
Sind die Daten über das Webformular eingegeben, landen sie unmittelbar in der GND. Für die Anwender*innen des Webformulars besteht daher ein großer Vorteil des Tools darin, dass sie die generierte GND-ID direkt im eigenen System einfügen können.
Um das Webformular nutzen zu können, braucht man zum Einen eine Vereinbarung mit einer GND-Agentur, die die eingegebenen Daten prüft und langfristig ihre Qualität sicherstellt. Zum Anderen benötigt man einen ISIL. Der International Standard Identifier for Libraries and Related Organizations ist Bestandteil des QS-Systems der GND, mit dem die Herkunft eines Datensatzes deklariert und nachvollziehbar wird. Einrichtungen können ihn bei der ISIL-Sigelstelle an der Staatsbibliothek zu Berlin beantragen. Weitere Infos zum Webformular finden Sie unter https://www.dnb.de/gndwebformular.