Bericht vom ersten projektübergreifenden Arbeitstreffen der GND-Agenturen mit Fokus auf Datenimport. Ein Beitrag von Stefan Buddenbohm (SUB) und Barbara Fischer (DNB)


Am 20. April 2023 trafen sich auf Einladung der Arbeitsstelle für Standardisierung an der Deutschen Nationalbibliothek und der Niedersächsischen Staats- und Universitätsbibliothek Göttingen für ein erstes Arbeitstreffen Mitarbeitende aus ganz unterschiedlichen Bereichen und Projekten. Ihnen allen ist daran gelegen, am Ausbau und an der Modernisierung der Gemeinsamen Normdatei (GND) aktiv mitzuwirken. Ein wesentliches Qualitätsmerkmal der GND ist ihre Zuverlässigkeit. Für deren hohe Datenqualität zeichnen vor allem die “zuliefernden” Agenturen mit ihrer Redaktionsarbeit und den erprobten Abläufen verantwortlich. Charakteristisch für die Arbeit der etablierten GND-Agenturen – bspw. in den bibliothekarischen Verbundzentralen – ist, dass sie beständig und regelmäßig in der GND arbeiten. Es besteht eine Kontinuität in Gestalt der beteiligten Anwender und Anwenderinnen, eine verlässliche Kommunikation mit der Community der Datengeber und anderen Anwendergruppen, sowie der sichere Gebrauch des Regelwerks.

Die neuen Agenturen holen auf.
Screenshot des im Treffen durchgeführten Mentimeters. Zum Vergrößern bitte auf das Bild klicken.

Neue und im Aufbau befindliche GND-Agenturen

Mit der Nationalen Forschungsdateninfrastruktur (NFDI) und auch in anderen Kontexten, wie die Fachinformationsdienste, Museen und Archive, entwickeln zunehmend neue Nutzendengruppen und Datengebende einen Bedarf an GND-Normdaten. Mit Blick auf die NFDI sind dies die Konsortien mit geistes-, sprach- und kulturwissenschaftlicher Ausrichtung, also NFDI4Culture, NFDI4Memory, NFDI4Objects sowie Text+. Für diese Community, aber auch für andere Datendomänen im Kulturbereich, befindet sich derzeit eine Reihe von neuen GND-Agenturen und Redaktionen im Aufbau, um deren spezifischen Bedarfe zu adressieren und so die Nutzung und Anreicherung der GND voranzutreiben. Diesen Prozess unterstützt maßgeblich das DFG geförderte Projekt GND4C mit seinen Partnern.

Die eingangs angesprochene und geteilte Expertise der etablierten GND-Agenturen ist für die in Planung bzw. im Aufbau befindlichen Agenturen von zentraler Bedeutung. Mit Fokus auf den Aspekt Lieferwege in die GND trafen sich daher Beteiligte aus der GND-Zentrale, GND-Redaktionen in den Verbundzentralen sowie aus verschiedenen GND-Agenturen im Aufbau. Die 29 Teilnehmerinnen und Teilnehmer deckten “agenturmäßig” so unterschiedliche Domänen wie Archive, Bauwerke, Darstellende Künste, Museen, Provenienzforschung, Sprach- und Textdaten ab.

Die GND-Agenturen als zentraler Partner für die Integration neuer Communities.
Credit: Chantal Köppl (DNB), CC BY-SA 4.0 Mai 2022 Zum Vergrößern bitte auf das Bild klicken.

Themen, die die GND-Agenturen bewegen

Die im Vorfeld durchgeführte Fragen- und Themensammlung ergab folgende Fragen:

  • Wie ist das Verhältnis einer Agentur zu einer Redaktion?

  • Welche Rolle können die Verbundzentralen einnehmen?

  • Was bedeutet Community-Arbeit aus Sicht einer Agentur?

  • Welche Anforderungen stellt eine Agentur an die Daten gebenden Einrichtungen in Bezug auf die Daten?

  • Welche Verfahren lassen sich für den Abgleich mit der GND nutzen (Entwicklungsstand)?

Für das erste Arbeitstreffen votierte die Mehrheit für die letzte Frage.

Beteiligungsmöglichkeiten in der GND

Neben stehend findet sich ein Überblick über die Beteiligungsmöglichkeiten innerhalb der GND. Eine ganz wesentliche Rolle für die Umsetzung der Bedarfe spielen die GND-Agenturen. Die neu im Aufbau befindlichen Agenturen sind die konkreten Ansprechpartner für neue Communities im GND-Netzwerk.  Über viele Jahre erstellten die in den bibliothekarischen Verbundzentralen etablierten Agenturen die Datensätze der GND kollaborativ vornehmlich nach den Bedarfen der Bibliotheken. Der laufende Öffnungsprozess möchte man die GND reichhaltiger, vielfältiger und integrativer für Beiträge aus dem ganzen Kultur- und Forschungsbereich machen, nicht zuletzt um auch die Normdaten-Arbeit auch auf mehr Schultern zu verteilen. Große Bedeutung für den Austausch der Agenturen und Redaktionen mit ihren jeweiligen Nutzendencommunities kommt den Foren zu.  Das GND-Forum ist ein mittlerweile etabliertes Dialog-Format für thematisch oder Datendomänen spezifische Communities, zu dessen Auftakt die Bedarfsermittlung und Interessenvermittlung zwischen GND und Anwendenden und Nutzenden steht. Sie sind der richtige Ort, um neu in ein Thema einzusteigen, Ideen vorzustellen oder Fragen zu erörtern. Die Foren sind ein wichtiger Resonanzraum für die GND-Agenturen. Bisher wurden GND-Foren zu fünf Schwerpunkten eingerichtet: Archive, Bauwerke, Darstellende Kunst, Museen und Sprach- sowie Textwissenschaften. Im Rahmen der GND-Foren finden immer wieder neue Veranstaltungsangebote stat, um gemeinsam zu lernen und sich als Community auszutauschen. Dieses Arbeitstreffen war jedoch keinem bestimmten Forum zugeordnet, sondern versteht sich bewußt als ein projekt- und Community übergreifendes Arbeitstreffen.


Zum thematischen Fokus des Arbeitstreffens 

Drei Vorträge dienten als Impuls für die Diskussion der Teilnehmenden am ersten Arbeitstreffen der GND-Agenturen rund um das Thema “Import neuer Datensätze" in die GND. Zwei Impulse kamen aus im Aufbau befindlichen GND-Agenturen ergänzt durch einen Beitrag der GND-Zentrale. Sie alle beleuchteten aus unterschiedlichen Perspektiven Fragen zum Datenimport: Datenharmonisierung, Datenabgleich und Datenintegration. Gerade für die Integration neuer Communities in das GND Netzwerk steht am Anfang oft der Bedarf nach einem Datenimport fehlender Entitäten, die aber für die Verknüpfung von Ressourcen dringend gebraucht werden.

Lieferungsworkflow in entityXML an die GND.
Credit: Uwe Sikora (All Rights Reserved), SUB Göttingen, April 2023. Zum Vergrößern bitte auf das Bild klicken.

entityXML

Stefanie Rühle (Gruppe Metadaten und Datenkonversion an der SUB Göttingen) stellte mit entityXML ein konkretes Arbeitsergebnis des GND-Tasks in Text+ vor. Der GND-Task, angesiedelt in der Task Area Infrastructure/Operations und gemeinsam verantwortet von SUB und DNB, richtet sich während der Projektlaufzeit von Text+ in erster Linie an die drei Datendomänen: Editionen, Sammlungen und lexikalische Ressourcen; darüber hinaus aber auch an weitere Forschende und Einrichtungen, die mit text- und sprachbasierten Forschungsdaten arbeiten. Ziel ist es, die Nutzung der GND zu verbessern, insbesondere auch bisher noch nicht mit der GND verknüpfte Forschungsdatenbestände mit Normdaten anzureichern und ggf neue Normdaten an die GND einzubringen. Die Importdaten beziehen sich derzeit hauptsächlich auf Personen und Werke und werden konkret an drei Vorhaben erprobt, die an der Universität Göttingen bzw. der Niedersächsischen Akademie der Wissenschaften verortet sind: der Klaus Mollenhauer-Gesamtausgabe, den Carl Schmitt-Tagebüchern sowie den Gelehrten Journalen und Zeitungen der Aufklärung. entityXML dient dabei nicht nur als Werkzeug zur Bearbeitung von Daten, sondern ist gleichzeitig auch ein Austauschformat. Die Dokumentation des derzeitigen Entwicklungsstandes ist frei verfügbar unter https://entities.pages.gwdg.de/entityxml/ sowie unter https://gitlab.gwdg.de/entities/entityxml verbunden mit der Einladung zur Kommentierung. Die Folien zum Vortrag sind unter GND-Agentur_Text+_v2.pptx.pdf vollständig nachzulesen.

Ein Blick in die webbasierte GND4C Toolbox.
credit: Erdal Ayan (ThULB Jena) , CC BY-SA 4.0 April 2023. Zum Vergrößern bitte auf das Bild klicken.

GND4C-Toolbox

Der zweite Impuls von Erdal Ayan und Michael Markert (beide Thüringer Universitäts- und Landesbibliothek (ThULB)) stellte die im Projekt GND4C in Entwicklung befindliche Toolbox vor, die ebenfalls dazu dienen soll, die GND anzureichern, sprich die Importdaten zu redigieren und validieren. Im Fokus stehen dabei Daten zu Personen, Bauwerken und Geografika. Aus diesem Grund bietet die Toolbox als Funktion ein Matching gegen verschiedene Dienste an, neben der GND, etwa Wikidata und OpenStreetMap. Eine Testinstanz des Dienstes, der 2024 in den Produktivbetrieb gehen soll, ist für Agenturpartner aus GND4C schon auf den Servern der ThULB zugänglich. Die Toolbox wird Open Source bereitgestellt und ist grundsätzlich für die Nutzung für andere Projekte und GND-Interessierte vorgesehen. Die Folien zum Vortrag sind unter ea_presentation_20_04_2023.pdf  vollständig nachzulesen.


Der Workflow für Batch-Importe aus der Sicht der Datengeber.
Mehr Information. credit: Sarah Hartmann (DNB), CC BY-SA 4.0 April 2023. Zum Vergrößern bitte auf das Bild klicken.

Batch-Importe in die GND

Der dritte Impuls wurde durch Sarah Hartmann (DNB) beigesteuert, die aus der Praxis größerer Paketeinspielungen in die GND berichtete. Erfüllt ein Datenbestand die Eignungskriterien der DNB, bietet er sich für den Import als Paket an. Im Alltag der GND-Agenturen der Verbundzentralen werden täglich circa 1000 neue GND-Datensätze manuell erfasst. Das Einspielen ganzer Pakete neuer Datensätze in die GND ist eher der Ausnahmefall. In projektorientierten Kontexten kann es aber erforderlich sein, größere Konvolute en bloque in die GND zu integrieren. Beispielsweise kann im Zuge eines Editions-Projektes die Integration von bisher nicht erfassten Akteurinnen und Akteuren, Orten oder Schlagworten notwendig werden, um Ressourcen aus dem Projekt für die gesamte Community verknüpfen zu können und damit sichtbarer zu machen. Dies würde bspw. dem Bedarf in Text+ durchaus entsprechen. Die Umfänge, über die gesprochen wird, reichen von wenigen hundert bis tausenden neuer Datensätze. Damit ist klar, wo die Herausforderungen liegen. Da eine manuelle Erfassung mit den projektüblichen personellen Ressourcen in den Projekten nicht skaliert, es jedoch keine Massen- oder Bulkimports ohne vorangegangene Qualitätsprüfung gibt, braucht es semi-automatische Verfahren, die den Bulk-Import unterstützen. An der DNB gibt es hierfür ein Approvalsystem mit einen angedockten Match & Merge Verfahren. Voraussetzung ist jedoch, dass die Daten auf das GND Datenmodell gemappt wurden und im Marc21 Format vorliegen. Für viele Datengebende sind daher die Anwendungen entityXML und die GND4C Toolbox wichtige Arbeitshilfeangebote, um ihre Daten für den GND Ingest vorzubereiten. Die Folien zum Vortrag von Sarah Hartmann sind unter GND_Import_20230420.pdf vollständig nachzulesen.


Der Batch-Import als Alternative oder als Einstieg in die Alltagsroutine der Erfassung von Normdaten

Ob Bulk-Upload, Batch-Import oder Masseneinspielung – auch wenn die Begrifflichkeit kontrovers diskutiert wurde, scheint klar: sowohl der von Sarah Hartmann vorgestellte Praxisbericht als auch die Tools aus Text+ und GND4C bieten für GND-Agenturen potenziell eine Arbeitserleichterung, wenn es um das projektorientierte Anreichern von Beständen bzw. deren Integration in die GND geht. Im Kontext der NFDI können Hilfsmittel wie entityXML oder die GND4C-Toolbox für die Anreicherung der GND mit Daten aus dem reichen Bestand der NFDI-Konsortien und anderen Communities sehr nützlich sein. Die vorgestellten Werkzeuge/Verfahren stellen den im Aufbau befindlichen GND-Agenturen in Aussicht, leichter neue Datenbestände für die GND aus projektorientierten Kontexten mittels semi-automatischer Verfahren erschließen zu können. Die mit dem Stichwort “projektorientierter Kontext” einhergehenden Beschränkungen, vor allem hinsichtlich zur Verfügung stehender Arbeitszeit und bibliothekarischer Expertise, dürfen nicht zu Lasten des Qualitätsanspruchs der GND gehen. Die genannten Werkzeuge/Workflows adressieren diesen Aspekt bspw. mittels iterativer Validierungsschleifen sowie einer obligatorischen redaktionellen Prüfung der Daten vor dem Import in die GND.

Der Batchimport in die GND geht mit Blick auf die bisher übliche, gängige Arbeitspraxis für Normdatenimporte in der GND also mit einem gewissen Kulturwandel einher: Parallel zur manuellen Erfassung von einzelner Normdatensätze im Zuge des Erschließungsalltags, haben die oben genannten Ansätze das Ziel, in kürzerer Zeit größere Bestände zu verarbeiten. Dies ist notwendig, weil die sich in projektorientierten Kontexten bietenden Zeitfenster üblicherweise überschaubar sind. Die Verfahren sollen sicherstellen, dass die Qualität der GND dabei nicht gefährdet wird. Über die im Aufbau befindlichen GND-Agenturen, bspw. Text+, bietet sich die Gelegenheit, die vorgestellten Verfahren zu erproben. 

Das G in GND – Etablierte und neue GND-Agenturen im Austausch 

Der oben skizzierte Unterschied zwischen der etablierten Praxis des manuellen Bearbeitens von einzelnen Datensätzen als Erfassungsroutine und  der Erprobung anderer Verfahren - wie dem Batchimport - spiegelt sich auch in den GND-Agenturen wieder. Der Bedarf für weiteren Austausch liegt also auf der Hand. Dementsprechend votierte die überwiegende Mehrheit der Teilnehmenden für eine Fortsetzung des Dialogs. Alle Interessierten können sich gern an die Veranstalter mit Vorschlägen für Themenschwerpunkte  wenden, oder sie direkt in das offene Notizbuch der Arbeitsgruppe eintragen.

Das nächste Treffen ist für Anfang 2024 geplant. Abonnieren Sie gern diesen Blog, um keine Veranstaltung zu verpassen.