Dokumentation des GND Forums NFDI, FID und Co
Auch wenn sich noch weitaus mehr Menschen für das GND Forum NFDI, FID & Co am 10. Dezember 2024 angemeldet hatten, so waren wir von den tatsächlich teilnehmenden 250 Menschen wirklich sehr angetan. Für die Teilnehmenden hatte das Team der Niedersächsischen Staats- und Universitätsbibliothek Göttingen und der Arbeitsstelle für Standardisierung der Deutschen Nationalbibliothek aus den Communities der geisteswissenschaftlichen Konsortien der Nationalen Forschungsdateninfrastruktur (NFDI), den Fachinformationsdiensten der Wissenschaften und weiteren Forschungsvorhaben einen Strauß an Vorträgen zu einem dichten Programm zusammengestellt.
Das GND Forum NFDI, FID & Co lud so alle Interessierten ein, sich über aktuelle Vorhaben zur Gemeinsamen Normdatei (GND) im deutschsprachigen Raum zu informieren. Da es sich im Wesentlichen um eine Informationsveranstaltung handelte, liegt der Schwerpunkt der Dokumentation auf der Bereitstellung der Folien zu den neun Vorträgen. Die Vorträge behandelten die unterschiedlichen Aspekte der Arbeit mit der GND aus verschiedenen Perspektiven und stellten die Rolle der GND für die unterschiedlichen Communities vor. Die meisten Vorträge kann man gut mit der Kategorie ”Werkstattbericht” beschreiben. Sie waren so heterogen in Inhalt und vorausgesetztem Wissen, wie das Publikum selbst. Der neunte Vortrag rundete das Programm mit einer Präsentation einer Pilotanwendung für eine KI-gestützte Inhaltserschließung ab. Nebenstehend das vollständige Programm.
Das Programm
GND-Serviceangebote für Forschende
Im ersten Block dominierten die Serviceangebote rund um die GND für Forschende spezifischer Fachrichtungen. Neben Beratung zum Mehrwert der Verknüpfung eigener Daten mit GND Identifikatoren im Sinne der FAIR Prinzipien und Recherche nach geeigneten Entitäten in der GND, umfasst das Angebot auch die Neuansetzung von GND Normdatensätzen “on demand”. Zentrale Frage aus dem Chat zu diesem Block war daher: “Diskutieren Sie mit den Forschenden Kriterien für die Aufnahme von Entitäten in die GND oder werden prinzipiell alle Wünsche umgesetzt?” Die Antwort auf die Frage orientiert sich einerseits an den Eignungskriterien der GND. Auch die Service-Angebote der Fachinformationsdienste wie die Forschungsprojekte RISM und Qalamos legen GND Datensätze regelkonform im Rahmen der bekannten Verbundstrukturen an. Zum anderen wächst die Einsicht in die Notwendigkeit, hier mit allen Stakeholdern sowohl communityseits als auch innerhalb der GND-Kooperative Lösungen zu finden, die den Bedarfen jeweils gerecht werden.
Vielversprechende Lösungen könnten sowohl die Entwicklung von Relevanzkriterien für den community-spezifischen Bedarf sein, als auch die Formulierung bestimmter Anwendungskontexte. Diese Anwendungskontexte betreffen z. B. die Normdatenerfassung für Produktionen und Ereignisse in den darstellenden Künsten, für Werke der Musik, die nicht (mehr) als Publikation existent sind, auf die dennoch referenziert werden soll oder für Textfragmente der Orientalistik.
Screenshot zur Vielfalt der Communities
Der erste Vortrag des Tages wurde vom FID-Netzwerk “Künste und Kultur” bestritten. Es trugen vor: Franziska Voss (FID Darstellende Kunst), Elisabeth Hufnagel (FID musiconn) und Maria Effinger (FID arthistoricum).
Der zweite Vortrag von Anett Krause und Christoph Rauch (beide Staatsbibliothek zu Berlin) galt dem Portal Qalamos, das Handschriften und historische Textobjekte aus dem Nahen Osten und Indien in Sammlungen in Deutschland repräsentieren möchte. Das Portal selbst verfügt über ein wachsendes Repositorium lokaler Normdaten. Von diesen werden in Zusammenarbeit mit dem FID Nahost die Daten in die GND übernommen, die den Eignungskriterien der GND entsprechen.
Vortrag zu dem Portal Qalamos
Den dritten Vortrag zu dem Projekt im Rahmen von NFDI4Culture, die Musikwerknormdatensätze aus dem Repositorium RISM mit der GND zu verknüpfen, hielten Desirée Mayer und Alexander Faschon (beide Sächsische Universitäts- und Landesbibliothek Dresden (SLUB)). Sie stellten neben dem eigentlichen Projekt den geplanten GND-Editor vor, der in die Erschließungsumgebung des Muscat integriert werden soll. Gemeinsam mit dem FID für Musikwissenschaften musiconn möchte man sich für die offene Diskussion zur Erfassung von Werknormdatensätzen der Musik in der GND und Regelungen dafür einsetzen.
Vortrag zu RISM
Den Abschluss machte folgerichtig Barbara Fischer (DNB), indem sie auf die beiden kurz vor der Veröffentlichung stehenden einführenden E-Learnings für Forschende im GLAM-Bereich zur GND-Nutzung und Mitarbeit in der GND in einem kurzen Impuls verwies. Die beiden Module werden es sicherlich allen Interessenten der zuvor vorgestellten Serviceangebote erleichtern, diese wahrzunehmen, da die Module das dazu erforderliche Basiswissen zum Selbststudium vermitteln.
Impuls zu den GND-E-Learnings
Anja Gerber (Klassik Stiftung Weimar) schilderte in ihrem Vortrag die schon weit gediehenen Überlegungen des NFDI4Objects Konsortiums zur Standardisierung der doch sehr differenten Daten dieser Community.
Vortrag zu NFDI4Objects
Sophie Rölle (SLUB) und Domenic Städtler (Institut für Museumsforschung) warben für die Nutzung der Empfehlungen des Minimaldatensatzes für Museen und Sammlungen und den dort gesetzten Verweisen auf die GND als PID-System.
Vortrag zur Minimaldatensatzempfehlung
Für Hanna Meiners, die leider ihren Vortrag nicht selbst halten konnte, sprangen ihre Kolleg*innen Klaus Bulle und Julia Rössl (alle drei Deutsches Dokumentationszentrum für Kunstgeschichte (DDK)) ein. Die Folien erläutern detailliert und textreich, die teilautomatisierten Arbeitsprozesse am DDK zur Anreicherung der Daten im Bildindex mit Normdaten aus der GND und Wikidata.
Vortrag zur Datenanreicherung
In Sinne einer schrittweisen Annäherung an die GND böte sich jetzt der dreiteilige Vortrag von Christine Erfurth (Bayerische Staatsbibliothek), Johannes Haslauer (Staatsarchiv Bamberg) und Uwe Sikora (GND Agentur Text+ ) zu einem Vorhaben im Rahmen von NFDI4Memory an. Im Programm stand er jedoch an dritter Stelle des zweiten Blockes. Ein über Deutschland verteiltes Team ging gemeinsam vor, um Daten zu selektieren, aufzubereiten und in die GND einzubringen. Denn während man in Bamberg die nötige inhaltliche Expertise zu den historischen Personen hatte und die Daten in die nun schon bekannte Anwendung openRefine einspielte, konnte man mit der Expertise der GND-Agentur in München die Personen identifizieren, die noch nicht in der GND enthalten waren, und so weit die Daten strukturieren und ergänzen, dass sie für regelkonforme Personendatensätze in der GND geeignet waren. Diese wurden nun mit Hilfe der Göttinger und der Anwendung entityXML in das Datenformat MarcXML konvertiert. Der Arbeitsprozess ist im GitLab der GWDG zur Nachnutzung dokumentiert. Im letzten Schritt wird man die Daten an die GND-Zentrale in Frankfurt übergeben, die sie nach einem Validierungsprozess in die GND aufnimmt.
Vortrag zum Arbeitsprozess
Ein Ressourcen sparender Ansatz
Den letzten Vortrag hielt Cecilia Maas (Aureka). Sie stellte ausführlich bis in die technisch-mathematischen Details dar, wie sie prototypisch und mit guten Ergebnissen mittels Künstlicher Intelligenz gestützter Verfahren dem Stadtmuseum Berlin bei der automatisierten Inhaltserschließung von Zeitzeugeninterviews helfen konnten. Die Anwendung wird konstant weiterentwickelt und ist bereits jetzt generell für die meisten textbasierten Ressourcen einsetzbar.
Vortrag zur KI gestützten Erschließung
Die Veranstaltung war ein Versuch, im Rahmen des Dialogformats der GND-Foren quer über die Communities hinweg zu aktuellen Vorhaben zu informieren. Herausgekommen ist eine kleine GNDCon. Die Teilnehmerzahlen belegen das große Interesse an solchen Informationsangeboten durchaus neben den mehr interaktiven Formaten der Veranstaltungen im Rahmen der community-spezifischen GND-Foren oder den deutlich kleineren projektübergreifenden Arbeitsgruppen “Community-Empowerment” und “Agenturentreffen”.
Doch wir wollen es gern etwas genauer wissen, und laden Sie daher ein, unseren kurzen Fragebogen zu beantworten. Ihre Antworten dienen uns als Orientierung, welche Angebote wir im kommenden Jahr machen werden. Bleiben Sie uns gewogen und genießen Sie die Festtage.
Weiterführende Links aus dem Chat
(sofern nicht bereits im Fließtext integriert)
- Die GND Website zur Information und Orientierung.
- Der GND Explorer für die Recherche von GND Identifikatoren und der GND Reconciliation Service für den Abgleich der eigenen Daten zu Entitäten wie Personen, Körperschaften etc. mit der GND.
- Das offene Metadaten Community Forum für Fragen und Ansätze zum Schlagwort GND https://metadaten.community/tags/c/gnd/26/gnd
- Ein OpenRefine Workshop zum Nachlesen/-arbeiten https://fdmlab.landesarchiv-bw.de/workshop/openrefine-einsteiger/warum-openrefine/
- Das Handbuch zu entityXML: https://entities.pages.gwdg.de/entityxml/
- Zum Thema constraints in Wikidata im Vortrag von Hanna Meiners https://www.wikidata.org/wiki/Help:Property_constraints_portal/de
Am 4. Dezember fand die nunmehr sechste Veranstaltung zur Ausleuchtung der Bedarfe und Angebote in zehn verschiedenen Anwendungsfelder von Wissenschaft und Forschung für persistente Identifikationssysteme (PID) statt. Die Workshopreihe ist eine der Säule der Untersuchungen des Projektteams PID Network Deutschland, bestehend aus den Partnereinrichtungen Helmholtz Open Science Office , Universitätsbibliothek Bielefeld, Technische Informationsbibliothek Hannover (TIB), Datacite und der Deutschen Nationalbibliothek, für die Ausarbeitung einer nationalen PID Roadmap zur Orientierung für Wissenschaft und Politik. Im Fokus standen diesmal kulturelle Objekte und ihre Kontexte (Link zur Workshop Ankündigung). Im Gegensatz zu anderen Anwendungsfeldern, wie wissenschaftliche Instrumente, Projekte, Organisationen oder Forschungsdaten, ging es hier nicht um Identifikatoren für einzelne Kulturobjekte, wie zum Beispiel die Steinaxt aus der Sammlung eines Museums für Vor- und Frühgeschichte, ein Röhrenradio aus dem Bestand eines Technikmuseums oder eine Videoinstallation in einer Kunstgalerie, sondern vielmehr um unterschiedliche PIDs in den Metadaten zu diesen Objekten. Die umfängliche Gemeinsame Normdatei (GND) mit ihren sechs Entitätstypen ist im GLAM-Bereich bereits gut eingeführt, wie auch die Umfrage unter den ca. 130 Angemeldeten zeigte. Danach gaben drei Viertel an, gelegentlich oder regelmäßig die GND anzuwenden (Diagramm 2). Ein gutes Ergebnis vor dem Hintergrund, dass nur ein knappes Viertel der Beteiligten einen bibliothekarischen Hintergrund angab (Diagramm 1). Hierzu nebenstehend die beiden Diagramme:
Diagramm 1: Selbstkategorisierung in Bezug auf das Berufsfeld
Diagramm 2: Selbsteinschätzung in Bezug auf die Vertrautheit mit der GND
Nach einem Überblick über das Gesamtprojekt durch Steffi Genderjahn vom Helmholtz Open Science Office (siehe die nebenstehenden Folien), ging es im folgenden Beitrag von Barbara Fischer (DNB) um die Einsatzmöglichkeiten der GND in wissenschaftlichen Sammlungen in Museen und Archiven. Drei Perspektiven wurden skizziert: die GND in der Recherche zu Literatur und Material. Die Nutzung von GND-Normdaten in den Metadaten der Sammlungsobjekte und schließlich, wie man verfährt, sollte ein Normdatensatz noch nicht Teil des GND Datenbank sein. Die nebenstehenden Folien ganz rechts mit dem entsprechenden Vortragstext bieten zu den drei genannten Perspektiven Auskunft.
Vortrag von Steffi Genderjahn
Vortrag von Barbara Fischer
Kernstück des Workshops war die Präsentation der Betaversion der beiden E-Learnings, die interaktiv und barrierefrei als Einführung in die Nutzung der GND Normdaten und Mitarbeit in der GND Kooperative Anfang kommenden Jahres publiziert werden sollen. Das erste Modul mit dem Titel “Einfach normiert. Eine Einführung in die Nutzung der GND” beinhaltet die Punkte:
- Grundlegender Einblick in die GND
- Vorteile und Potenziale der GND Nutzung
- Verwendung der GND als Recherchetool
- Verknüpfung von Forschungsdaten mit GND-IDs
Das zweite Modul “Mitarbeiten in der GND. Eine Einführung in die GND Anwendung” widmet sich den Themen:
- Tiefergehendes Wissen in die Struktur der GND
- Kennenlernen der GND-Kooperative und des Netzwerks
- Einblick in die verschiedenen Möglichkeiten Normdaten in die GND einzupflegen
Nach einer kurzen Vorstellung (Folien nebenstehend ) des Produktionsprozesses und der Funktionsweise der beiden Module durch Gina Drost von der beauftragten Media-Agentur Fischer Knoblauch und Co nutzten gut die Hälfte der Anwesenden die Gelegenheit, die Module zu testen. In zwei Gruppen gaben sie differenziertes Feedback, das noch vor der Publikation in der Masterversion berücksichtigt werden soll.
Insgesamt kamen beide Module gut an. Man fand sie einladend und intuitiv in der Bedienung. Das zeigen die Abbildungen 1 und 2 stellvertretend für beide Module.
Vortrag von Gina Drost
Abbildung 1 Meinungsbild zum Modul 2 Einschätzung des Storytellings
Abbildung 2 Meinungsbild zum Modul 2 Einschätzung des Distributionspotentials
zum Vergrößern bitte jeweils auf das Bild klicken
Wesentliche Punkte im Gespräch waren der Wunsch nach mehr weiterführenden Links und eine Absenkung der Einschätzung der für den Durchgang eines Moduls erforderlichen Zeit von 50 auf eher 30 Minuten. Insgesamt wurde auch in diesem Workshop deutlich, dass es vor allem an Ressourcen in den Einrichtungen fehlt, um wirklich umfassend PID-Systeme wie die GND in die Arbeitsroutinen der Erschließung zu integrieren. Angebote wie die beiden E-Learnings helfen, sich das notwendige Wissen hierfür anzueignen. Doch bleibt am Ende festzustellen, für die gelingende Verknüpfung von Ressourcen, die Verbesserung ihrer Sichtbarkeit und Nachnutzung durch Dritte braucht es noch mehr und vor allem dauerhafte Unterstützung auf der Leitungsebene und durch die Politik als Fördermittelgeber, um die gewünschte Datenqualität zu gewährleisten.
Voraussichtlich zu Beginn des Jahres 2025 werden die beiden E-Learnings online zugänglich sein. Wir informieren in diesem Blog darüber.
Der Workshop wurde vom DFG-geförderten Projekt PID Network Deutschland veranstaltet. Mehr Informationen zu vergangenen und künftigen Veranstaltungen finden Sie hier.
Die Projektpartner
Helmholtz Open Science Office , Universitätsbibliothek Bielefeld, Technische Informationsbibliothek Hannover (TIB), Datacite und der Deutschen Nationalbibliothek
Gefördert von der Deutschen Forschungsgemeinschaft: https://gepris.dfg.de/gepris/projekt/506475377
Die Dokumentation des 4. GND Forum Archiv liegt vor.
Bereits zum vierten Mal traf sich Ende September die Archiv-Community im GND Forum Archiv. Im Fokus des Austausches standen diesmal zum einen die Arbeitsergebnisse der IG Archiv und zum anderen drei Praxisbeispiele zur Anwendung der GND im archivischen Arbeitsalltag. Die vorgestellten Resultate machen deutlich: Die Archiv-Community ist schon mittendrin im GND Netzwerk.
Alle Details
- zur Handreichung zum Einsatz der der Gemeinsamen Normdatei in Archiven,
- zu den Relevanzkriterien für die Normdatenansetzung in Archiven und
- Tools und Anwendungen zur Arbeit mit der GND in Archiven
können Sie in der ausführlichen Dokumentation im STA-Community Wiki nachlesen und über weiterführende Links vertiefen. In der Dokumentation finden Sie auch die Folien der drei Impulsvorträge.
Das fünfte GND Forum Archiv findet voraussichtlich Anfang April 2025 statt. Wir werden Sie informieren.
Die veranstaltenden Einrichtungen
Bericht von dem zweiten Treffen des projektübergreifenden Arbeitskreises der nicht-bibliothekarischen Agenturen
Insgesamt ein voller Tag in guter Atmosphäre, der Lust auf mehr macht. Im Herbst soll das dritte Treffen des projektübergreifenden Arbeitskreises der nicht-bibliothekarischen Agenturen stattfinden. Vielleicht auch eine gute Gelegenheit sich einen griffigeren Namen zu geben. Wenn Sie mit dabei sein wollen, dann schreiben Sie uns eine Email an gnd-info (at) dnb.de.
Ein Blogpost von Susanne Al-Eryani, Chantal Köppl, Patrick Leiske, Jens Lill, Verena Mack, Michael Markert, Julia Rössel, Stefanie Rühle und Uwe Sikora.
GND-Agenturen unterstützen ihre Kund*innen dabei, Daten in die Gemeinsame Normdatei einzubringen.
Auf dem Weg dorthin werden die Daten transformiert, bereinigt, angereichert und in das notwendige Format gebracht. Dafür stehen den Datengebenden und Agenturen verschiedene Werkzeuge zur Verfügung. Abhängig von der Beschaffenheit und Qualität der gelieferten Daten und von der Arbeitsweise der jeweiligen Agentur, kommen ein oder mehrere Tools zum Einsatz.
Welche Funktionen die verschiedenen Tools haben und wie sie von den Agenturen zur Datenprozessierung genutzt werden, lesen Sie in diesem Blogpost.
Dazu muss zunächst erwähnt werden, dass sich der nicht unerhebliche Aufwand für eine maschinelle Datenprozessierung erst ab einem gewissen Datenumfang lohnt und es ebenfalls einer gewissen Datenqualität bedarf. Im Vorfeld ist daher anhand einer ersten Datenanalyse zwischen Agentur und Datenlieferanten abzuklären, welche Datenfelder noch aufzubereiten oder um weitere Informationen zu ergänzen sind – auch um den Mindestanforderungen an identifizierenden Merkmalen zu entsprechen, die je nach Entität für einen möglichen GND-Import vorausgesetzt werden. Die Verantwortung für die Auftrennung von z.B. in Fließtexten enthaltenen biografischen Angaben zu Personen in entsprechende Datenfelder für Berufe, Geografika oder Datumsangaben sieht die Agentur auf Seiten der Datenlieferanten. Aus einer Datenlieferung muss auch klar hervorgehen, ob es sich bei einer Ortsangabe um den Geburts-, Sterbe- oder Wirkungsort einer Person handelt (Ähnliches gilt für Datumsangaben). Die GND-Agentur gibt in Form von Schulungen/Workshops Hilfestellung zur Datenaufbereitung und bereinigung – die Interpretation von Daten aufgrund nicht vorhandener Datenstrukturen obliegt ihr allerdings nicht. Dies liegt alleinig in der Verantwortung der Datenlieferanten.
Credit: Chantal Köppl (DNB),
Jan 2024Bereinigen, Abgleichen und Anreichern – das bieten die verschiedenen Tools
GND4C-Toolbox
Die GND4C-Toolbox ist ein Werkzeug zum differenzierten und zuverlässigen Matching von Datensätzen auf die GND im großen Stil. Im Hintergrund wird die GND-Schnittstelle von lobid.org eingesetzt, die auch die GND-Abgleiche in OpenRefine ermöglicht. In der Toolbox werden für Personen Abfragen mit verschiedenen Kombinationen von Namensbestandteilen durchgeführt, um das Trefferbild zu verbreitern. Anschließend werden bei der Bewertung der Suchergebnisse auch die von den Datengebenden mitgelieferten Informationen berücksichtigt. Während in OpenRefine eine GND-Suche im Regelfall die ersten 10 Treffer nach Namensähnlichkeit zurückgibt, bewertet die Toolbox bei Personen mit vielen Vor- und Nachnamen manchmal Hunderte von GND-Datensätzen und gewichtet sie unter Einbezug von Lebensdaten, Orten und Berufsangaben. Im Falle von Bauwerken werden auch OpenStreetMap und Wikidata befragt, um über Quervergleiche etwa anhand von Adressdaten oder Koordinaten zuverlässiger entscheiden zu können, ob etwa mit der "Stadtkirche Neustadt" in einem Datenset jene in Holstein oder in Brandenburg gemeint ist.
Gedacht ist die Toolbox als eine pythonbasierte Serveranwendung nicht für individuelle Recherchen etwa bei der Anlage von neuen Datensätzen in einem Erfassungssystem, sondern für Massenverarbeitungen von Daten – wenn es darum geht, Hunderte oder gar Tausende von Datensätzen auf einmal abzugleichen. Sie richtet sich entsprechend nicht an Anwender:innen in einzelnen GLAM-Einrichtungen, sondern an die neuen GND-Agenturen mit ihrem Bedarf für schnelle und zuverlässige Bewertungen von großen Datenmengen in Hinblick auf vorhandene GND-Identifier und Kandidaten für Neuanlagen in der GND.
Personen-Matching in der Toolbox. Es wurden Dubletten in der GND gefunden.
Credit: Michael Markert (ThULB), CC 0, Jan 2024
OpenRefine
OpenRefine, ehemals bekannt als Google Refine, ist eine Open-Source-Software zur Datenaufbereitung und -bereinigung. Es ermöglicht Benutzer:innen, große Mengen von unstrukturierten Daten in tabellarischer Form zu importieren, zu erkunden, zu transformieren und zu bereinigen. OpenRefine wurde entwickelt, um den Datenbereinigungsprozess zu vereinfachen und die Qualität von Datensätzen zu verbessern. OpenRefine kann auf verschiedenen Betriebssystemen ausgeführt werden, einschließlich Windows, macOS und Linux. Es wird über einen Webbrowser bedient, daher wird empfohlen, einen modernen und aktuellen Browser zu verwenden. Unterstützte Browser sind Chrome, Firefox und Safari. Die Bearbeitung der Daten erfolgt jedoch lokal, weshalb nicht zwingend eine Internetverbindung vorhanden sein muss. Für den Datenaustausch besonders relevante Funktionen sind etwa der Import von Daten aus verschiedenen Quellen wie CSV-Dateien, Excel-Tabellen oder JSON, Datenexploration um Muster, Fehler oder Inkonsistenzen in Quelldaten zu identifizieren und nicht zuletzt Transformation und Bereinigung: Mit einer Vielzahl von eingebauten Transformationen können Benutzer Daten manipulieren, kombinieren und bereinigen, um konsistente Datensätze zu erhalten. Zudem können die Daten in OpenRefine über Schnittstellen mit der GND und anderen Normdateien gematcht, abgeglichen und angereichert werden. Bereinigte und transformierte Daten können in verschiedenen Formaten, wie z.B. Marc21 exportiert werden, um sie in anderen Systemen zu verwenden.
GND-Abgleich für Personen in OpenRefine
entityXML
EntityXML ist ein XML-basiertes Datenformat zur Beschreibung von Entitäten. Voraussetzung für das Arbeiten mit entityXML ist eine oXygen-Umgebung. Der oXygen XML Editor bietet u.a. den Vorteil, dass Einträge auch in einem nutzerfreundlichen Author-Modus ediert werden können.
In dem auf der GND-Ontologie basierenden entityXML-Schema können Projekte Entitäten unter Berücksichtigung ihrer spezifischen Charakteristika in einer einheitlichen Struktur beschreiben, was der Agentur ein direktes Mapping auf die Datenstruktur der GND ermöglicht. Darüber hinaus können über individuelle Namensräume projektrelevante Elemente außerhalb des Schemas erschlossen werden, die nicht für den Datenimport in die GND gedacht sind. Eine Überprüfung der Datenqualität ist durch das in entityXML implementierte Validierungsschema Relax NG und dem darin enthaltenen Schematron für Projekt und Agentur gleichermaßen durchführbar. Weiterhin lassen sich mit Hilfe bereitgestellter generischer Transformationsszenarien in entityXML angelegte Daten in andere relevante Datenformate (z. B. JSON) übersetzen. Anhand einer Revisionsbeschreibung werden die einzelnen Schritte des Workflows dokumentiert, Anmerkungen zu den Daten können an direkter Stelle notiert werden, sodass sowohl Kommunikation zwischen Datenlieferant und Agentur als auch das Berichtswesen unterstützt werden. Eine Versionierung der Daten ist möglich.
Mit entityXML können zunächst Personen beschrieben werden, das Format wird aber sukzessive für die Beschreibung weiterer Entitäten ausgebaut.
Beispielset für die Auszeichnung einer Person in entityXML (im Text- und Autor-Modus).
Data Preparation Tool
Das Data Preparation Tool (DPT) ist ein Mappingwerkzeug zur Aufbereitung von (bislang vornehmlich) archivischen Metadaten für die Einspielung in die Portale DDB, Archivportal-D, Archivportal Europa und LEO-BW. Entwickelt wurde das Tool in der DDB-Fachstelle Archiv mit dem primären Ziel, die Erstellung granularer providerspezifischer Anpassungen zu ermöglichen, um einmal umgesetzte Anpassungen für weitere Datengeber nachnutzen zu können.
Es handelt sich beim DPT um eine Python-basierte Desktop-Anwendung, die es ermöglicht, Daten aus beliebigen Quellformaten mit einem Workflow aus aneinander gereihten Python-Modulen zu transformieren. Die Verwendung von Python ermöglicht es etwa, auch Quelldaten aus Excel-Dateien und anderen Datenquellen mit einzubeziehen, sowie Feldinhalte aus verschiedenen Quelldateien gleichzeitig anzureichern.
Kern der XML-Transformation ist die Python-Bibliothek lxml, welche eine fehlertolerante und äußerst performante Verarbeitung der Lieferdaten erlaubt und dabei nur geringe Anforderungen an das Host-System stellt. Neben dem erwähnten Providerskript-Workflow bietet das Tool einige "Maintenance-Funktionen", mit dem Ziel, aus möglicherweise fehlerhaften Lieferdaten möglichst schnell einen sauberen ersten Stand zu erhalten, auf dessen Basis dann der Workflow angewandt werden kann.
Im Rahmen des GND4C-Projekts wurde das DPT um eine MARC-XML-Konkordanz für Personen ergänzt, um Datenlieferungen an die DNB für einen GND-Import übergeben zu können. Diese Erweiterung beinhaltet auch die freie Konfiguration einzelner (GND-interner) Datenfelder, die für einen Import vorausgesetzt werden, in der Regel aber nicht in den Ausgangsdaten der Kultureinrichtungen enthalten sind. In der GND-Agentur LEO-BW-Regional ist das DPT fester Bestandteil der Datenprozessierung.
Die aktuellste, für das GND4C-MARC-XML-Mapping angepasste Version des DPT kann hier heruntergeladen werden:
https://github.com/Deutsche-Digitale-Bibliothek/ddblabs-datapreparationtool/releases/tag/v3.5.0-pre6 (letztes Update: 24.07.2023).
Das DPT wird derzeit zu einer webbasierten Anwendung weiterentwickelt, die die gemeinsame Arbeit an Datenlieferungen an zentraler Stelle ermöglicht. Eine erste Version mit Fokus auf die Anforderungen von archivischen Datenlieferungen wird voraussichtlich bis Ende 2024 in Betrieb genommen.
Einblick in das Data Preparation Tool (DPT)
GND-Webformular
Das GND-Webformular bietet sich für Forschungsprojekte und Kulturinstitutionen an, wie etwa für kleinere Bibliotheken, Archive und Museen. Es ermöglicht ihnen, Personen- und Körperschaftsdatensätze in der GND neu anzulegen sowie bestehende Datensätze zu korrigieren oder zu ergänzen. In den nächsten Monaten wird auch die Erfassung von Gebietskörperschaften über das Webformular möglich sein. Die Nutzung des Webformulars kann sinnvoll sein, wenn man eine kleinere Menge von Normdaten ansetzen oder bearbeiten will. Außerdem bietet es sich beispielsweise begleitend zu Projekten an, in denen laufend Daten erfasst werden und auch neue Normdaten-Kandidaten identifiziert werden. Im Gegensatz zu den Erfassungsclients, die in Bibliotheken zum Einsatz kommen, können Personen und Körperschaften über das Webformular nur mit einer begrenzten Auswahl von Eigenschaften erfasst werden.
Sind die Daten über das Webformular eingegeben, landen sie unmittelbar in der GND. Für die Anwender*innen des Webformulars besteht daher ein großer Vorteil des Tools darin, dass sie die generierte GND-ID direkt im eigenen System einfügen können.
Um das Webformular nutzen zu können, braucht man zum Einen eine Vereinbarung mit einer GND-Agentur, die die eingegebenen Daten prüft und langfristig ihre Qualität sicherstellt. Zum Anderen benötigt man einen ISIL. Der International Standard Identifier for Libraries and Related Organizations ist Bestandteil des QS-Systems der GND, mit dem die Herkunft eines Datensatzes deklariert und nachvollziehbar wird. Einrichtungen können ihn bei der ISIL-Sigelstelle an der Staatsbibliothek zu Berlin beantragen. Weitere Infos zum Webformular finden Sie unter https://www.dnb.de/gndwebformular.