Ein Beitrag zur Klärung der Frage, was das Corona-Virus und die Normdaten der GND verbindet.
Ein Antrieb für die Digitale Transformation
In dem Projekt GND4C untersuchen wir, wie wir solche automatisierten Prozesse bereitstellen können. Unser Projektpartner digiCULT entwickelt in enger Zusammenarbeit mit den anderen Projektpartnern anhand der behandelten Fallbeispiele eine GND-Toolbox für diverse Entitätstypen. Derzeit gibt es nur erste Teilstücke des Prototypen. Aber zum Ende der ersten Projektphase, im Januar 2021, werden wir jedoch Daten verschiedener Formate mit den Normdaten der GND abgleichen und automatisiert eine Liste generieren können zu den Datensätzen der Quelldatei ,die mit hoher Wahrscheinlichkeit einen Treffer in der GND haben. Sie müssen dann nicht mehr händisch jeweils einzeln in der GND nachschlagen, ob beispielsweise die Kunstsammlerin Julia Stoschek, deren Ausstellungsplakate Teil Ihrer Sammlung sind, eine GND-ID hat und vermutlich identisch ist mit der Namensgeberin der Stoschek Collection. Sie können zudem die in der GND vorliegende strukturierte Information zum Vervollständigen Ihrer Daten nutzen. Künftig werden Sie alle Personen in Ihrer Datenbank gegen die GND en bloque matchen können und erhalten eine Liste, die Ihnen klar zeigt, wo der match sehr sicher ist. Es werden die Kandidaten aussortiert, die Sie mit Ihrer Expertise noch selbst prüfen sollten, bevor Sie die GND-ID übernehmen. Es wird auch Personen, Sachbegriffe, Orte oder Werke geben, die noch nicht zu den acht Millionen Einträgen der GND zählen. Und auch dafür erarbeitet das GND4C-Projektteam Workflows, wie diese, falls die Voraussetzungen erfüllt sind, in die GND aufgenommen werden können.
Die Öffnung der GND betrifft nicht nur die Daten, sondern auch die Öffnung der GND-Kooperative für neue Institutionen, die in der GND mitwirken wollen. Im Sommer starten zwei neue GND-Agenturen aus dem Kreis der Projektpartner mit einem Angebot für nicht-bibliothekarische Einrichtungen ihren Pilotbetrieb. In den kommenden Blogposts möchten wir Ihnen die neuen GND-Agenturen mit ihrem Portfolio vorstellen. Hier in Kürze zu den Aufgaben der Pilotagenturen: Sie starten zunächst mit einem Angebot aus Information und Beratung. Dabei wird es um Fragen gehen, wie
- Welche Datenformate eignen sich für die Anwendung der GND-Toolbox?
- Wie finde ich die GND-IDs zu meinen Datensätzen?
- Welche sind die geltenden Relevanzkriterien für einen GND-Normdatensatz?
- Welche Angaben sind erforderlich, damit ein Datensatz so vollständig ist wie nötig, damit er sich eindeutig von einem anderen vielleicht sehr ähnlichen unterscheiden lässt?
- Wo kann ich eine GND-Redaktionsschulung bekommen?
- (...)
Aber zunehmend wird es um die Bereitstellung von Zugängen gehen, über die neue GND-Datensätze nach Ihren Bedarfen von Ihnen angelegt und gepflegt werden können. Auch wenn es um freie Daten geht, sie sind nicht frei im Sinne von Freibier zu erhalten. Die Datenanalyse und Datenredaktion bindet Ressourcen, ganz offensichtlich. Hierzu müssen wir Geschäftsmodelle entwickeln. Und wir müssen gemeinsam mit Ihnen den kulturpolitischen Entscheidungsträgern klar machen, dass diese neuen Daueraufgaben in den Institutionen einer entsprechenden finanziellen Ausstattung bedürfen. Nur wenn es gelingt, die Datenqualität der Metadaten zu unserem kulturellen Erbe und Kulturgut auch durch den verstärkten Einsatz von Normdaten zu verbessern, werden unsere Bemühungen zu mehr Sichtbarkeit, die wir gerade jetzt überall so kreativ erleben, Substanz haben.
4 Kommentare
Fischer, Barbara sagt: Autor
Vielen Dank für die Antworten auf unsere kleine Umfrage auf dem @gndnet- Twitter Account, siehe Bild. Wir werden daher eine digitale Sendereihe konzipieren mit kurzen Beiträgen und der Option für Fragen und Kommentare. Wir werden Sie gern über die weitere Planung informieren und Sie rechtzeitig zur Premiere einladen.
Herzlich für das GND4C Projektteam
Pohl, Adrian sagt:
All die in diesem Abschnitt genannten Funktionen sind bereits abgedeckt, wenn mensch das vielerorts verwendete Werkzeug OpenRefine nutzt und gegen lobid OpenRefine Reconciliation API verwendet. Leider wird in dem Beitrag auf diese Möglichkeit nicht verwiesen und stattdessen nahegelegt, dass es dafür noch keine Lösungen gebe.
Bereits im Juni 2019 hatte ich – als Reaktion auf den letzten GND4C-Blogpost – in zwei Tweets auf OpenRefine und die für eine webweite Standardisierung von Reconciliation-Schnittstellen gegründete W3C Entity Reconciliation Community Group hingewiesen und angeregt, dass GND4C sich das mal für die Toolbox anschaue. Mir ist bis heute unklar, welcher Ansatz für Reconciliation/Entity Matching bei der Toolbox verfolgt wird, ob bestehende Tools und Standards berücksichtigt werden oder neue Schnittstellen definiert werden. Habe ich da etwas verpasst oder gibt es bisher einfach keine öffentlichen Informationen zur konkreten Funktionsweise des Entity Matchings?
Kett, Jürgen sagt:
Wir sind große Fans von lobid und auch von OpenRefine. Aber die Probleme, die wir im Speziellen über die Toolbox adressieren, sind allein damit nicht zu lösen. Ziel des Projekts, ist das Angebot eines einfach bedienbaren integrierten Workflows insbesondere für Museen und Archive. Dabei kommen neben den technischen Grundzutaten noch fachliche Spezifika und speziellen Formatthemen, spezifische Datenaufbereitungen, die Nutzung von GND-Formatdetails, die in lobid formatbedingt nicht abrufbar sind und die Einbindung spezieller weiterer Datenquellen hinzu. Auch die Integrierbarkeit in die Software xTree und die Nachnutzung bereits produktiver Elemente waren wichtige nicht-funktionale Anforderungen. OpenRefine (und auch lobid) können damit Teil des verwendeten Technologiestacks sein, aber für den Gesamtworkflow fehlen noch zahlreiche (teils sehr fachliche und den Workflow betreffende) Zutaten. (lobid spielte bei der Entwicklung im Übrigen eine gewichtige Rolle.) Zielgruppe der Toolbox sind also primär die Anwender*innen kleiner und mittelgroßer Kultureinrichtungen, nicht so sehr die IT-/LOD-Community. Dennoch können wir gern demnächst auch einmal über die Architektur der Toolbox sprechen, z.B. im Rahmen unserer gemeinsamen Arbeitsgruppe zur Software-Entwicklung rund um die GND. Ein Treffen wäre ja ohnehin mal wieder fällig.
BTW: Don't tweet, just call
Pohl, Adrian sagt:
Danke für deine Antwort, Jürgen. Es freut mich, das lobid hier benutzt wird. Mir geht es hier allerdings weniger um lobid, als darum, im Sinne der Nachhaltigkeit und Zukunftsfähigkeit der GND existierende, stabile, für viele gewohnte Open-Source-Tools und Standards zu nutzen. Hier meine ich konkret OpenRefine und eine zu spezifizierende API für Reconciliation im Web.
Ich könnte mir vorstellen, dass die eine oder der andere Anwender*in kleiner und großer Kultureinrichtungen OpenRefine bereits kennt, weil es sich eben nicht in erster Linie an IT-Leute wendet, sondern auch von Menschen benutzt werden kann, die mit Tabellenkalkulation vertraut sind. OpenRefine existiert schon einige Zeit und ist eine in der Entwicklung weit fortgeschrittene, tabellenbasierte Software mit einer großen Nutzer- und Entwickler-Community. Damit das weiterhin so bleibt und die Community ausgebaut wird, wird OpenRefine in diesem Jahr für die Zukunft fit gemacht: Es gab 200.000 Dollar für OpenRefine, das Geld wird für die Verbesserung der Dokumentation und das Refactoring der Kernsoftware verwendet. Was die Funktionen angeht, scheint mir OpenRefine bereits einiges abzudecken: Für Wikidata gibt es neben den Reconciliation- und Datenübernahme-Funktionen z.B. eine Editing- und Import-Funktion aus OpenRefine, siehe https://www.wikidata.org/wiki/Wikidata:Tools/OpenRefine. Für zusätzliche GND-spezifische Funktionen und Schnittstellen könnten Extensions entwickelt werden
Darüber hinaus wird die OpenRefine Reconciliation API gerade als Basis für die Standardisierung von Reconciliation-Schnittstellen im Web verwendet. In einem ersten Schritt wird der Status Quo der Reconciliation API festgehalten, siehe https://reconciliation-api.github.io/specs/latest/. Im nächsten Schritt soll die Reconciliation API modernisiert und ergänzt werden (siehe die GitHub Issues), so dass sie als Schnittstelle auch in anderen Anwendungen – z.B. der GND4C Toolbox – implementiert werden kann. Die Erfahrungen im GND4C-Projekt könnten sicher zu einer Verbesserung der zu entwickelnden Spezifikation beitragen.
Viele dieser Entwicklungen waren zur Zeit des GND4C-Antrags noch ganz frisch oder sind erst später – teilweise nach Beginn des Projekts – in Gang gekommen, so dass es verständlich ist, dass GND4C auf etwas Anderes setzt. Im Sinne der zukünftigen nachhaltigen Weiterentwicklung der GND halte ich es allerdings für wichtig, dass diese Dinge berücksichtigt werden. Das ginge ja auch bestens zusammen mit dem "GND meets Wikibase"-Projekt...