Versionen im Vergleich
Schlüssel
- Diese Zeile wurde hinzugefügt.
- Diese Zeile wurde entfernt.
- Formatierung wurde geändert.
Wenn ein hydraulischer Obstschüttler in der Apfel- oder Olivenernte zum Einsatz kommt, dann prasseln mit viel Krach die
FürchteFrüchte auf die Erde, Äste brechen und manch ein Apfel zerplatzt im Sturz. Wer das von Tracy Arndt in der Infrastruktur der Deutschen Nationalbibliothek (DNB) angepasste und implementierte Tool zum "Cherry-Picking" in der Gemeinsamen Normdatei (GND) zum Einsatz bringt, hört kaum das Schnurren des Computers und nicht ein Datensatz zerbricht. Tracy Arndt ist Bibliotheksinformatikerin und verantwortet in der DNB den Linked Data Service. Erst kürzlich wurde der so genannte SPARQL Endpunkt zur GND und den Titeldaten der DNB in einer Betaversion veröffentlicht. Sie hat mir im Interview erklärt, wie dieses Tool funktioniert und was für sie in diesem Kontext “Cherry-Picking” bedeutet.
Zum Vergrößern auf das Bild klicken
Ein hydraulischer Obstschüttler in Aktion credit: Feucht Obsttechnik
Barbara: Tracy, was genau ist ein SPARQL Endpunkt?
Tracy: Ein SPARQL Endpunkt ist ein Webdienst, über den mit der standardisierten Abfragesprache SPARQL auf strukturierte Metadaten im Format RDF zugegriffen werden kann – einem Modell, das Informationen als Tripel (Subjekt – Prädikat – Objekt) speichert und damit leicht von Maschinen verarbeitet werden kann. Anders gesagt, mit Hilfe einer SPARQL Abfrage kann ich über eine oder mehrere Datenquellen gleichzeitig nach Datensätzen suchen und das Ergebnis als Liste exportieren, die alle dieselben von mir definierten Kriterien erfüllen. Beispielsweise kann ich mir eine Sammlung erstellen lassen, aus der die Verteilung bestimmter Geburtsjahrgänge laut der Datenquelle in einem bestimmten Berufsbild hervorgeht. Aber auch alle Personen, die vor 1960 geboren wurden, als Auszug exportieren.
Für wen ist der Service?
Im Prinzip können alle diesen Abfragedienst nutzen. Besonders relevant ist er vermutlich für Mitarbeitende in Bibliotheken, in der Forschung und im Kulturbereich. Gerade Entwickler*innen, die die Such-Ergebnisse in eine eigene Anwendung einbinden wollen, profitieren vom schnellen und maschinenfreundlichen SPARQL Service. Mit etwas Geschick können Laien, die die Ergebnisse ihrer facettierten Suche anstatt sie sich im Explorer nur anzeigen zu lassen, diese als Tabellenblatt oder im Jason JSON-Format über den SPARQL Endpunkt exportieren. Diese Form der definierten Exports kommt dem englischen Ausdruck “cherry-picking” doch recht nah.
Wie sieht ein typischer Usecase aus?
Eine Person oder eine Anwendung, die aus den Datenquellen GND oder/und Titeldaten der DNB einen präzisen Teilbestand identifizieren möchte, dürfte das Gros der Nutzenden ausmachen.
Gibt es eine Art “Übersetzungsdienst”, damit Menschen ohne Vorkenntnisse eine SPARQL Abfrage formulieren können? Oder verlässt man sich lieber auf einen KI-Chatbot?
In einem ersten Schritt kann man sich an den Beispielen, die auf der Website angegeben sind, orientieren und daraus die eigene Abfrage ableiten. Im Netz gibt es viele Anleitungen für das Abfassen von SPARQL Abfragen. Zudem betreue ich aktuell ein studentisches Softwareprojekt an der HTWK Leipzig. Die Studierenden programmieren eine Anwendung, die natürlich-sprachige Anfragen an die GND in eine SPARQL Query übersetzen und dann die Antwort auch natürlich-sprachig wiedergeben. Also eine Art Chatbot. Wenn man beim formulieren von SPARQL Queries allgemein Unterstützung braucht, kann natürlich auch ein marktüblicher Chatbot helfen. Bei der Übernahme der Tipps muss man jedoch darauf achten, dass man das in der GND gängige Vokabular verwendet. Zum Beispiel die korrekten Bezeichnungen der Entitätstypen oder die in der GND verwendeten Eigenschaften. Entsprechend gilt das für die in den Titeldaten verwendeten Labels, damit diese bei der Suchabfrage des SPARQL Services gefunden werden. Der normale Chatbot wird hier nicht exakt den richtigen Code liefern, sondern im Zweifel eigene Bezeichnungen halluzinieren.
Gibt es eine Möglichkeit, mir Veränderungen der Ergebnisliste der Suchabfrage im Zeitverlauf anzeigen zu lassen? Wenn man beispielsweise regelmäßig mit derselben Suchanfrage den Dienst benutzt, kann ich dann Veränderungen im Zeitverlauf kenntlich machen?
Weder in der GND noch in der Titeldatenbank werden Versionsverläufe in einer einfachen Modellierung abgebildet. Daher lassen sich derzeit Zeitverläufe nicht so gut über SPARQL Abfragen abbilden.
Der SPARQL Service greift sowohl auf die Daten der GND in Verbindung mit anderen Daten namentlich den DNB-Titeldaten zu. Kann ich die beiden Datenquellen auch getrennt adressieren? Also nur GND oder nur Titeldaten? Kann ich weitere Datenquellen inkludieren, beispielsweise Wikidata? Und wenn ja, wo finde ich hierfür eine Anleitung?
Auf der Website des SPARQL Services ist die Auswahl vorprogrammiert entweder nur in der GND oder kombiniert mit den Titeldaten der DNB die Suchabfrage laufen zu lassen. Siehe Screenshot.
Das tolle an dem Datenformat RDF ist, dass man Daten über URIs - also Links - untereinander referenzieren kann. Das bedeutet, dass wenn ein anderer Datensatz diese URI nachnutzt, kann ich an die Informationen kommen, die dahinter stehen. Am besten sieht man das an unseren Titeldaten. Dort ist beispielsweise der Autor eines Titels mit der GND verknüpft. Dort ist der Autor wiederum verknüpft mit einem Ort. So kann man eine Datenliste mit den entsprechenden Namen und Buchtiteln als Antwort auf die Frage bekommen: “Welche Bücher wurden von Berliner Autorinnen geschrieben?"
Gibt es Informationen darüber, wie oft der Service genutzt wird?
Ja, wir erfassen die Zugriffe. Diese werden nur über die IP Adressen geloggt, aber nicht von uns entschlüsselt. Uns interessiert hier mehr, was abgefragt wird und überhaupt nicht, wer die Abfrage stellt. Die Daten sind hinreichend anonymisiert, so dass man von einer DSGVO konformen Datenhaltung ausgehen kann.
Welche Rolle spielt die GND Ontologie?
Die GND Ontologie enthält die Beschreibung der Daten und wie sie miteinander in Beziehung stehen. Dort kann man sehen, welche Eigenschaften verwendet werden. Beispielsweise: preferredNameOfThePerson oder DateOfBirth. Daher spielt die GND Ontologie eine zentrale Rolle, da über die Ontologie die Strukturen des Wissensgraphen geformt werden. Bei den Titeldaten verwenden wir nach internationalen Standards für denselben Zweck externe Vokabulare.
Wie ist der Endpunkt technisch aufgebaut?
Über monatliche Datendumps aus unseren internen Daten werden RDF Daten erzeugt und anschließend mit der SPARQL Engine Qlever indexiert, um eine schnelle Suche darauf durchzuführen.
Gab es Schwierigkeiten bei der Konzeption und Implementierung?
Wir haben lange nach einer geeigneten Software gesucht, um einen SPARQL Endpunkt anbieten zu können. Aufgrund der Größe der Datendumps, insbesondere unserer Titeldaten, haben sich aber immer wieder Performance Probleme gezeigt. Der Service wäre zu langsam gewesen. Mit der SPARQL Engine Qlever tritt das jedoch nicht auf und wir können endlich einen performanten Endpunkt anbieten.
Wie oft werden die Daten, auf die der SPARQL Endpunkt zugreift, aktualisiert?
Die GND Daten und Titeldaten, die für die SPARQL Abfragen genutzt werden, werden monatlich frisch hochgeladen.
Und zum Schluss wo finde ich mehr Information?
Ergänzend zur Website stellen wir weitere Informationen im DNB Wiki bereit und freuen uns über Feedback von den Nutzenden.
Das Gespräch führten Tracy Arndt und Barbara Fischer.
Zum Vergrößern auf das Bild klicken