- Erstellt von Mödden, Elisabeth, zuletzt aktualisiert am 2025-10-21 Lesedauer: 2 Minute(n)
Überblick
In diesem Workshop befassen wir uns mit den theoretischen und praktischen Aspekten sowie dem produktiven Betrieb von Annif zur automatischen Inhaltserschließung in der DNB.
Vor dem Hintergrund der stark wachsenden Zahl zu erschließender Online-Publikationen und der seit 2009 vorangetriebenen Automatisierung der Inhaltserschließung in der DNB zeigen wir Ihnen im Theorieteil, wie in der Erschließungsmaschine (EMa) die zentralen Anwendungsfälle, automatische Klassifikation mit DDC-Sachgruppen und DDC-Kurznotationen sowie die Indexierung mit GND-Schlagwörtern, in einer modularen Architektur umgesetzt sind.
Sie erfahren, wie das Training von Modellen geplant, robuste Daten- und Pipeline-Prozesse im Datenmanagement orchestriert und Modelle für die Annif-Backends, einschließlich Ensemble- und Fusionsstrategien, erstellt, konfiguriert und in den Betrieb überführt werden. Dabei zeigen wir auch den Umgang mit heterogenen Korpora, die in der DNB unter anderem Artikel, Bücher und Inhaltsverzeichnisse in Deutsch oder Englisch mit sehr unterschiedlichen Textlängen und Inhalten umfassen. Wir berichten über die EMa mit ihrem modularen Aufbau, der containerbasierten Bereitstellung sowie getrennten Test-, Freigabe- und Produktionsumgebungen für die tägliche automatische Erschließung. Ein Ausblick gilt der nächsten Generation von Transformer-/LLM-Verfahren und der damit einhergehenden GPU-Notwendigkeit.
Ein zentraler Bestandteil des Workshops ist eine Hands-on-Session. Darin betrachten wir gemeinsam die Indexierung von Publikationen mit GND-Schlagwörtern und vergleichen die Ergebnisse einzelner Verfahren. Exemplarisch beschäftigen wir uns mit den Stärken und Grenzen lexikalischer und Machine-Learning-basierter Ansätze und fusionieren diese zur Ergebnisverbesserung.
Neben praxisnahen Einblicken bietet der Workshop Raum für den Austausch über den produktiven Einsatz der maschinellen Erschließung. Technische Hardwareaspekte werden im Anschluss auf der Fachtagung in einem Vortrag von Christoph Poley vertieft.
Voraussetzungen und Vorbereitung:
- Grundkenntnisse in der klassifikatorischen und verbalen Inhaltserschließung sind hilfreich, aber nicht erforderlich
- ein Basisverständnis von Machine-Learning-Konzepten ist hilfreich, aber nicht erforderlich
- Grundkenntnisse im Arbeiten auf der Kommandozeile unter Unix/Linux sowie im Umgang mit Jupyter Notebook sind hilfreich, aber nicht erforderlich
- Interesse an technischen Betriebsaspekten (Container, Pipelines, Umgebungen)
Rechner für die praxisorientierten Hands-on-Übungen werden von der DNB während des Workshops bereitgestellt
Erwartete Ergebnisse:
Am Ende des Workshops werden die Teilnehmenden:
- den Aufbau und die Funktionsweise eines Systems zur automatischen Inhaltserschließung (Daten, Dienste, Datenflüsse, Bereitstellung) kennengelernt haben,
- einige Stärken/Schwächen lexikalischer vs. ML-basierter Verfahren eingeordnet,
- einfache Fusionsstrategien angewendet und Hands-on-Erfahrungen mit der GND-Indexierung gesammelt haben,
References
[1] Suominen, O., Inkinen, J., Virolainen, T., Fürneisen, M., Kinoshita, B. P., Veldhoen, S., Sjöberg, M., Zumstein, P., Neatherway, R., & Lehtinen, M. (2025). Annif (Version 1.4.0) [Computer software]. https://github.com/NatLibFi/Annif
[2] Christoph Poley, Sandro Uhlmann, Frank Busse, Jan-Helge Jacobs, Maximilian Kähler, Matthias Nagelschmidt & Markus Schumacher (2025). Automatic Subject Cataloguing at the German National Library. LIBER Quarterly: The Journal of the Association of European Research Libraries, 35(1), 1-29. https://doi.org/10.53377/lq.19422
- Keine Stichwörter