Überblick

In diesem Workshop befassen wir uns mit den theoretischen und praktischen Aspekten sowie des produktiven Betriebs von Annif zur automatischen Inhaltserschließung in der DNB.

Vor dem Hintergrund der stark wachsenden Zahl zu erschließender Online-Publikationen und der seit 2009 vorangetriebenen Automatisierung der Inhaltserschließung an der DNB zeigen wir Ihnen im Theorieteil, wie in der Erschließungsmaschine (EMa) die zentralen Anwendungsfälle automatische Klassifikation mit DDC-Sachgruppen und DDC-Kurznotationen sowie die Indexierung mit GND-Schlagwörtern in einer modularen Architektur umgesetzt sind.

Sie erfahren, wie das Training von Modellen geplant, robuste Daten- und Pipeline-Prozesse im Datenmanagement orchestriert und Modelle für die Annif-Backends einschließlich Ensemble- und Fusionsstrategien erstellt, konfiguriert und in den Betrieb überführt werden. Dabei zeigen wir auch den Umgang mit heterogenen Korpora, die in der DNB unter anderem Artikel, Bücher und Inhaltsverzeichnisse in Deutsch oder Englisch mit sehr unterschiedlichen Textlängen und Inhalten umfassen. Wir berichten über die EMa mit ihrem modularen Aufbau, der containerbasierten Bereitstellung sowie getrennten Test-, Freigabe- und Produktionsumgebungen für die tägliche automatische Erschließung. Ein Ausblick gilt der nächsten Generation von Transformer-/LLM-Verfahren und dem damit einhergehenden GPU-Notwendigkeit. In diesem Kontext betrachten wir die Folgen der hohen Hardwareintensität von KI-Methoden für Architektur, Ressourcenplanung (CPU/GPU), Durchsatz, Kosten und Nachhaltigkeit.

Ein zentraler Bestandteil des Workshops ist eine Hands-on-Session. Darin betrachten wir gemeinsam die Indexierung mit GND-Schlagwörtern und vergleichen die Ergebnisse einzelner Verfahren. Exemplarisch beschäftigen wir uns mit den Stärken und Grenzen lexikalischer und Machine-Learning-basierter Ansätze und fusionieren diese zur Ergebnisverbesserung.

Workshop-Anmeldung

Anmeldung startet am 21.10.2026 hier

Platz für bis zu 14 Personen 

Voraussetzungen und Vorbereitung:

  • Grundkenntnisse in der klassifikatorischen und verbalen Inhaltserschließung sind hilfreich aber nicht erforderlich
  • ein Basisverständnis von Machine-Learning-Konzepten ist hilfreich aber nicht erforderlich
  • Grundkenntnisse im Arbeiten auf der Kommandozeile unter Unix/Linux sowie im Umgang mit Jupyter Notebook sind hilfreich aber nicht erforderlich
  • Interesse an technischen Betriebsaspekten (Container, Pipelines, Umgebungen)

Rechner für die praxisorientierten Hands-on-Übungen werden von der DNB während des Workshops bereitgestellt


Erwartete Ergebnisse:

Am Ende des Workshops werden die Teilnehmenden:

  • den Aufbau und die Funktionsweise eines Systems zur automatischen Inhaltserschließung (Daten, Dienste, Datenflüsse, Bereitstellung) kennengelernt haben,
  • einige Stärken/Schwächen lexikalischer vs. ML-basierter Verfahren eingeordnet, einfache Fusionsstrategien angewendet und Hands-on-Erfahrungen mit der GND-Indexierung gesammelt haben,
  • die Details zu Hardware-Anforderungen (CPU/GPU), Durchsatz und Kosten im Betrieb kennengelernt haben.


  • Keine Stichwörter