Donnerstag • 29. Januar 2026


Session_1

Moderation: Elisabeth Mödden Deutsche Nationalbibliothek

13:00 Uhr


Frank Scholze • Generaldirektor der Deutschen Nationalbibliothek

Begrüßung und Einführung

Prof. Dr. Felix Naumann Professor for Information Systems Digital Engineering Fakultät at the University of Potsdam Hasso Plattner Institute

Keynote: Was Sie schon immer über Datenqualität wissen wollten, aber bisher nicht zu fragen wagten.

Abstract


"Unsere Daten sind in Ordnung" – wirklich? Datenqualität ist mehr als die Abwesenheit offensichtlicher Fehler. Von simplen Tippfehlern über subtile Inkonsistenzen bis zu systematischen Verzerrungen: Die Bandbreite möglicher Qualitätsprobleme ist groß, und mit dem Siegeszug von KI und maschinellem Lernen werden die Konsequenzen schlechter Daten immer sichtbarer. Was bedeuten eigentlich "gute Daten" und warum reichen klassische Maßstäbe wie Vollständigkeit und Korrektheit heute nicht mehr aus? Und wie misst man Datenqualität? Spätestens seit das EU-KI-Gesetz Anforderungen an Trainingsdaten stellt, müssen wir auch über Fairness, Diversität und Erklärbarkeit reden. Der Vortrag beleuchtet zentrale Konzepte, Methoden und offene Forschungsfragen der Datenqualität – von klassischen Ansätzen bis zu den Herausforderungen des KI-Zeitalters.


14:00 Uhr

Maximilian Kähler  Deutsche Nationalbibliothek

Ergebnisse aus vier Jahren KI-Projekt an der DNB

Abstract


In  einem internen KI-Projekt wurde an der DNB in den letzten vier Jahren untersucht, wie sich aktuelle Entwicklungen aus der natürlichen Sprachverarbeitung für die Weiterentwicklung der automatischen Erschließung eignen. Speziell wurde die Frage behandelt, welche Methoden sich am besten für die Beschlagwortung von deutschen wissenschaftlicher Publikationen mit Deskriptoren aus der Gemeinsamen Normdatei (GND) eignen. Im Ergebnis zeigt sich, dass bereits existierende Verfahren durch den Einsatz neuer Encoder-(Sprach-)Modelle weiterentwickelt werden können. Andererseits bieten generative Sprachmodelle völlig neue Wege das Beschlagwortungsproblem zu adressieren. Wir berichten von Vor- und Nachteilen und zeigen Ergebnisse unserer Evaluation.

14:30 Uhr bis 15:00 Uhr • Kaffeepause

Session_2Moderation: Elisabeth Mödden Deutsche Nationalbibliothek

15:00 Uhr

Prof. Dr. Andreas Hotho  • Head of Data Science Chair (Informatik X) Universität Würzburg

 LLäMmlein und ModernGBERT: Eine neue deutsche LLM-Familie in Forschung und Anwendung

Abstract


Während die meisten großen Sprachmodelle auf Englisch ausgerichtet sind, präsentieren wir mit LLäMmlein und ModernGBERT zwei komplementäre Modellfamilien, die vollständig auf die deutsche Sprache optimiert wurden: LLäMmlein, ein generatives Decoder-Modell (120 M – 7 B Parameter), und ModernGBERT, eine Encoder-Familie (138 M – 1 B Parameter) für Verständnis- und Klassifikationsaufgaben. Beide wurden von Grund auf auf einem ausschließlich öffentlich verfügbaren deutschen Korpus mit einem eigens entwickelten Tokenizer trainiert – transparent, reproduzierbar und skalierbar über verschiedene Modellgrößen und Cluster-Konfigurationen hinweg.


Im Vortrag erläutern wir den Aufbau der Datenbasis, die Trainingspipeline und die technischen Herausforderungen beim Training. Zur Evaluation wurde der eigens entwickelte SuperGLEBer-Benchmark genutzt, der speziell auf deutsche Sprachverarbeitung zugeschnitten ist und die Grundlage für unsere weiteren Anwendungen bildet. ModernGBERT erzielt dabei in mehreren Aufgabenbereichen derzeit führende Ergebnisse. Die Leistungsfähigkeit des LLMs wird zudem durch externe Anwendungen bestätigt, etwa bei der Erkennung schädlicher Inhalte in sozialen Medien im Rahmen der GermEval 2025 oder bei der deutschen Koreferenzauflösung. Die Beispiele verdeutlichen die Bedeutung aktueller deutschsprachiger LLMs, um leistungsfähige und anwendungsnahe KI-Systeme entwickeln zu können.

15:30 Uhr

Dr. Christopher Tauchmann  Postdoctoral Researcher in the Artificial Intelligence and Machine Learning Group Computer Science Department
TU Darmstadt

Think First, Talk Later – Wie moderne Reasoning Models funktionieren

 Abstract


Die Entwicklung großer Sprachmodelle hat sich 2025 spürbar verschoben: Der Fokus liegt zunehmend auf Modellen, die komplexe Probleme über mehrstufige Inferenz- und Suchprozesse bearbeiten, anstatt direkt zu antworten.
Dieser Vortrag gibt einen Überblick über moderne Reasoning-Modelle und grenzt ihre Funktionsweise von der klassischen, einmaligen Antwortgenerierung ab. Wir analysieren, wie Reasoning-Modelle zur Laufzeit über Such- und iterative Verfeinerungsverfahren zusätzliche Rechenzeit in bessere Lösungen umsetzen. Zudem betrachten wir, wie diese Fähigkeiten durch gezieltes Training sowie durch Verifikations- und Bewertungsmodelle erlernt und gesteuert werden.
Abschließend ordnen wir ein, unter welchen Bedingungen zusätzliche Inferenz sinnvoll ist und welche praktischen Grenzen sich daraus ergeben. Ziel ist eine verständliche Einordnung dieser Modellklasse.

16:00 Uhr

Robin Jegan  Lehrstuhl für Medieninformatik • Wirtschaftsinformatik und Angewandte Informatik  Universität Bamberg

LLMs vs. traditionelle Methoden: Eine fallbasierte Analyse von NLP-Szenarien

Abstract



16:30 Uhr bis 16:50 Uhr • Kaffeepause

Session 3Moderation: Elisabeth Mödden Deutsche Nationalbibliothek
16:50 Uhr

Dr. Oliver Vettermann Team für Immaterialgüterrechte in verteilten Informationsinfrastrukturen • FIZ Karlsruhe

Don’t be evil • Zum (rechtlichen) Schutz intellektueller Arbeit

Abstract


Künstliche Intelligenz soll Arbeit schneller, leichter und effizienter machen. Wenn man dem Transhumanismus glaubt, verhilft die Nutzung populärer LLM-Modelle der Menschheit auf die nächste Entwicklungsstufe. Die Grundlage für diese positiven Effekte sind unzählige Datenpunkte des Internets, unter anderem auch Digitalisate im Open Access. Die Fragmente dieser Digitalisate streuen weit. Teilweise bis in eine KI-generierte Wikipedia von Elon Musk, genannt Grokipedia, in der die Fragmente teils in ihr Gegenteil verkehrt und verzerrt werden. Verliert der ursprüngliche Datenpunkt, das Digitalisat, dadurch an Wert? Diese Frage lässt sich dabei auf verschiedene Weise beantworten: Wert als Konzept ist sowohl ökonomischer Nutzen, als auch gesellschaftlich-ethische Aufladung, aber auch rechtliches Schutzgut. Der Vortrag verbindet diese Perspektiven für ein interdisziplinäres Verständnis von "Wert". Wie sich der Wert durch den Einsatz von LLM-Modellen verändert, wird anhand verschiedener Beispiele illustriert.

17:20 Uhr

Prof. Dr. Mascha Will-Zocholl • Soziologie der Digitalisierung von Arbeit und Organisation  Hessischen Hochschule für öffentliches Management und Sicherheit (HöMS) Wiesbaden

Arbeit im Zeitalter von KI: Wie Automatisierung Arbeit verändert und welche Fragen wir uns stellen sollten. 

Abstract


Die Automatisierung von Arbeit ist kein neues Phänomen – seit den 1950er-Jahren prägt die Rationalisierung durch Technik und Organisation die Arbeitswelt. Doch mit dem Aufstieg Künstlicher Intelligenz (KI) erreicht dieser Prozess eine neue Qualität: Algorithmen übernehmen nicht nur repetitive, sondern zunehmend auch komplexe und wissensintensive Tätigkeiten. Dieser Vortrag untersucht aus arbeitssoziologischer Perspektive, wie KI-gestützte Automatisierung Arbeitsinhalte, Qualifikationsanforderungen und Machtverhältnisse in Organisationen verändert.

Im Rückgriff auf die lang währenden Rationalisierungsdebatten – von der Taylorisierung über die Computerisierung bis hin zur Digitalisierung – wird gefragt: Welche Kontinuitäten und Brüche zeigen sich durch KI? Wie verändern sich Arbeitsprozesse, wenn Entscheidungen zunehmend von Algorithmen getroffen oder vorbereitet werden? Und welche sozialen Folgen hat es, wenn menschliche Arbeit durch maschinelle Lernverfahren ersetzt, ergänzt oder neu strukturiert wird? Abschließend wird der Blick auf die Gestaltung von Arbeit gerichtet

17:50 Uhr

Dr. Christoph Schmidt   Geschäftsfeldleiter „AI4Media“ •  Fraunhofer IAIS   

Keynote: Souveräne und wettbewerbsfähige Große Sprachmodelle aus Europa - und die Rolle hochqualitativer Trainingsdaten

Abstract


Aufgrund der geopolitischen Lage wird der Ruf nach souveränen und wettbewerbsfähigen Lösungen „Made in Europe“ im Bereich der Künstlichen Intelligenz lauter.

Der Vortrag beschreibt, wie ein integriertes Ökosystem aus Infrastruktur, Forschung und Industrie zur Grundlage wettbewerbsfähiger KI‑Technologien werden kann.

Er zeigt, dass reine Cloud‑Souveränität nicht ausreicht, sondern offene, transparente und leistungsfähige KI‑Modelle notwendig sind, die in Europa entwickelt, trainiert und betrieben werden. Beispiele aus der Schweiz, China und Deutschland verdeutlichen, dass koordinierte Investitionen und Kooperationen entscheidend für Innovation sind. Im Zentrum steht die Bedeutung offener Foundation‑Modelle, die sowohl als Basismodelle als auch für sektor‑ und unternehmensspezifische KI‑Lösungen dienen.

Die Risiken simplen Finetunings, darunter Wissensverlust und Halluzinationen, werden anhand aktueller Forschung erläutert, und stattdessen wird die Technik des fortgesetzten Pretrainings vorgeschlagen.

Eine hohe Datenqualität und transparente Trainingsprozesse sind hierbei Schlüsselfaktoren. Die im Konsortium entwickelte State-of-the-Art Filtermethode JQL wird im Detail vorgestellt, und Erfahrungen aus der Praxis des Modelltrainings für zukünftige Modelle und entsprechende Trainingsdaten werden gezogen.

Modelle wie Teuken 7B und GovTeuken demonstrieren, dass europäische Open‑Source‑Modelle bereits heute konkurrenzfähig und anwendungsbereit sind.

Abschließend wird skizziert, wie Europa durch koordiniertes Handeln entlang der gesamten KI‑Wertschöpfungskette echte technologische Unabhängigkeit und nachhaltige Innovationskraft erreichen kann.

18:30 Uhr

Freitag • 30. Januar 2026


Session_4Moderation: Maximilian Kähler Deutsche Nationalbibliothek
09:00 Uhr

Dr. Jennifer D'Souza  NLP Research Group Lead im Projekt Open Research Knowledge Graph in der Forschungsgruppe Data Science and Digital Libraries • TIB Hannover

The LLMs4Subjects community challenge: LLMs meet extreme multi-label classification of records in digital libraries

Abstract


In 2025, Jennifer led the organization of the LLMs4Subjects community challenge, which was featured
 at two major computational linguistics conferences. In her talk today, she will share key insights
 from this effort and reflect on practical implications for libraries and future AI-supported subject indexing.

09:30 Uhr

Clara Wan Ching Ho, M.Sc. • Computerlinguistik  FID Linguistik • Universitätsbibliothek Johann Christian Senckenberg Frankfurt

Humans, Machines, and Meaning: Rethinking Subject Indexing in the Age of AI

Abstract


This talk provides a reality check on the role of large language models (LLMs) in automatic subject indexing. Drawing on the perspective of an academic library and the indexing of a specialized bibliography, we explore how LLMs can complement and scale cataloguing workflows, while highlighting their limitations in producing reliable, updated and meaningful metadata. The session emphasizes the value of human–machine collaboration to ensure both efficiency and semantic integrity.

10:00 Uhr

Yves Maurer   Responsable de la Division  Bibliothèque nationale du Luxembourg (BnL) 

Pit Schneider  Freiberuflicher KI-Ingenieur

Autocat – Automatische Katalogisierung - Autocat Cataloguing Assistant: Descriptive Cataloguing using LLMs 

Abstract


Für die Formalerschließung der digitalen Pflichtabgabe hat die Nationalbibliothek Luxemburg eine Automatisierung anhand von einem Vision Language Model entwickelt. Die Präsentation erklärt die Beweggründe, die Entwicklung der Idee, die Funktionsweise der aktuellen Lösung und geht auf den aktuellen Status des Projektes ein.

10:30 bis 11:00 Uhr • Kaffeepause
11:00 Uhr

Tobias Weberndorfer TU Wien Bibliothek 

GND ; Datenqualität ; RAG : zur Datenqualität im Rahmen eines RAG-Systems für die Maschinelle Beschlagwortung

Abstract


Flexibilität ist einer der bezeichnenden Vorteile eines RAG-Systems zur maschinellen Sacherschließung.  Erschlossene Daten können an
mehreren Stellen des System dazu verwendet werden, die Leistung des Systems zu verbessern:

1. als Trainingsdaten des Embeddingmodell
2. als Datenbasis für das Retrieval
3. als Trainingsdaten des Rerankers

Bestehende Daten weisen jedoch Fehler und Eigenheiten auf, die sich unterschiedlich stark auf diese drei Ebenen auswirken.  Dieser Vortrag soll mit Blick auf tatsächliche GND-Daten und deren Eigenschaften beleuchten, wie sie möglichst ressourcenschonend möglichst große Verbesserungen eines RAG-Systems zur maschinellen Sacherschließung herbeiführen können.  Die grundlegende Frage hierbei lautet: An welcher Stelle sollen welche Daten auf welche Art eingesetzt werden?

Session 5Moderation: Maximilian Kähler Deutsche Nationalbibliothek
11:30 Uhr

Christoph Poley Deutsche Nationalbibliothek 

Hardware für die automatische Erschließung am Beispiel der DNB

 Abstract

 

Neue und sich schnell entwickelnde KI-Methoden und Hardware-Ressourcen helfen dabei, geeignete und Nutzen bringende automatische Verfahren für Bibliotheken zu entwickeln und einzusetzen. Bereits seit 2009 beschäftigt sich die Deutschen Nationalbibliothek (DNB) mit Verfahren für die automatische Inhaltserschließung, die sich seit 2012 im produktiven Einsatz befinden und seitdem systematisch weiterentwickelt werden. Derzeit finden maschinelle Verfahren für die automatische Klassifizierung mit Sachgruppen und Kurznotationen sowie die Indexierung mit GND-Deskriptoren ihre Anwendung.

Der Vortrag gibt zunächst einen Überblick über die aktuellen fachlichen Use Cases und den zugrundeliegenden Verfahren für die automatische Erschließung. Die Use Cases für die Hardware bauen darauf auf, sie unterschieden sich aber grundlegend davon. Sie bilden deshalb den Schwerpunkt der Präsentation und beinhalten die Gegenüberstellung der unterschiedlichen Hardwareanforderungen für die tägliche Produktion, dem Training der Modelle und der Forschung. Weiterhin wird ein Einblick gegeben, wie sich exemplarisch die Verarbeitungszeit von Daten und damit der Verbrauch wertvoller Ressourcen reduzieren lässt. Ebenfalls werden ersten Erfahrungen mit Large Language Models an der der DNB aufgegriffen, wobei der Focus auf den Hardwareanforderungen liegt.

Abschließend werden einige Ideen für die Modellierung eines durchgängigen Hardwarekonzeptes sowie die in der DNB gegangenen Schritte dafür thematisiert.

12:00 Uhr

Prof. Philipp Wieder     Professor für Data Science InfrastructuresInstitut für Informatik Georg-August-Universität GöttingenStellvertretender Leiter der GWDG

Keynote: Nationale Infrastrukturen – Angebote und Perspektiven

Abstract 



12:45 Uhr 

Abschlussdiskussion

13:00 Uhr

Veranstaltungsende