Versionen im Vergleich

Schlüssel

  • Diese Zeile wurde hinzugefügt.
  • Diese Zeile wurde entfernt.
  • Formatierung wurde geändert.

Donnerstag • 29. Januar 2026

...

Session_1

Moderation: N.N Deutsche Nationalbibliothek

13:00 Uhr


Frank Scholze • Generaldirektor der Deutschen Nationalbibliothek

Begrüßung und Einführung

Prof. Dr. Felix Naumann Professor for Information Systems Digital Engineering Fakultät at the University of Potsdam Hasso Plattner Institute

Keynote: Was Sie schon immer über Datenqualität wissen wollten, aber bisher nicht zu fragen wagten.

Toggle Cloak
id@T1
Abstract


Cloak
id@T1



14:00 Uhr

Maximilian Kähler  Deutsche Nationalbibliothek

Ergebnisse aus vier Jahren KI-Projekt an der DNB

Toggle Cloak
id@T2
Abstract


Cloak
id@T2

In  einem internen KI-Projekt wurde an der DNB in den letzten vier Jahren untersucht, wie sich aktuelle Entwicklungen aus der natürlichen Sprachverarbeitung für die Weiterentwicklung der automatischen Erschließung eignen. Speziell wurde die Frage behandelt, welche Methoden sich am besten für die Beschlagwortung von deutschen wissenschaftlicher Publikationen mit Deskriptoren aus der Gemeinsamen Normdatei (GND) eignen. Im Ergebnis zeigt sich, dass bereits existierende Verfahren durch den Einsatz neuer Encoder-(Sprach-)Modelle weiterentwickelt werden können. Andererseits bieten generative Sprachmodelle völlig neue Wege das Beschlagwortungsproblem zu adressieren. Wir berichten von Vor- und Nachteilen und zeigen Ergebnisse unserer Evaluation.

14:30 Uhr bis 15:00 Uhr • Kaffeepause

Session_2Moderation: N.N. Deutsche Nationalbibliothek

15:00 Uhr

Andreas Hotho  • Head of Data Science Chair (Informatik X) Universität Würzburg

 LLäMmlein und ModernGBERT: Eine neue deutsche LLM-Familie in Forschung und Anwendung

Toggle Cloak
id@T3
Abstract


Cloak
id@T3

Während die meisten großen Sprachmodelle auf Englisch ausgerichtet sind, präsentieren wir mit LLäMmlein und ModernGBERT zwei komplementäre Modellfamilien, die vollständig auf die deutsche Sprache optimiert wurden: LLäMmlein, ein generatives Decoder-Modell (120 M – 7 B Parameter), und ModernGBERT, eine Encoder-Familie (138 M – 1 B Parameter) für Verständnis- und Klassifikationsaufgaben. Beide wurden von Grund auf auf einem ausschließlich öffentlich verfügbaren deutschen Korpus mit einem eigens entwickelten Tokenizer trainiert – transparent, reproduzierbar und skalierbar über verschiedene Modellgrößen und Cluster-Konfigurationen hinweg.


Im Vortrag erläutern wir den Aufbau der Datenbasis, die Trainingspipeline und die technischen Herausforderungen beim Training. Zur Evaluation wurde der eigens entwickelte SuperGLEBer-Benchmark genutzt, der speziell auf deutsche Sprachverarbeitung zugeschnitten ist und die Grundlage für unsere weiteren Anwendungen bildet. ModernGBERT erzielt dabei in mehreren Aufgabenbereichen derzeit führende Ergebnisse. Die Leistungsfähigkeit des LLMs wird zudem durch externe Anwendungen bestätigt, etwa bei der Erkennung schädlicher Inhalte in sozialen Medien im Rahmen der GermEval 2025 oder bei der deutschen Koreferenzauflösung. Die Beispiele verdeutlichen die Bedeutung aktueller deutschsprachiger LLMs, um leistungsfähige und anwendungsnahe KI-Systeme entwickeln zu können.

15:30 Uhr

Dr. Christopher Tauchmann  Postdoctoral Researcher in the Artificial Intelligence and Machine Learning Group Computer Science Department
TU Darmstadt

Think First, Talk Later – Wie moderne Reasoning Models funktionieren

Toggle Cloak
id@T4
 Abstract


Cloak
id@T4

Die Entwicklung großer Sprachmodelle hat sich 2025 spürbar verschoben: Der Fokus liegt zunehmend auf Modellen, die komplexe Probleme über mehrstufige Inferenz- und Suchprozesse bearbeiten, anstatt direkt zu antworten.
Dieser Vortrag gibt einen Überblick über moderne Reasoning-Modelle und grenzt ihre Funktionsweise von der klassischen, einmaligen Antwortgenerierung ab. Wir analysieren, wie Reasoning-Modelle zur Laufzeit über Such- und iterative Verfeinerungsverfahren zusätzliche Rechenzeit in bessere Lösungen umsetzen. Zudem betrachten wir, wie diese Fähigkeiten durch gezieltes Training sowie durch Verifikations- und Bewertungsmodelle erlernt und gesteuert werden.
Abschließend ordnen wir ein, unter welchen Bedingungen zusätzliche Inferenz sinnvoll ist und welche praktischen Grenzen sich daraus ergeben. Ziel ist eine verständliche Einordnung dieser Modellklasse.

16:00 Uhr

Robin Jegan  Lehrstuhl für Medieninformatik • Wirtschaftsinformatik und Angewandte Informatik  Universität Bamberg

LLMs vs. traditionelle Methoden: Eine fallbasierte Analyse von NLP-Szenarien

Toggle Cloak
id@T5
Abstract


Cloak
id@T5


16:30 Uhr bis 16:50 Uhr • Kaffeepause

Session 3Moderation: N.N. Deutsche Nationalbibliothek
16:50 Uhr

Dr. Oliver Vettermann Team für Immaterialgüterrechte in verteilten Informationsinfrastrukturen • FIZ Karlsruhe

Don’t be evil • Zum (rechtlichen) Schutz intellektueller Arbeit

Toggle Cloak
id@T6
Abstract


Cloak
id@T6

Künstliche Intelligenz soll Arbeit schneller, leichter und effizienter machen. Wenn man dem Transhumanismus glaubt, verhilft die Nutzung populärer LLM-Modelle der Menschheit auf die nächste Entwicklungsstufe. Die Grundlage für diese positiven Effekte sind unzählige Datenpunkte des Internets, unter anderem auch Digitalisate im Open Access. Die Fragmente dieser Digitalisate streuen weit. Teilweise bis in eine KI-generierte Wikipedia von Elon Musk, genannt Grokipedia, in der die Fragmente teils in ihr Gegenteil verkehrt und verzerrt werden. Verliert der ursprüngliche Datenpunkt, das Digitalisat, dadurch an Wert? Diese Frage lässt sich dabei auf verschiedene Weise beantworten: Wert als Konzept ist sowohl ökonomischer Nutzen, als auch gesellschaftlich-ethische Aufladung, aber auch rechtliches Schutzgut. Der Vortrag verbindet diese Perspektiven für ein interdisziplinäres Verständnis von "Wert". Wie sich der Wert durch den Einsatz von LLM-Modellen verändert, wird anhand verschiedener Beispiele illustriert.

17:20 Uhr

Prof. Dr. Mascha Will-Zocholl • Soziologie der Digitalisierung von Arbeit und Organisation  Hessischen Hochschule für öffentliches Management und Sicherheit (HöMS) Wiesbaden

Arbeit im Zeitalter von KI: Wie Automatisierung Arbeit verändert und welche Fragen wir uns stellen sollten. 

Toggle Cloak
id@T7
Abstract


Cloak
id@T7

Die Automatisierung von Arbeit ist kein neues Phänomen – seit den 1950er-Jahren prägt die Rationalisierung durch Technik und Organisation die Arbeitswelt. Doch mit dem Aufstieg Künstlicher Intelligenz (KI) erreicht dieser Prozess eine neue Qualität: Algorithmen übernehmen nicht nur repetitive, sondern zunehmend auch komplexe und wissensintensive Tätigkeiten. Dieser Vortrag untersucht aus arbeitssoziologischer Perspektive, wie KI-gestützte Automatisierung Arbeitsinhalte, Qualifikationsanforderungen und Machtverhältnisse in Organisationen verändert.

Im Rückgriff auf die lang währenden Rationalisierungsdebatten – von der Taylorisierung über die Computerisierung bis hin zur Digitalisierung – wird gefragt: Welche Kontinuitäten und Brüche zeigen sich durch KI? Wie verändern sich Arbeitsprozesse, wenn Entscheidungen zunehmend von Algorithmen getroffen oder vorbereitet werden? Und welche sozialen Folgen hat es, wenn menschliche Arbeit durch maschinelle Lernverfahren ersetzt, ergänzt oder neu strukturiert wird? Abschließend wird der Blick auf die Gestaltung von Arbeit gerichtet

17:50 Uhr

Dr. Nicolas Flores-Herr   Fraunhofer-Institut für Intelligente Analyse- und Informationssysteme IAIS   

Keynote: Keywords (vorläufig): Datenfilter für das Training von LLMs - Teuken-7B Multilingual und Open Source

Toggle Cloak
id@T8
Abstract


Cloak
id@T8


18:30 Uhr

Freitag • 30. Januar 2026

...

Session_4Moderation: N.N. Deutsche Nationalbibliothek
09:00 Uhr

Dr. Jennifer D'Souza  NLP Research Group Lead im Projekt Open Research Knowledge Graph in der Forschungsgruppe Data Science and Digital Libraries • TIB Hannover

The LLMs4Subjects community challenge: LLMs meet extreme multi-label classification of records in digital libraries

Toggle Cloak
id@T10
Abstract


Cloak
id@T10

In 2025, Jennifer led the organization of the LLMs4Subjects community challenge, which was featured
 at two major computational linguistics conferences. In her talk today, she will share key insights
 from this effort and reflect on practical implications for libraries and future AI-supported subject indexing.

09:30 Uhr

Clara Wan Ching Ho, M.Sc. • Computerlinguistik  FID Linguistik • Universitätsbibliothek Johann Christian Senckenberg Frankfurt

Humans, Machines, and Meaning: Rethinking Subject Indexing in the Age of AI

Toggle Cloak
id@T11
Abstract


Cloak
id@T11

This talk provides a reality check on the role of large language models (LLMs) in automatic subject indexing. Drawing on the perspective of an academic library and the indexing of a specialized bibliography, we explore how LLMs can complement and scale cataloguing workflows, while highlighting their limitations in producing reliable, updated and meaningful metadata. The session emphasizes the value of human–machine collaboration to ensure both efficiency and semantic integrity.

10:00 Uhr

Yves Maurer   Responsable de la Division  Bibliothèque nationale du Luxembourg (BnL) 

Pit Schneider  Freiberuflicher KI-Ingenieur

Autocat – Automatische Katalogisierung - Autocat Cataloguing Assistant: Descriptive Cataloguing using LLMs 

Toggle Cloak
id@T12
Abstract


Cloak
id@T12

Für die Formalerschließung der digitalen Pflichtabgabe hat die Nationalbibliothek Luxemburg eine Automatisierung anhand von einem Vision Language Model entwickelt. Die Präsentation erklärt die Beweggründe, die Entwicklung der Idee, die Funktionsweise der aktuellen Lösung und geht auf den aktuellen Status des Projektes ein.

10:30 bis 11:00 Uhr • Kaffeepause
11:00 Uhr

Tobias Weberndorfer (TU Wien Bibliothek) 

GND ; Datenqualität ; RAG : zur Datenqualität im Rahmen eines RAG-Systems für die Maschinelle Beschlagwortung

Toggle Cloak
id@T14
Abstract


Cloak
id@T14

Flexibilität ist einer der bezeichnenden Vorteile eines RAG-Systems

zur maschinellen Sacherschließung.  Erschlossene Daten können an
mehreren Stellen des System dazu verwendet werden, die Leistung des
Systems zu verbessern:

1. als Trainingsdaten des Embeddingmodell
2. als Datenbasis für das Retrieval
3. als Trainingsdaten des Rerankers

Bestehende Daten weisen jedoch Fehler und Eigenheiten auf, die sich
unterschiedlich stark auf diese drei Ebenen auswirken.  Dieser Vortrag
soll mit Blick auf tatsächliche GND-Daten und deren Eigenschaften
beleuchten, wie sie möglichst ressourcenschonend möglichst große
Verbesserungen eines RAG-Systems zur maschinellen Sacherschließung
herbeiführen können.  Die grundlegende Frage hierbei lautet: An
welcher Stelle sollen welche Daten auf welche Art eingesetzt werden?

Session 5Moderation: N.N. Deutsche Nationalbibliothek
11:30 Uhr

Christoph Poley Deutsche Nationalbibliothek 

Hardware für die automatische Erschließung am Beispiel der DNB

Toggle Cloak
id@T15
 Abstract

 

Cloak
id@T15

Neue und sich schnell entwickelnde KI-Methoden und Hardware-Ressourcen helfen dabei, geeignete und Nutzen bringende automatische Verfahren für Bibliotheken zu entwickeln und einzusetzen. Bereits seit 2009 beschäftigt sich die Deutschen Nationalbibliothek (DNB) mit Verfahren für die automatische Inhaltserschließung, die sich seit 2012 im produktiven Einsatz befinden und seitdem systematisch weiterentwickelt werden. Derzeit finden maschinelle Verfahren für die automatische Klassifizierung mit Sachgruppen und Kurznotationen sowie die Indexierung mit GND-Deskriptoren ihre Anwendung.

Der Vortrag gibt zunächst einen Überblick über die aktuellen fachlichen Use Cases und den zugrundeliegenden Verfahren für die automatische Erschließung. Die Use Cases für die Hardware bauen darauf auf, sie unterschieden sich aber grundlegend davon. Sie bilden deshalb den Schwerpunkt der Präsentation und beinhalten die Gegenüberstellung der unterschiedlichen Hardwareanforderungen für die tägliche Produktion, dem Training der Modelle und der Forschung. Weiterhin wird ein Einblick gegeben, wie sich exemplarisch die Verarbeitungszeit von Daten und damit der Verbrauch wertvoller Ressourcen reduzieren lässt. Ebenfalls werden ersten Erfahrungen mit Large Language Models an der der DNB aufgegriffen, wobei der Focus auf den Hardwareanforderungen liegt.

Abschließend werden einige Ideen für die Modellierung eines durchgängigen Hardwarekonzeptes sowie die in der DNB gegangenen Schritte dafür thematisiert.

12:00 Uhr

Prof. Philipp Wieder     Professor für Data Science InfrastructuresInstitut für Informatik Georg-August-Universität GöttingenStellvertretender Leiter der GWDG

Keynote:

Toggle Cloak
id@T16
Abstract 


Cloak
id@T16


12:45 Uhr 

Abschlussdiskussion

13:00 Uhr

Veranstaltungsende

...