| Session_1 | Moderation: Elisabeth Mödden • Deutsche Nationalbibliothek | ||
| 13:00 Uhr | Frank Scholze • Generaldirektor der Deutschen Nationalbibliothek Begrüßung und Einführung | ||
Prof. Dr. Felix Naumann • Professor for Information Systems Digital Engineering Fakultät at the University of Potsdam Hasso Plattner Institute Keynote: Was Sie schon immer über Datenqualität wissen wollten, aber bisher nicht zu fragen wagten.
| |||
"Unsere Daten sind in Ordnung" – wirklich? Datenqualität ist mehr als die Abwesenheit offensichtlicher Fehler. Von simplen Tippfehlern über subtile Inkonsistenzen bis zu systematischen Verzerrungen: Die Bandbreite möglicher Qualitätsprobleme ist groß, und mit dem Siegeszug von KI und maschinellem Lernen werden die Konsequenzen schlechter Daten immer sichtbarer. Was bedeuten eigentlich "gute Daten" und warum reichen klassische Maßstäbe wie Vollständigkeit und Korrektheit heute nicht mehr aus? Und wie misst man Datenqualität? Spätestens seit das EU-KI-Gesetz Anforderungen an Trainingsdaten stellt, müssen wir auch über Fairness, Diversität und Erklärbarkeit reden. Der Vortrag beleuchtet zentrale Konzepte, Methoden und offene Forschungsfragen der Datenqualität – von klassischen Ansätzen bis zu den Herausforderungen des KI-Zeitalters. |
Maximilian Kähler • Deutsche Nationalbibliothek
In einem internen KI-Projekt wurde an der DNB in den letzten vier Jahren untersucht, wie sich aktuelle Entwicklungen aus der natürlichen Sprachverarbeitung für die Weiterentwicklung der automatischen Erschließung eignen. Speziell wurde die Frage behandelt, welche Methoden sich am besten für die Beschlagwortung von deutschen wissenschaftlicher Publikationen mit Deskriptoren aus der Gemeinsamen Normdatei (GND) eignen. Im Ergebnis zeigt sich, dass bereits existierende Verfahren durch den Einsatz neuer Encoder-(Sprach-)Modelle weiterentwickelt werden können. Andererseits bieten generative Sprachmodelle völlig neue Wege das Beschlagwortungsproblem zu adressieren. Wir berichten von Vor- und Nachteilen und zeigen Ergebnisse unserer Evaluation. |
14:30 Uhr bis 15:00 Uhr • Kaffeepause
15:00 Uhr
Prof. Dr. Andreas Hotho • Head of Data Science Chair (Informatik X) Universität Würzburg
Während die meisten großen Sprachmodelle auf Englisch ausgerichtet sind, präsentieren wir mit LLäMmlein und ModernGBERT zwei komplementäre Modellfamilien, die vollständig auf die deutsche Sprache optimiert wurden: LLäMmlein, ein generatives Decoder-Modell (120 M – 7 B Parameter), und ModernGBERT, eine Encoder-Familie (138 M – 1 B Parameter) für Verständnis- und Klassifikationsaufgaben. Beide wurden von Grund auf auf einem ausschließlich öffentlich verfügbaren deutschen Korpus mit einem eigens entwickelten Tokenizer trainiert – transparent, reproduzierbar und skalierbar über verschiedene Modellgrößen und Cluster-Konfigurationen hinweg. Im Vortrag erläutern wir den Aufbau der Datenbasis, die Trainingspipeline und die technischen Herausforderungen beim Training. Zur Evaluation wurde der eigens entwickelte SuperGLEBer-Benchmark genutzt, der speziell auf deutsche Sprachverarbeitung zugeschnitten ist und die Grundlage für unsere weiteren Anwendungen bildet. ModernGBERT erzielt dabei in mehreren Aufgabenbereichen derzeit führende Ergebnisse. Die Leistungsfähigkeit des LLMs wird zudem durch externe Anwendungen bestätigt, etwa bei der Erkennung schädlicher Inhalte in sozialen Medien im Rahmen der GermEval 2025 oder bei der deutschen Koreferenzauflösung. Die Beispiele verdeutlichen die Bedeutung aktueller deutschsprachiger LLMs, um leistungsfähige und anwendungsnahe KI-Systeme entwickeln zu können. |
Dr. Christopher Tauchmann • Postdoctoral Researcher in the Artificial Intelligence and Machine Learning Group Computer Science Department TU Darmstadt
Die Entwicklung großer Sprachmodelle hat sich 2025 spürbar verschoben: Der Fokus liegt zunehmend auf Modellen, die komplexe Probleme über mehrstufige Inferenz- und Suchprozesse bearbeiten, anstatt direkt zu antworten. |
Robin Jegan • Lehrstuhl für Medieninformatik • Wirtschaftsinformatik und Angewandte Informatik • Universität Bamberg
16:30 Uhr bis 16:50 Uhr • Kaffeepause
Dr. Oliver Vettermann • Team für Immaterialgüterrechte in verteilten Informationsinfrastrukturen • FIZ Karlsruhe
Künstliche Intelligenz soll Arbeit schneller, leichter und effizienter machen. Wenn man dem Transhumanismus glaubt, verhilft die Nutzung populärer LLM-Modelle der Menschheit auf die nächste Entwicklungsstufe. Die Grundlage für diese positiven Effekte sind unzählige Datenpunkte des Internets, unter anderem auch Digitalisate im Open Access. Die Fragmente dieser Digitalisate streuen weit. Teilweise bis in eine KI-generierte Wikipedia von Elon Musk, genannt Grokipedia, in der die Fragmente teils in ihr Gegenteil verkehrt und verzerrt werden. Verliert der ursprüngliche Datenpunkt, das Digitalisat, dadurch an Wert? Diese Frage lässt sich dabei auf verschiedene Weise beantworten: Wert als Konzept ist sowohl ökonomischer Nutzen, als auch gesellschaftlich-ethische Aufladung, aber auch rechtliches Schutzgut. Der Vortrag verbindet diese Perspektiven für ein interdisziplinäres Verständnis von "Wert". Wie sich der Wert durch den Einsatz von LLM-Modellen verändert, wird anhand verschiedener Beispiele illustriert. |
Prof. Dr. Mascha Will-Zocholl • Soziologie der Digitalisierung von Arbeit und Organisation • Hessischen Hochschule für öffentliches Management und Sicherheit (HöMS) Wiesbaden
Die Automatisierung von Arbeit ist kein neues Phänomen – seit den 1950er-Jahren prägt die Rationalisierung durch Technik und Organisation die Arbeitswelt. Doch mit dem Aufstieg Künstlicher Intelligenz (KI) erreicht dieser Prozess eine neue Qualität: Algorithmen übernehmen nicht nur repetitive, sondern zunehmend auch komplexe und wissensintensive Tätigkeiten. Dieser Vortrag untersucht aus arbeitssoziologischer Perspektive, wie KI-gestützte Automatisierung Arbeitsinhalte, Qualifikationsanforderungen und Machtverhältnisse in Organisationen verändert. Im Rückgriff auf die lang währenden Rationalisierungsdebatten – von der Taylorisierung über die Computerisierung bis hin zur Digitalisierung – wird gefragt: Welche Kontinuitäten und Brüche zeigen sich durch KI? Wie verändern sich Arbeitsprozesse, wenn Entscheidungen zunehmend von Algorithmen getroffen oder vorbereitet werden? Und welche sozialen Folgen hat es, wenn menschliche Arbeit durch maschinelle Lernverfahren ersetzt, ergänzt oder neu strukturiert wird? Abschließend wird der Blick auf die Gestaltung von Arbeit gerichtet |
Dr. Christoph Schmidt • Geschäftsfeldleiter „AI4Media“ • Fraunhofer IAIS
Aufgrund der geopolitischen Lage wird der Ruf nach souveränen und wettbewerbsfähigen Lösungen „Made in Europe“ im Bereich der Künstlichen Intelligenz lauter. Der Vortrag beschreibt, wie ein integriertes Ökosystem aus Infrastruktur, Forschung und Industrie zur Grundlage wettbewerbsfähiger KI‑Technologien werden kann. Er zeigt, dass reine Cloud‑Souveränität nicht ausreicht, sondern offene, transparente und leistungsfähige KI‑Modelle notwendig sind, die in Europa entwickelt, trainiert und betrieben werden. Beispiele aus der Schweiz, China und Deutschland verdeutlichen, dass koordinierte Investitionen und Kooperationen entscheidend für Innovation sind. Im Zentrum steht die Bedeutung offener Foundation‑Modelle, die sowohl als Basismodelle als auch für sektor‑ und unternehmensspezifische KI‑Lösungen dienen. Die Risiken simplen Finetunings, darunter Wissensverlust und Halluzinationen, werden anhand aktueller Forschung erläutert, und stattdessen wird die Technik des fortgesetzten Pretrainings vorgeschlagen. Eine hohe Datenqualität und transparente Trainingsprozesse sind hierbei Schlüsselfaktoren. Die im Konsortium entwickelte State-of-the-Art Filtermethode JQL wird im Detail vorgestellt, und Erfahrungen aus der Praxis des Modelltrainings für zukünftige Modelle und entsprechende Trainingsdaten werden gezogen. Modelle wie Teuken 7B und GovTeuken demonstrieren, dass europäische Open‑Source‑Modelle bereits heute konkurrenzfähig und anwendungsbereit sind. Abschließend wird skizziert, wie Europa durch koordiniertes Handeln entlang der gesamten KI‑Wertschöpfungskette echte technologische Unabhängigkeit und nachhaltige Innovationskraft erreichen kann. |
18:30 Uhr
| Session_4 | Moderation: Maximilian Kähler • Deutsche Nationalbibliothek | ||
| 09:00 Uhr | Dr. Jennifer D'Souza • NLP Research Group Lead im Projekt Open Research Knowledge Graph in der Forschungsgruppe Data Science and Digital Libraries • TIB Hannover The LLMs4Subjects community challenge: LLMs meet extreme multi-label classification of records in digital libraries
| ||
In 2025, Jennifer led the organization of the LLMs4Subjects community challenge, which was featured |
Clara Wan Ching Ho, M.Sc. • Computerlinguistik • FID Linguistik • Universitätsbibliothek Johann Christian Senckenberg Frankfurt
This talk provides a reality check on the role of large language models (LLMs) in automatic subject indexing. Drawing on the perspective of an academic library and the indexing of a specialized bibliography, we explore how LLMs can complement and scale cataloguing workflows, while highlighting their limitations in producing reliable, updated and meaningful metadata. The session emphasizes the value of human–machine collaboration to ensure both efficiency and semantic integrity. |
Yves Maurer • Responsable de la Division • Bibliothèque nationale du Luxembourg (BnL)
Pit Schneider • Freiberuflicher KI-Ingenieur
Für die Formalerschließung der digitalen Pflichtabgabe hat die Nationalbibliothek Luxemburg eine Automatisierung anhand von einem Vision Language Model entwickelt. Die Präsentation erklärt die Beweggründe, die Entwicklung der Idee, die Funktionsweise der aktuellen Lösung und geht auf den aktuellen Status des Projektes ein. |
Tobias Weberndorfer • TU Wien Bibliothek
Flexibilität ist einer der bezeichnenden Vorteile eines RAG-Systems zur maschinellen Sacherschließung. Erschlossene Daten können an |
Christoph Poley • Deutsche Nationalbibliothek
Neue und sich schnell entwickelnde KI-Methoden und Hardware-Ressourcen helfen dabei, geeignete und Nutzen bringende automatische Verfahren für Bibliotheken zu entwickeln und einzusetzen. Bereits seit 2009 beschäftigt sich die Deutschen Nationalbibliothek (DNB) mit Verfahren für die automatische Inhaltserschließung, die sich seit 2012 im produktiven Einsatz befinden und seitdem systematisch weiterentwickelt werden. Derzeit finden maschinelle Verfahren für die automatische Klassifizierung mit Sachgruppen und Kurznotationen sowie die Indexierung mit GND-Deskriptoren ihre Anwendung. Der Vortrag gibt zunächst einen Überblick über die aktuellen fachlichen Use Cases und den zugrundeliegenden Verfahren für die automatische Erschließung. Die Use Cases für die Hardware bauen darauf auf, sie unterschieden sich aber grundlegend davon. Sie bilden deshalb den Schwerpunkt der Präsentation und beinhalten die Gegenüberstellung der unterschiedlichen Hardwareanforderungen für die tägliche Produktion, dem Training der Modelle und der Forschung. Weiterhin wird ein Einblick gegeben, wie sich exemplarisch die Verarbeitungszeit von Daten und damit der Verbrauch wertvoller Ressourcen reduzieren lässt. Ebenfalls werden ersten Erfahrungen mit Large Language Models an der der DNB aufgegriffen, wobei der Focus auf den Hardwareanforderungen liegt. Abschließend werden einige Ideen für die Modellierung eines durchgängigen Hardwarekonzeptes sowie die in der DNB gegangenen Schritte dafür thematisiert. |
Prof. Philipp Wieder • Professor für Data Science Infrastructures • Institut für Informatik • Georg-August-Universität Göttingen • Stellvertretender Leiter der GWDG
Abschlussdiskussion
Veranstaltungsende