Während die meisten großen Sprachmodelle auf Englisch ausgerichtet sind, präsentieren wir mit LLäMmlein und ModernGBERT zwei komplementäre Modellfamilien, die vollständig auf die deutsche Sprache optimiert wurden: LLäMmlein, ein generatives Decoder-Modell (120 M – 7 B Parameter), und ModernGBERT, eine Encoder-Familie (138 M – 1 B Parameter) für Verständnis- und Klassifikationsaufgaben. Beide wurden von Grund auf auf einem ausschließlich öffentlich verfügbaren deutschen Korpus mit einem eigens entwickelten Tokenizer trainiert – transparent, reproduzierbar und skalierbar über verschiedene Modellgrößen und Cluster-Konfigurationen hinweg.
Im Vortrag erläutern wir den Aufbau der Datenbasis, die Trainingspipeline und die technischen Herausforderungen beim Training. Zur Evaluation wurde der eigens entwickelte SuperGLEBer-Benchmark genutzt, der speziell auf deutsche Sprachverarbeitung zugeschnitten ist und die Grundlage für unsere weiteren Anwendungen bildet. ModernGBERT erzielt dabei in mehreren Aufgabenbereichen derzeit führende Ergebnisse. Die Leistungsfähigkeit des LLMs wird zudem durch externe Anwendungen bestätigt, etwa bei der Erkennung schädlicher Inhalte in sozialen Medien im Rahmen der GermEval 2025 oder bei der deutschen Koreferenzauflösung. Die Beispiele verdeutlichen die Bedeutung aktueller deutschsprachiger LLMs, um leistungsfähige und anwendungsnahe KI-Systeme entwickeln zu können. |