Im Rahmen des → Netzwerks maschinelle Verfahren in der Erschließung hat am 03. und 04. November 2022 ein Workshop stattgefunden, der den Einsatz von KI und DH in Bibliotheken zum Schwerpunkt hatte. Teilnehmende aus der Staatsbibliothek zu Berlin, der Bayerischen Staatsbibliothek, der TIB – Leibniz-Informationszentrum Technik und Naturwissenschaften, der ZBW – Leibniz-Informationszentrum Wirtschaft und der Deutschen Nationalbibliothek tauschten sich auf Arbeitsebene über Erfahrungen und Erkenntnisse aus.
Der diesjährige Workshop beschäftigte sich mit Themen, die im Rahmen der maschinellen Aufbereitung und Analyse von Texten oder Bildern zu bearbeiten sind. Die beteiligten Bibliotheken arbeiten an ähnlichen Aufgaben und haben sich auf eine vertiefte Zusammenarbeit verständigt. Vorgestellt wurden Methoden und Services, die in den Bibliotheken entwickelt, evaluiert oder genutzt werden, um die inhaltlichen Konzepte von Texten oder Bildern maschinell zu erfassen, sie thematisch richtig zu klassifizieren oder Ähnlichkeiten zu erkennen. Vielfach kommen Open Source-Entwicklungen zum Einsatz, teils werden auch Dienste kommerzieller Anbieter erprobt. Einige der Algorithmen erfordern enorme Rechenleistungen, so dass auch die Zusammenarbeit mit Hochleistungsrechenzentren in Betracht gezogen wird. Im Forschungsprojekt „Automatisches Erschließungssystem – Inhaltliche Erschließung von Publikationen mit KI" will die Deutsche Nationalbibliothek verschiedene methodische Ansätze systematisch evaluieren. Dafür wird ein professionelles Datenmanagement benötigt. Hinzu kommen neuartige rechtliche Fragen, die im Zusammenhang mit Open Source-Entwicklungen und kooperativ organisierten Forschungsarbeiten zu klären sind. Und nicht zuletzt sind die zentralen Fragen der Qualität zu nennen, die alle Institutionen intensiv beschäftigen. Wann sind die Ergebnisse der maschinellen Verfahren gut genug und wie kann Qualität gemessen werden?
Die Präsentationen stellen wir hier zum Download bereit (CC BY-SA 3.0).
I - Berichte zu Projekten der teilnehmenden Institutionen
- Erschließungsmaschine EMa und KI-Projekt der DNB
Maximilian Kähler • Deutsche Nationalbibliothek, Leipzig
Christa Schöning-Walter • Deutsche Nationalbibliothek, Frankfurt
- Methoden der Digital Humanities in Anwendung für den Aufbau und die Nutzung von Webarchiven
Katharina Schmid • Bayerische Staatsbibliothek, München
- Bildähnlichkeitssuche
Dr. Martin Hermann • Bayerische Staatsbibliothek, München
Katharina Schmid • Bayerische Staatsbibliothek, München
Stefan Schweter • Bayerische Staatsbibliothek, München
- Yewno Discover & Yewno Unearth: Nutzung von Yewno Unearth zur automatischen Inhaltserschließung von Grauer Literatur aus Südosteuropa - Projektziele und Workflow
Dr. Arnost Stanzel • Bayerische Staatsbibliothek, München
Ronny Sternecker • Bayerische Staatsbibliothek, München
- “Mensch.Maschine.Kultur” – Künstliche Intelligenz für das digitale Kulturelle Erbe in der Staatsbibliothek zu Berlin
- Qurator - Curation Technologies
Clemens Neudecker • Staatsbibliothek zu Berlin - Preußischer Kulturbesitz
- AutoSE – Automatisierung der Inhaltserschließung mit Machine-Learning-Methoden: Transfer von Ergebnissen aus der eigenen angewandten Forschung in einen produktiven Dienst
Christopher Bartz • ZBW – Leibniz-Informationszentrum, Hamburg
Dr. Anna Kasprzik • ZBW – Leibniz-Informationszentrum, Hamburg
- Fächerklassifikation mit Annif für die Fachfacetten des TIB-Portals
Dr. Holger Israel • TIB – Leibniz-Informationszentrum Technik und Naturwissenschaften, Hannover
II - Erfahrungsaustausch zu Schwerpunktthemen
- Infrastruktur für KI-Verfahren in der DNB
Christoph Poley • Deutsche Nationalbibliothek, Leipzig
- GPUs – Kosten, Skalierung, Betrieb & Wartung, Virtualisierung, On-Premise vs. Cloud
Clemens Neudecker • Staatsbibliothek zu Berlin - Preußischer Kulturbesitz
- Erstellung und Betrieb eines Kubernetes-Clusters zur Ausführung von AutoSE-Core
Christopher Bartz • ZBW – Leibniz-Informationszentrum, Hamburg
- Yewno Discover und Yewno Unearth
Dr. Arnost Stanzel • Bayerische Staatsbibliothek, München
Ronny Sternecker • Bayerische Staatsbibliothek, München
- Datenmanagement mit DVC
Maximilian Kähler • Deutsche Nationalbibliothek, Leipzig
Nico Wagner • Deutsche Nationalbibliothek, Leipzig
- Open-Source-Software - ein kurzer Aufriss und viele Fragen
Christoph Poley • Deutsche Nationalbibliothek, Leipzig
- Aufbereitung der GND für KI-Verfahren
Jan-Helge Jacobs • Deutsche Nationalbibliothek, Leipzig
Nico Wagner • Deutsche Nationalbibliothek, Leipzig
- Herausforderungen der Textextraktion im Produktivbetrieb der DNB
Christa Schöning-Walter • Deutsche Nationalbibliothek, Frankfurt
Sandro Uhlmann • Deutsche Nationalbibliothek, Leipzig
- Evaluation im DNB-KI-Projekt
Maximilian Kähler • Deutsche Nationalbibliothek, Leipzig
- Qualitätsmaßnahmen in AutoSE an der ZBW
Dr. Anna Kasprzik • ZBW – Leibniz-Informationszentrum, Hamburg
Christopher Bartz • ZBW – Leibniz-Informationszentrum, Hamburg- Teil 1: human in the loop (https://github.com/zbw/releasetool)
- Teil 2: Maschinell gelernte Qualitätsabschätzung qualle (https://github.com/zbw/qualle)