Workshop 2022: Einsatz von KI und DH in Bibliotheken - ein Erfahrungsaustausch auf Werkstattebene

Im Rahmen des → Netzwerks maschinelle Verfahren in der Erschließung hat am 03. und 04. November 2022 ein Workshop stattgefunden, der den Einsatz von KI und DH in Bibliotheken zum Schwerpunkt hatte. Teilnehmende aus der Staatsbibliothek zu Berlin, der Bayerischen Staatsbibliothek, der TIB – Leibniz-Informationszentrum Technik und Naturwissenschaften, der ZBW – Leibniz-Informationszentrum Wirtschaft und der Deutschen Nationalbibliothek tauschten sich auf Arbeitsebene über Erfahrungen und Erkenntnisse aus.

Der diesjährige Workshop beschäftigte sich mit Themen, die im Rahmen der maschinellen Aufbereitung und Analyse von Texten oder Bildern zu bearbeiten sind. Die beteiligten Bibliotheken arbeiten an ähnlichen Aufgaben und haben sich auf eine vertiefte Zusammenarbeit verständigt. Vorgestellt wurden Methoden und Services, die in den Bibliotheken entwickelt, evaluiert oder genutzt werden, um die inhaltlichen Konzepte von Texten oder Bildern maschinell zu erfassen, sie thematisch richtig zu klassifizieren oder Ähnlichkeiten zu erkennen. Vielfach kommen Open Source-Entwicklungen zum Einsatz, teils werden auch Dienste kommerzieller Anbieter erprobt. Einige der Algorithmen erfordern enorme Rechenleistungen, so dass auch die Zusammenarbeit mit Hochleistungsrechenzentren in Betracht gezogen wird. Im Forschungsprojekt „Automatisches Erschließungssystem – Inhaltliche Erschließung von Publikationen mit KI" will die Deutsche Nationalbibliothek verschiedene methodische Ansätze systematisch evaluieren. Dafür wird ein professionelles Datenmanagement benötigt. Hinzu kommen neuartige rechtliche Fragen, die im Zusammenhang mit Open Source-Entwicklungen und kooperativ organisierten Forschungsarbeiten zu klären sind. Und nicht zuletzt sind die zentralen Fragen der Qualität zu nennen, die alle Institutionen intensiv beschäftigen. Wann sind die Ergebnisse der maschinellen Verfahren gut genug und wie kann Qualität gemessen werden?

Die Präsentationen stellen wir hier zum Download bereit (CC BY-SA 3.0).

I - Berichte zu Projekten der teilnehmenden Institutionen

Erschließungsmaschine EMa und KI-Projekt der DNB
Maximilian Kähler • Deutsche Nationalbibliothek, Leipzig
Christa Schöning-Walter • Deutsche Nationalbibliothek, Frankfurt

Methoden der Digital Humanities in Anwendung für den Aufbau und die Nutzung von Webarchiven
Katharina Schmid • Bayerische Staatsbibliothek, München

Bildähnlichkeitssuche
Dr. Martin Hermann • Bayerische Staatsbibliothek, München
Katharina Schmid • Bayerische Staatsbibliothek, München
Stefan Schweter • Bayerische Staatsbibliothek, München

Yewno Discover & Yewno Unearth: Nutzung von Yewno Unearth zur automatischen Inhaltserschließung von Grauer Literatur aus Südosteuropa - Projektziele und Workflow
Dr. Arnost Stanzel • Bayerische Staatsbibliothek, München
Ronny Sternecker • Bayerische Staatsbibliothek, München

“Mensch.Maschine.Kultur” – Künstliche Intelligenz für das digitale Kulturelle Erbe in der Staatsbibliothek zu Berlin
Qurator - Curation Technologies
Clemens Neudecker • Staatsbibliothek zu Berlin - Preußischer Kulturbesitz

AutoSE – Automatisierung der Inhaltserschließung mit Machine-Learning-Methoden: Transfer von Ergebnissen aus der eigenen angewandten Forschung in einen produktiven Dienst
Christopher Bartz • ZBW – Leibniz-Informationszentrum, Hamburg
Dr. Anna Kasprzik • ZBW – Leibniz-Informationszentrum, Hamburg

Fächerklassifikation mit Annif für die Fachfacetten des TIB-Portals
Dr. Holger Israel • TIB – Leibniz-Informationszentrum Technik und Naturwissenschaften, Hannover

II - Erfahrungsaustausch zu Schwerpunktthemen

Thema 1 - INFRASTRUKTUR

Infrastruktur für KI-Verfahren in der DNB
Christoph Poley • Deutsche Nationalbibliothek, Leipzig

GPUs – Kosten, Skalierung, Betrieb & Wartung, Virtualisierung, On-Premise vs. Cloud
Clemens Neudecker • Staatsbibliothek zu Berlin - Preußischer Kulturbesitz

Erstellung und Betrieb eines Kubernetes-Clusters zur Ausführung von AutoSE-Core
Christopher Bartz • ZBW – Leibniz-Informationszentrum, Hamburg

Thema 2 - THEMATISCHE SUCHE UND PRÄSENTATION

Yewno Discover und Yewno Unearth
Dr. Arnost Stanzel • Bayerische Staatsbibliothek, München
Ronny Sternecker • Bayerische Staatsbibliothek, München

Thema 3 - DATEN

Datenmanagement mit DVC
Maximilian Kähler • Deutsche Nationalbibliothek, Leipzig
Nico Wagner • Deutsche Nationalbibliothek, Leipzig

Thema 4 - TOOLS PROGRAMMIEREN

Open-Source-Software - ein kurzer Aufriss und viele Fragen
Christoph Poley • Deutsche Nationalbibliothek, Leipzig

Thema 5 - TERMINOLOGIE / Vokabular

Aufbereitung der GND für KI-Verfahren
Jan-Helge Jacobs • Deutsche Nationalbibliothek, Leipzig
Nico Wagner • Deutsche Nationalbibliothek, Leipzig

Thema 6 - QUALITÄTSGESICHERTE TEXTEXTRAKTION UND TEXTERKENNUNG

Herausforderungen der Textextraktion im Produktivbetrieb der DNB
Christa Schöning-Walter • Deutsche Nationalbibliothek, Frankfurt
Sandro Uhlmann • Deutsche Nationalbibliothek, Leipzig

Thema 7 - QUALITÄT

Evaluation im DNB-KI-Projekt
Maximilian Kähler • Deutsche Nationalbibliothek, Leipzig

Qualitätsmaßnahmen in AutoSE an der ZBW
Dr. Anna Kasprzik • ZBW – Leibniz-Informationszentrum, Hamburg
Christopher Bartz • ZBW – Leibniz-Informationszentrum, Hamburg
- Teil 1: human in the loop (https://github.com/zbw/releasetool)
- Teil 2: Maschinell gelernte Qualitätsabschätzung qualle (https://github.com/zbw/qualle)

Bereichsverknüpfungen

Seitenhierarchie

I - Berichte zu Projekten der teilnehmenden Institutionen

II - Erfahrungsaustausch zu Schwerpunktthemen