Erfahrungen und Perspektiven mit dem Toolkit Annif

Im Rahmen des → Netzwerks maschinelle Verfahren in der Erschließung hat am 03. und 04. Dezember 2020 ein Online-Workshop stattgefunden. Schwerpunktthema war der Erfahrungsaustausch über das Toolkit Annif.

Annif ist eine Entwicklung der Finnischen Nationalbibliothek zur maschinellen Erschließung. Das Open Source-Toolkit umfasst eine Kombination aus erprobten Werkzeugen der Textanalyse und neuartigen maschinellen Lernverfahren wie Maui, Omikuji, fastText und Gensim. Die Deutsche Nationalbibliothek hat die Leistungsfähigkeit und Eigenschaften von Annif untersucht und entwickelt damit nun einen Prototyp für die maschinelle Schlagwortvergabe. Auch andere Einrichtungen in Deutschland, beispielsweise die Zentralbibliothek für Wirtschaft und die Technische Informationsbibliothek, prüfen die Eignung für ihre Zwecke. Die Königliche Bibliothek der Niederlande hat bereits praktische Erfahrungen bei der Erschließung mit Autoren und Schlagwörtern gesammelt.

Im Workshop stellten verschiedene Bibliotheken ihre Untersuchungsergebnisse und Ziele vor. Eignet sich Annif perspektivisch für die geplanten Einsatzbereiche? Erfüllt das Toolkit die zentrale Anforderung, als kooperativ nutzbares Erschließungswerkzeug unkompliziert und individuell in Bibliotheken eingesetzt zu werden? Neben diesem Erfahrungs- und Meinungsaustausch diente der Workshop auch der Fortsetzung des Dialogs, der 2019 im Rahmen der Fachtagung Netzwerk maschinelle Verfahren in der Erschließung begonnen wurde.

Die Präsentationen und weitere Materialien stellen wir hier nach dem Workshop zum Download bereit. Die Veröffentlichungen unterliegen der CC BY-SA 3.0-Lizenz. Eine Aufzeichnung des Online-Workshops ist aus Datenschutzgründen nicht gestattet.

Stand: 04. Dezember 2020 Ι Änderungen vorbehalten

Donnerstag • 03. Dezember 2020

Session_1____	Moderation: Elisabeth Mödden • Deutsche Nationalbibliothek
13:00 - 13:30	*Begrüßung und Einführung. Alle Teilnehmerinnen werden gebeten, sich kurz vorzustellen.**
13:30 - 14:15	Automated assistance for cataloguers: towards a helper tool for indexing subjects and authors Sara Veldhoen • Koninklijke Bibliotheek, Den Haag
Session_2____	Moderation: Christa Schöning-Walter • Deutsche Nationalbibliothek
14:30 - 15:45	Evaluierung von Annif in der TIB – ein Werkstattbericht Berrit Genat • Technische Informationsbibliothek (TIB), Hannover Ι → Präsentation Werkstattbericht zur Nutzung von Annif an der ZBW Moritz Fürneisen • Deutsche Zentralbibliothek für Wirtschaftswissenschaften (ZBW), Hamburg Ι → Präsentation Automatische Vergabe von GND-Schlagwörtern mit Annif – Ergebnisse einer Evaluation im Projekt Erschließungsmaschine Sandro Uhlmann • Deutsche Nationalbibliothek (DNB), Leipzig Ι → Präsentation
15:50 - 17:00	Erster Diskussionsschwerpunkt: Einsatzmöglichkeiten von Annif Moderation: Elisabeth Mödden / Christoph Poley • Deutsche Nationalbibliothek	Zweiter Diskussionsschwerpunkt: Weiterentwicklung von Annif Moderation: Claudia Grote / Sandro Uhlmann • Deutsche Nationalbibliothek
	Für welche Anwendungsfälle/Use Cases möchten wir automatische Verfahren einsetzen? Welche Vorteile erwarten wir davon? Wie kann Annif die Bibliotheken unterstützen? Welche Voraussetzungen sollte das Toolkit erfüllen? Wie kann die Hemmschwelle für einen Einsatz herabgesetzt werden? Wie kann ein Austausch von Anwendungsfällen, Ergebnissen, Parametereinstellungen etc. organisiert werden? → Präsentation	Grundlegend lassen sich für die Weiterentwicklung von Annif zunächst folgende zwei Perspektiven einnehmen: Das Tool Annif kann intern weiterentwickelt werden, also bspw. durch die Einbindung neuer Verfahren (backends) in Annif. Eine zweite Sichtweise betrachtet nicht die Möglichkeiten Annif an sich weiterzuentwickeln sondern Annif durch externe Einflussnahme wie einen vorverarbeiteten Input (bspw. durch die Strukturierung des Textmaterials) oder die optimierte Nutzung der Vokabulare (bspw. Einbeziehung von Informationen über Ober/Unterbegriffbeziehung o.ä.), zu besseren Ergebnissen zu verhelfen. In der Runde wollen wir gemeinsam über Ideen und Vorstellungen zu möglichen Weiterentwicklungen diskutieren.

Freitag • 04. Dezember 2020

Session_3____	Moderation: Christa Schöning-Walter • Deutsche Nationalbibliothek
09:00 - 09:30	Bericht aus den Diskussionsgruppen am Vortag
09:30 - 10:00	Das Toolkit Annif Claudia Grote • Deutsche Nationalbibliothek (DNB), Frankfurt Ι → Präsentation
10:00 - 10:30	Entwicklung eines lexikalischen Verfahren auf der Basis endlicher Automaten an der ZBW Moritz Fuerneisen • Deutsche Zentralbibliothek für Wirtschaftswissenschaften (ZBW), Hamburg Ι → Präsentation
Session_4____	Moderation: Christa Schöning-Walter / Elisabeth Mödden • Deutsche Nationalbibliothek
10:45 - 11:00	Impulsvortrag: Gemeinsamer Werkzeugkasten Elisabeth Mödden, Deutsche Nationalbibliothek (DNB), Frankfurt Ι Christoph Poley, Deutsche Nationalbibliothek (DNB), Leipzig Ι → Präsentation
11:00 - 12:15	Dritter Diskussionsschwerpunkt: DACH-Kooperation maschinelle Verfahren Moderation: Elisabeth Mödden / Christoph Poley • Deutsche Nationalbibliothek	Vierter Diskussionsschwerpunkt: Infrastruktur zur maschinellen Erschließung mit Annif Moderation: Claudia Grote / Sandro Uhlmann • Deutsche Nationalbibliothek
	Wie können Bibliotheken den Ausbau des Toolkits Annif unterstützen? Sollten die Arbeiten mit Annif als Baustein eines kooperativen Forschungslabors auf europäischer Ebene gesehen werden? Wie könnte ein solches Labor entstehen? Oder sollte ein "DACH-Konsortium" die Initiative ergreifen, die Anforderungen abstimmen und dann auf die Entwickler*innen in der Finnischen Nationalbibliothek zugehen? Das heißt: Organisiert weiterarbeiten oder doch lieber spontan? Abgestimmt oder jede Institution für sich?	Mögliche Fragen an alle Teilnehmer: Wer setzt Annif bereits ein und welche Hürden mussten überwunden werden? Wer plant Annif einzusetzen und wie? Welche Anwendungsszenarien sind angedacht? Wie integriere ich Annif in meine Infrastruktur? Welche Abhängigkeiten gibt es? Welche Ergänzungen/Anpassungen des Tools könnten uns helfen? Wie können wir mit beschränkten Hardwareressourcen zu validen Modellen kommen?
12:15 - 13:00	Zusammenfassung der Diskussionsergebnisse und Ausblick

Bereichsverknüpfungen

Seitenhierarchie

Donnerstag • 03. Dezember 2020

Freitag • 04. Dezember 2020