Die Fachtagung 2021 im Rahmen des → Netzwerks maschinelle Verfahren in der Erschließung hat am 18. und 19. November 2021 online stattgefunden.

Der Fokus der diesjährigen Veranstaltung war auf die Frage gerichtet, welche Technologien der Künstlichen Intelligenz (KI) perspektivisch für die Aufbereitung, Verarbeitung und Analyse von Texten in natürlicher Sprache nutzbar sind, um deren Inhalt zu erfassen, und welche Strategien eine gute Qualität der Resultate versprechen.

Die Präsentationen stellen wir hier zum Download bereit (CC BY-SA 3.0).

Ein zusammenfassender Bericht ist im → Dialog mit Bibliotheken 2022/1 publiziert.

Programm und Präsentationen

Donnerstag • 18. November 2021

Session_1

Moderation: Elisabeth Mödden • Deutsche Nationalbibliothek

10:00 Uhr

Frank Scholze • Generaldirektor der Deutschen Nationalbibliothek

Begrüßung und Einführung

Prof. Dr. Kristian Kersting • TU Darmstadt, Artificial Intelligence and Machine Learning Lab

Toggle Cloak
id @T1
Was ist und was kann KI?

Cloak

id	@T1

→ Intelligence and Machine Learning Lab der TU Darmstadt

11:00 Uhr

Sven Giesselbach • Fraunhofer-Institut für Intelligente Analyse- und Informationssysteme (IAIS)

Toggle Cloak
id @T2
Natural Language Understanding: Von der Forschung in die Praxis - der Siegeszug vortrainierter Sprachmodelle

Cloak

id	@T2

Natural Language Understanding (NLU) hat in unserem Alltag Einzug gehalten. Kerntreiber der Erfolge sind Sprachmodelle wie BERT oder GPT. Sie lernen durch selbstüberwachtes Vortrainieren Texte zu repräsentieren und werden durch Transferlernen auf beliebige Aufgaben im Bereich NLU spezialisiert. Diese Modelle erzielen nicht nur State-of-the-art-Ergebnisse in der Forschung sondern verändern auch nachhaltig die Art und Weise, wie wir NLU-Projekte durchführen. In diesem Vortrag werden aktuelle NLU-Entwicklungen vorgestellt und im historischen Kontext eingeordnet. Dazu wird die Entwicklung von einfachen Textrepräsentationsverfahren bis hin zu transformerbasierten Sprachmodellen aufgezeigt. Anhand aktueller Projekte am Fraunhofer IAIS wird dargestellt, welche Vorteile die jeweiligen Modelle bieten und warum es sinnvoll ist, auch klassische Verfahren weiter einzusetzen. Schließlich wird ein Ausblick auf die weitere Entwicklung des Themenfeldes und aktuelle Forschungsrichtungen gegeben.

→ Präsentation

Session_2

Moderation: Christoph Poley • Deutsche Nationalbibliothek

13:00 Uhr

Prof. Dr. Georg Rehm • DFKI, Speech and Language Technology Lab

Toggle Cloak
id @T3
European Language Grid: Eine KI-Plattform für flexible Sprachtechnologien

Cloak

id	@T3

Im Fokus dieses Beitrags steht das EU-Projekt European Language Grid, sowie dessen Schwester-Projekt European Language Equality, in dem wir das Thema “digitale Sprachgerechtigkeit” in Europa vorantreiben. Es werden auch Ergebnisse – und Pläne – aus anderen Projekten vorgestellt, z.B. QURATOR, SPEAKER und NFDI4DataScience.

→ Präsentation

13:45 Uhr

Lydia Pintscher • Wikimedia Deutschland e.V.

Toggle Cloak
id @T4
Wikidata : Datenqualität in einer offenen Wissensdatenbank

Cloak

id	@T4

Wikidata ist Wikimedias Wissensdatenbank. In dem Schwesterprojekt von Wikipedia sammeln und kuratieren über 12.000 Beitragende Daten über die Welt und machen sie frei verfügbar. Die Daten sind Grundlage für unzählige Applikationen und Services, die tagtäglich genutzt werden - vom Wikipedia-Artikel über den persönlichen digitalen Assistenten bis hin zur Forschung. Für Wikimedia ist die Offenheit des Projektes essentiell und gleichzeitig haben wir eine Verpflichtung, der Welt vertrauenswürdige Daten zu liefern. In diesem Vortrag werden wir beleuchten, wie Wikimedia damit umgeht, welche Werkzeuge und Strategien bei der Datenqualitätsarbeit zum Einsatz kommen und welche Parallelen zur Arbeit an Normdaten gezogen werden können.

→ Präsentation

14:15 Uhr

Jürgen Kett • Deutsche Nationalbibliothek (DNB)

Toggle Cloak
id @T5
Datenqualität in der Gemeinsamen Normdatei (GND)

Cloak

id	@T5

Die Gemeinsame Normdatei (GND) steht in besonderem Maße für Verlässlichkeit. Normdaten sollen inhaltlich korrekt, nach einheitlichen Regeln erfasst und dauerhaft referenzierbar sein. Für diesen allgemeinen Anspruch bürgen die Institutionen, die die GND gemeinschaftlich betreiben und pflegen. Bislang verträgt sich dieser Anspruch nur bedingt mit dem Einsatz maschineller Verfahren. Die Inhalte der GND sind bis dato das Ergebnis softwaregestützter Handarbeit. Selbst maschinell importierte Daten sind im Ursprung durch manuelle Eingaben von Kultur- und Wissenschaftseinrichtungen, Community-Projekten oder Verlagen und Autoren entstanden. Der Einsatz von Skripten beschränkt sich auf unterstützende Analysen zur Qualitätssicherung und auf triviale Datenmanipulationen, zum Beispiel um Daten in die benötigte syntaktische Form zu bringen oder um systematische Fehler zu bereinigen.

Der zunehmende Einsatz maschineller Verfahren stellt die GND-Community nun vor neue Fragen und Herausforderungen: Was ist erforderlich, um die Eignung der GND für die maschinelle Erschließung zu verbessern? Wie finden neue Entitäten und Konzepte künftig Eingang in die GND, wenn die Veröffentlichungen dazu ausschließlich maschinell erschlossen wurden? Lassen sich maschinelle Verfahren für die GND-Pflege nutzen, um dem steigenden Anspruch hinsichtlich Vollständigkeit und Präzision bei gleichzeitig fehlenden Ressourcen in vielen GND-Redaktionen besser gerecht zu werden? Wie können die Anforderungen an die Verlässlichkeit der GND auch dann noch erfüllt werden?

→ Präsentation

Session 3

Moderation: Christa Schöning-Walter • Deutsche Nationalbibliothek

15:15 Uhr

Stefan Geißler• Kairntech

Toggle Cloak
id @T6
Open Source - Ein Schlaraffenland für KI/NLP-Anwendungen

Cloak

id	@T6

Seit Jahren verläuft die Entwicklung neuer, immer leistungsfähigerer Programmierbibliotheken und Daten im Bereich natürliche Sprachverarbeitung (NLP) immer ungestümer und ermöglicht neue, immer leistungsfähigere Anwendungen. Entwicklungsteams, die hier den Überblick behalten und verfügbare Open Source Bausteine zu passgenauen Lösungen zusammensetzen, können sich hierfür aus einem Schlaraffenland von Komponenten, oft direkt aus der ersten Liga weltweiter Forschungsgruppen, bedienen.
Das französisch-deutsche KI/NLP-Unternehmen Kairntech nimmt aktiv an dieser Community teil und erstellt für seine Anwender:innen Systeme für spezialisierte Anforderungen. Im Vortrag werden mit theaurus-basiertem Indexieren, automatischer Unterstützung bei der Pflege von Thesauri sowie automatischer Dokumentensegmentierung und Metadatenanalyse drei entsprechende Beispiele kurz vorgestellt.

→ Präsentation

16:00 Uhr

Hans-Jörg Schäuble • Aleph Alpha GmbH

Toggle Cloak
id @T7
Was kommt nach supervised learning? Chancen & Nutzen und ein Blick in die (nahe) Zukunft.

Cloak

id	@T7

Früher wurden für KI-Modelle große Menge an (manuell) annotierten Trainingsdaten benötigt („supervised learning“). Die Folge: hochspezialisierte Modelle die eine bestimmte Aufgabe erledigen können – in vielen Bereichen besser als Menschen.

Die nächste Generation von KI-Modellen ist anders und wird mit Hilfe von unfassbaren Mengen an nicht-annotierten Daten einmalig trainiert und anschließend nur noch auf die jeweilige Aufgabe gefinetuned.

Aleph Alpha baut diese Art von Modellen und arbeitet daran, sie multimodal zu trainieren. So erlernen diese Art der Modelle u.a. ein deutlich verbessertes „Verständnis“ der Welt, unterschiedliche Sprachkonzepte, eine neue Form der Verknüpfung von relevantem Wissen bis zu einer moralischen Grundausrichtung.

Doch was bedeutet das für den praktischen Umgang mit Wissen und die Zukunft in der Erschließung von Wissen?

→ Präsentation

Freitag • 19. November 2021

Session_4

Moderation: Ulrike Junger • Deutsche Nationalbibliothek

9:30 Uhr

D. Sc. Osma Suominen • Finnische Nationalbibliothek

Toggle Cloak
id @T10
Automated subject indexing with Annif and Finto AI

Cloak

id	@T10

The National Library of Finland has developed Annif, an open source toolkit for automated subject indexing, since 2017. In May 2020, we launched Finto AI, a production service for automated subject indexing, based on Annif and a set of machine learning models trained using the General Finnish Ontology YSO and existing metadata and fulltext collections. In this presentation, lead developer Osma Suominen will present the current state of Annif development, the evaluation of automated subject indexing processes, and reflect on the future roadmap for Annif and Finto AI.

→ Präsentation

10:45 Uhr

Dr. Anna Kasprzik, Moritz Fürneisen • ZBW – Leibniz-Informationszentrum Wirtschaft

Toggle Cloak
id @T8
AutoSE: Automatisierung der Inhaltserschließung mit Machine-Learning-Methoden an der ZBW – Ergebnisse und Perspektiven

Cloak

id	@T8

Die ZBW – Leibniz-Informationszentrum Wirtschaft befasst sich schon etliche Jahre im Rahmen von angewandter Forschung mit der Entwicklung von Machine-Learning-Methoden für die Automatisierung der Inhaltserschließung. Die so entstandenen prototypischen Lösungen mussten jedoch noch in produktive Dienste überführt werden, die sich für den durchgängigen Betrieb eignen und mit den anderen Erschließungs- und Metadatenverarbeitungsprozessen der ZBW sinnvoll verzahnt werden können.

Hierfür wurde die Automatisierung der Inhaltserschließung (AutoSE) 2019 zu einer Daueraufgabe erklärt und für den Aufbau einer geeigneten Software-Architektur eine Pilotphase gestartet, die bis 2024 laufen soll. Ergebnisse aus der parallel dazu fortgeführten wissenschaftlichen Methodenentwicklung fließen kontinuierlich über Experimentier- und Testphasen in das produktive System ein.

Wir berichten über die bereits erreichten Meilensteine, schildern exemplarisch technische und konzeptionelle Herausforderungen, die auf dem Weg dahin überwunden werden mussten, und skizzieren die weiteren Schritte bis zum Ende der Pilotphase.

→ Präsentation

11:15 Uhr

Sandro Uhlmann • Deutsche Nationalbibliothek (DNB)

Toggle Cloak
id @T9
Die Erschließungsmaschine (EMa) – Ergebnisse und Perspektiven der automatischen Inhaltserschließung an der DNB

Cloak

id	@T9

Die Deutsche Nationalbibliothek (DNB) baut derzeit ein neues System zur automatischen Inhaltserschließung auf. Es ist modular gestaltet, damit Funktionen und Verfahren flexibel kombiniert, ausgetauscht oder ergänzt werden können. Nach erfolgreicher Evaluierung soll Annif als Verfahren produktiv eingesetzt werden. Dabei handelt es sich um einen Open-Source-Werkzeugkasten zur automatischen Klassifizierung und Indexierung, entwickelt an der Finnischen Nationalbibliothek.

Im Vortrag werden Ergebnisse der automatischen Vergabe von DDC-Sachgruppen, DDC-Kurznotationen sowie GND-Schlagworten vorgestellt. Des Weiteren wird die technische Integration von Annif in den produktiven Workflow veranschaulicht: Von der Textbereitstellung und der Identifizierung der Sprache des Textes über die Auswahl des geeigneten Annif-Verfahrens bis hin zur Aktualisierung des bibliografischen Datensatzes.

→ Präsentation

Fazit und Ausblick

Bereichsverknüpfungen

Seitenhierarchie

Versionen im Vergleich

Alte Version 77

Neue Version Aktuell

Schlüssel

Programm und Präsentationen

Donnerstag • 18. November 2021

Begrüßung und Einführung

Toggle Cloak
id @T1
Was ist und was kann KI?

Toggle Cloak
id @T2
Natural Language Understanding: Von der Forschung in die Praxis - der Siegeszug vortrainierter Sprachmodelle

Toggle Cloak
id @T3
European Language Grid: Eine KI-Plattform für flexible Sprachtechnologien

Toggle Cloak
id @T4
Wikidata : Datenqualität in einer offenen Wissensdatenbank

Toggle Cloak
id @T5
Datenqualität in der Gemeinsamen Normdatei (GND)

Toggle Cloak
id @T6
Open Source - Ein Schlaraffenland für KI/NLP-Anwendungen

Toggle Cloak
id @T7
Was kommt nach supervised learning? Chancen & Nutzen und ein Blick in die (nahe) Zukunft.

Freitag • 19. November 2021

Toggle Cloak
id @T10
Automated subject indexing with Annif and Finto AI

Toggle Cloak
id @T8
AutoSE: Automatisierung der Inhaltserschließung mit Machine-Learning-Methoden an der ZBW – Ergebnisse und Perspektiven

Toggle Cloak
id @T9
Die Erschließungsmaschine (EMa) – Ergebnisse und Perspektiven der automatischen Inhaltserschließung an der DNB

Bereichsverknüpfungen

Seitenhierarchie

Seitenhistorie

Versionen im Vergleich

Alte Version 77

Neue Version Aktuell

Schlüssel

Programm und Präsentationen

Donnerstag • 18. November 2021

Begrüßung und Einführung

Toggle Cloakid@T1Was ist und was kann KI?

Toggle Cloakid@T2Natural Language Understanding: Von der Forschung in die Praxis - der Siegeszug vortrainierter Sprachmodelle

Toggle Cloakid@T3 European Language Grid: Eine KI-Plattform für flexible Sprachtechnologien

Toggle Cloakid@T4 Wikidata : Datenqualität in einer offenen Wissensdatenbank

Toggle Cloakid@T5 Datenqualität in der Gemeinsamen Normdatei (GND)

Toggle Cloakid@T6 Open Source - Ein Schlaraffenland für KI/NLP-Anwendungen

Toggle Cloakid@T7 Was kommt nach supervised learning? Chancen & Nutzen und ein Blick in die (nahe) Zukunft.

Freitag • 19. November 2021

Toggle Cloakid@T10 Automated subject indexing with Annif and Finto AI

Toggle Cloakid@T8 AutoSE: Automatisierung der Inhaltserschließung mit Machine-Learning-Methoden an der ZBW – Ergebnisse und Perspektiven

Toggle Cloakid@T9 Die Erschließungsmaschine (EMa) – Ergebnisse und Perspektiven der automatischen Inhaltserschließung an der DNB

Toggle Cloak
id @T1
Was ist und was kann KI?

Toggle Cloak
id @T2
Natural Language Understanding: Von der Forschung in die Praxis - der Siegeszug vortrainierter Sprachmodelle

Toggle Cloak
id @T3
European Language Grid: Eine KI-Plattform für flexible Sprachtechnologien

Toggle Cloak
id @T4
Wikidata : Datenqualität in einer offenen Wissensdatenbank

Toggle Cloak
id @T5
Datenqualität in der Gemeinsamen Normdatei (GND)

Toggle Cloak
id @T6
Open Source - Ein Schlaraffenland für KI/NLP-Anwendungen

Toggle Cloak
id @T7
Was kommt nach supervised learning? Chancen & Nutzen und ein Blick in die (nahe) Zukunft.

Toggle Cloak
id @T10
Automated subject indexing with Annif and Finto AI

Toggle Cloak
id @T8
AutoSE: Automatisierung der Inhaltserschließung mit Machine-Learning-Methoden an der ZBW – Ergebnisse und Perspektiven

Toggle Cloak
id @T9
Die Erschließungsmaschine (EMa) – Ergebnisse und Perspektiven der automatischen Inhaltserschließung an der DNB