Die Fachtagung 2021 im Rahmen des → Netzwerks maschinelle Verfahren in der Erschließung findet am 18. und 19. November 2021 online statt. Hier können Sie sich für die Veranstaltung anmelden.
Der Fokus der diesjährigen Veranstaltung ist auf die Frage gerichtet, welche Technologien der Künstlichen Intelligenz (KI) perspektivisch für die Aufbereitung, Verarbeitung und Analyse von Texten in natürlicher Sprache nutzbar sind, um deren Inhalt zu erfassen, und welche Strategien eine gute Qualität der Resultate versprechen.
Vorläufiges Programm
Donnerstag • 18. November 2021
Session_1 | Moderation: NN • Deutsche Nationalbibliothek |
10:00 Uhr | |
| ... |
| Sven Giesselbach • Fraunhofer-Institut für Intelligente Analyse- und Informationssysteme (IAIS) Natural Language Understanding (NLU): Stand der Technik - Ansätze - Projekte (Arbeitstitel)
|
12:00 Uhr | Mittagspause |
Session_2 | Moderation: NN • Deutsche Nationalbibliothek |
13:00 Uhr | Prof. Dr. Georg Rehm • DFKI, Speech and Language Technology Lab
|
13:30 Uhr | Lydia Pintscher • Wikimedia Deutschland e.V. Wikidata : Datenqualität in einer offenen WissensdatenbankWikidata ist Wikimedias Wissensdatenbank. In dem Schwesterprojekt von Wikipedia sammeln und kuratieren über 12.000 Beitragende Daten über die Welt und machen sie frei verfügbar. Die Daten werden dann als Grundlage für unzählige Applikationen und Services genutzt, die wir alle tagtäglich nutzen - vom Wikipedia -Artikel über den persönlichen digitalen Assistenten bis hin zur Forschung. Für Wikimedia ist die Offenheit des Projektes essentiell und gleichzeitig haben wir eine Verpflichtung, der Welt vertrauenswürdige Daten zu liefern. In diesem Vortrag werden wir beleuchten, wie Wikimedia damit umgeht, welche Werkzeuge und Strategien bei der Datenqualitätsarbeit zum Einsatz kommen und welche Parallelen zur Arbeit an Normdaten gezogen werden können. |
14:00 Uhr | Jürgen Kett • Deutsche Nationalbibliothek (DNB) Datenqualität in der Gemeinsamen Normdatei (Arbeitstitel)
|
14:30 Uhr | Pause |
Session 3 | Moderation: NN • Deutsche Nationalbibliothek |
15:00 Uhr | Stefan Geißler • Kairntech Lösungen zu Kategorisierung und Thesaurus-basiertes Indexieren (Arbeitstitel)
|
15:30 Uhr | Hans-Jörg Schäuble • Aleph Alpha GmbH Was kommt nach supervised learning? Chancen & Nutzen und ein Blick in die (nahe) Zukunft.Die nächste Generation von KI-Modellen ist anders und wird mit Hilfe von unfassbaren Mengen an nicht-annotierten Daten einmalig trainiert und anschließend nur noch auf die jeweilige Aufgabe gefinetuned. Aleph Alpha baut diese Art von Modellen und arbeitet daran, sie multimodal zu trainieren. So erlernen diese Art der Modelle u.a. ein deutlich verbessertes „Verständnis“ der Welt, unterschiedliche Sprachkonzepte, eine neue Form der Verknüpfung von relevantem Wissen bis zu einer moralischen Grundausrichtung. Doch was bedeutet das für den praktischen Umgang mit Wissen und die Zukunft in der Erschließung von Wissen? |
16:00 Uhr | Abschluss des ersten Veranstaltungstages |
Freitag • 19. Dezember 2021
Session_4 | Moderation: NN• Deutsche Nationalbibliothek |
9:30 Uhr | Dr. Anna Kasprzik, Moritz Fürneisen • Deutsche Zentralbibliothek für Wirtschaftswissenschaften (ZBW) AutoSE: Automatisierung der Inhaltserschließung mit Machine-Learning-Methoden an der ZBW – Ergebnisse und PerspektivenDie ZBW – Leibniz-Informationszentrum Wirtschaft befasst sich schon etliche Jahre im Rahmen von angewandter Forschung mit der Entwicklung von Machine-Learning-Methoden für die Automatisierung der Inhaltserschließung. Die so entstandenen prototypischen Lösungen mussten jedoch noch in produktive Dienste überführt werden, die sich für den durchgängigen Betrieb eignen und mit den anderen Erschließungs- und Metadatenverarbeitungsprozessen der ZBW sinnvoll verzahnt werden können. Hierfür wurde die Automatisierung der Inhaltserschließung (AutoSE) 2019 zu einer Daueraufgabe erklärt und für den Aufbau einer geeigneten Software-Architektur eine Pilotphase gestartet, die bis 2024 laufen soll. Ergebnisse aus der parallel dazu fortgeführten wissenschaftlichen Methodenentwicklung fließen kontinuierlich über Experimentier- und Testphasen in das produktive System ein. Wir berichten über die bereits erreichten Meilensteine, schildern exemplarisch technische und konzeptionelle Herausforderungen, die auf dem Weg dahin überwunden werden mussten, und skizzieren die weiteren Schritte bis zum Ende der Pilotphase. |
10:00 Uhr | Sandro Uhlmann • Deutsche Nationalbibliothek (DNB) Die Erschließungsmaschine (EMa) – Ergebnisse und Perspektiven der automatischen Inhaltserschließung an der Deutschen NationalbibliothekDie Deutsche Nationalbibliothek (DNB) baut derzeit ein neues System zur automatischen Inhaltserschließung auf. Das Erschließungssystem wird modular entwickelt, damit einzelne Funktionen und unterschiedliche Verfahren flexibel kombiniert, ausgetauscht oder ergänzt werden können. Durch die Modularität und die Flexibilität soll eine kontinuierliche Verbesserung der Erschließungsergebnisse und eine bessere Wartbarkeit ermöglicht werden. Als Verfahren für einen produktiven Einsatz wurde erfolgreich Annif evaluiert - ein Open-Source-Werkzeugkasten zur automatischen Klassifizierung und Indexierung, entwickelt an der Finnischen Nationalbibliothek. Im Vortrag werden Ergebnisse der automatischen Vergabe von DDC-Sachgruppen, DDC-Kurznotationen sowie GND-Schlagworten vorgestellt. Desweiteren wird die technische Integration von Annif in den produktiven Workflow veranschaulicht: Von der Textbereitstellung und der Identifizierung der Sprache des Textes, zur Auswahl des geeigneten Annif-Verfahrens bis hin zur Aktualisierung des bibliographischen Datensatzes inkl. der Kennzeichnung der Metadatenherkunft in der Datenauslieferung. |
10:30 Uhr | Osma Suominen • Finnische Nationalbibliothek Annif: current status and upcoming developments
|
11:30 Uhr | Zusammenfassung und Ausblick |