Welche Technologien stehen heute für die semantische Erschließung großer Textmengen zur Verfügung? Fachleute aus Wissenschaft, Wirtschaft und Praxis präsentieren und diskutieren Methoden, Dienste und Anwendungen aus den Bereichen Text Analytics, Machine Learning und Deep Learning.
Alle Hinweis: Beiträge der Referent*innen sind als Präsentationen verfügbar und im folgenden Programm jeweils mit dem Titel verknüpftund weitere Materialien sind an der entsprechenden Stelle des Programms hinterlegt (siehe Verknüpfungen). Die Veröffentlichungen unterliegen der CC BY-SA 3.0-Lizenz.
Berichte über die Tagung sind in o-bib 2020/1 und im Dialog mit Bibliotheken 2020/1 zu finden.
11. November 2020
...
| Thema |
---|
Session_1_____13:00 xxx - xxx
| Begrüßung und Einführung in die Tagung, Person • Institution |
Titel, Person • Institution
|
Titel, Person • Institution
|
Titel, Person • Institution
|
Titel, Person • Institution
|
Session 2xxx - xxx | Titel, Person • Institution
|
Titel, Person • Institution
|
Titel, Person • Institution
|
Titel, Person • Institution |
...
12.
...
November 2020
...
Workshops9:00 - 11:30xxx - xxx
| Begrüßung und Einführung in die Tagung, Person • Institution |
|
@T10 | Einführung in die Programmierung mit Python, Dr. Ramon Leon Voges, Nico Wagner • Deutsche Nationalbibliothek, Leipzig und Frankfurt am Main Titel, Person • Institution
|
Titel, Person • Institution |
Status |
---|
subtle | true |
---|
colour | Yellow |
---|
title | Hands-On Tutorial |
---|
|
@T10 | Python ist eine einfach zu erlernende Programmiersprache, die auch für Anwendungsfälle aus der Computerlinguistik und des maschinellen Lernens Popularität erlangt hat. Einerseits erleichtert die klare Syntax die Lesbarkeit und ermöglicht es, bereits mit wenig Code anspruchsvolle Aufgaben zu lösen. Andererseits ist Python durch die Erweiterbarkeit um viele spezifische Funktionen ein universelles Werkzeug, das für ganz unterschiedliche Zwecke genutzt werden kann.
In diesem Workshop möchten wir eine Einführung in die Programmierung mit Python geben. Nach einer theoretischen Einführung in die Grundlagen der Sprache, entwickeln wir gemeinsam ein Programm, das einen Text entgegennimmt und einfache, quantitative Analysen darauf durchführt. Unser Angebot richtet sich an Teilnehmerinnen und Teilnehmer, die über keine oder nur sehr wenig Programmierkenntnisse verfügen und an den praktischen Grundlagen von Textstatistik und natürlicher Sprachverarbeitung interessiert sind.@T11 | Vom Text zum Inhalt, Matthias Nagelschmidt, Christoph Poley • Deutsche Nationalbibliothek, Leipzig und Frankfurt am Main Status |
---|
subtle | true |
---|
colour | Yellow |
---|
title | Hands-On Tutorial |
---|
|
Titel, Person • Institution
|
|
@T11 | In der Deutschen Nationalbibliothek wenden wir seit einigen Jahren maschinelle Verfahren für die inhaltliche Erschließung ausgewählter Publikationsgruppen an. Prozessketten zur Verarbeitung von Volltexten, digitalisierten Inhaltsverzeichnissen und bibliografischen Metadaten sind in produktivem Einsatz. Darin eingebunden sind diverse Tools, teils Open Source, teils von kommerziellen Anbietern.
Im Workshop möchten wir uns diesem Thema schrittweise und mit dem Ziel nähern, exemplarisch einen Prototypen für die maschinelle Indexierung des Englischen zu bauen. An einem einfachen Beispiel zeigen wir, wie mit Hilfe von Python nltk (Natural Language Toolkit) unstrukturierte Texte so aufbereitet werden können, dass sie sich mit inhaltlich korrespondierenden Entitäten anreichern lassen.
Der Workshop besteht aus einem theoretischen und einem praktischem Teil.
Bitte bringen Sie Ihr eigenes Notebook mit.
Für den Workshop wird eine vorkonfigurierte Arbeitsumgebung in Form einer virtuellen Maschine bereitgestellt, die die benötigte Software enthält. Um die virtuelle Maschine starten und nutzen zu können, wird die Virtualisierungssoftware Oracle Virtual Box (ab Version 6.0) benötigt. Oracle Virtual Box ist kostenlos erhältlich für Windows, Linux oder Mac unter: https://www.oracle.com/de/virtualization/virtualBox. Titel, Person • Institution
|
Session 2xxx - xxx | |
@T12 | Knowledge-Café: Inhaltserschließung im digitalen Zeitalter für die Wissenschaft von heute und morgen, Moderation: Elisabeth Mödden • Deutsche Nationalbibliothek, Leipzig und Frankfurt am Main / Leibniz-Zentrum Wirtschaft (ZBW), Kiel und Hamburg / Staats- und Universitätsbibliothek (SUB), Hamburg Titel, Person • Institution |
@T12 | Moderne Technologien für Text Mining und Information Retrieval sind als Instrumente für eine zeitgemäße inhaltliche Erschließung nicht mehr wegzudenken. Das hat Konsequenzen für den Umgang mit Normdaten, Standards und Regelwerken, die aktuell noch eine starke Prägung durch die bisher etablierten Formen der intellektuellen Erschließung erkennen lassen. Wie können diese Elemente so weiterentwickelt werden, dass sie auch den neuen Gegebenheiten gerecht werden?
Neue Technologien eröffnen zahlreiche Möglichkeiten der Strukturierung und Vernetzung von Daten. Wie können diese zukünftig noch besser genutzt werden? Und was können neue Verfahren zur Aktualisierung und Generierung neuer Daten beitragen?
In diesem Spannungsfeld stellt sich immer wieder die Frage nach der Erschließungsqualität. Welche Kriterien für Qualität lassen sich überhaupt identifizieren, und welche davon sind auch tatsächlich relevant?
Die hier angesprochenen Fragen möchten wir mit Ihnen im Rahmen eines Knowledge Cafés erörtern, das von Experten aus verschiedenen Einrichtungen (u. a. ZBW, DNB und SUB Hamburg) vorbereitet wurde. Den Einstieg hierzu liefert der Vortrag „Maschinelle Erschließungsverfahren versus Volltextsuche“ von Prof. Dr. Christian Wartena. Ziel ist es, ein Forum für diejenigen zu schaffen, die an Entwicklungsfragen im Bereich der inhaltlichen Erschließung und ihrer Automatisierung interessiert sind und sich miteinander vernetzen wollen.
Lightning Talks:
@T13 Werkstattgespräche maschinelle Erschließung, Moderation: Christa Schöning-Walter • Deutsche Nationalbibliothek, Leipzig und Frankfurt am Main / Leibniz-Zentrum Wirtschaft (ZBW), Kiel und Hamburg Titel, Person • Institution |
@T13 | Das Leibniz-Zentrum Wirtschaft (ZBW) und die Deutsche Nationalbibliothek (DNB) beschäftigen sich schon seit einigen Jahren mit dem Einsatz maschineller Verfahren zur inhaltlichen Erschließung von Publikationen. Dabei sind die Bedürfnisse der Zielgruppen und entsprechend auch die Herangehensweisen in den beiden Institutionen recht unterschiedlich.
In Lightning Talks möchten wir über den aktuellen Stand der Verfahren und Prozesse in unseren Institutionen berichten und anschließend mit Ihnen ins Gespräch kommen, Erfahrungen austauschen und neue Ideen diskutieren.
|
Titel, Person • Institution |
Beiträge:
Session 3
12:00 - 13:00@T14 | Ein Skateboard für den Papst - oder Warum es maschinelles Lernen ohne Semantik so schwer hat, Prof. Dr. Harald Sack • FIZ Karlsruhe – Leibniz-Institut für Informationsinfrastruktur, Eggenstein-Leopoldshafen Titel, Person • Institution |
@T14 | Künstliche Intelligenz (KI) durchdringt immer mehr Lebensbereiche und ist schon heute ein wichtiger Faktor für Forschung, wirtschaftliche Entwicklung und Arbeitswelt. Selbst die Bundesregierung hat die Erforschung, Entwicklung und Anwendung von KI als strategisches Ziel erkannt. Doch werden mit jeder neuen Erfolgsmeldung auch immer wieder falsche Erwartungen geweckt, und dies folgt einer langen Tradition. Als KI wird heute meist maschinelles Lernen verstanden, insbesondere Deep Learning, dessen Erfolge in den vergangenen Jahren verantwortlich für die aktuelle Popularität dieses Begriffs sind. Aber oft werden aufgrund einer einzigartigen, auf einen eng fokussierten Anwendungsbereich beschränkten Fähigkeit eines KI Systems unzulässige Verallgemeinerungen über dessen tatsächliche „Intelligenz“ getroffen, die sich aus dem vermeintlich intelligenten Verhalten der Maschine schließen lässt. Im Rahmen dieses Vortrags werfen wir ein kritisches Licht auf aktuelle Entwicklungen aus dem Bereich der KI, auf ihre Möglichkeiten, inhärente Probleme und potenzielle Grenzen. Ein besonderer Aspekt ist dabei die Kombination subsymbolischer maschineller Lernverfahren (Deep Learning) mit symbolischen Wissensrepräsentationen (Semantik) zur Einbeziehung von Kontext, Pragmatik und Erfahrungswissen in den Prozess der automatisierten Klassifikation und Erschließung. |
Resümee und Abschluss, Ulrike Junger • Deutsche Nationalbibliothek, Leipzig und Frankfurt am Main