Welche Technologien stehen heute für die semantische Erschließung großer Textmengen zur Verfügung? Fachleute aus Wissenschaft, Wirtschaft und Praxis präsentieren und diskutieren Methoden, Dienste und Anwendungen aus den Bereichen Text Analytics, Machine Learning und Deep Learning.
10. Oktober 2019
| Thema |
---|
Session 1 13:00 - 15:15 | Begrüßung und Einführung in die Tagung • Deutsche Nationalbibliothek, Leipzig und Frankfurt am Main |
Können Wissensgraphen die Kommunikation in der Wissenschaft verändern?, Dr. Markus Stocker • Technische Informationsbibliothek (TIB), Hannover Der Open Research Knowledge Graph (ORKG) ist ein Wissensgraph, der im Besonderen wissenschaftliche Information, die in der wissenschaftlichen Literatur veröffentlicht und kommuniziert wird, enthält – und zwar so, dass die Information maschinenlesbar ist. Maschinenlesbarkeit ist der zentrale Aspekt, denn in der Form wie heute wissenschaftliche Information kommuniziert wird – mittels natürlicher Sprache, Daten in Tabellen und Bildern als digitale PDF-Dokumente –, unterstützen uns Maschinen in der Informationssuche und -exploration nur sehr bedingt. Der ORKG setzt sich zum Ziel, mehr wissenschaftliche Information Maschinen besser zugänglich zu machen, und setzt somit neue Möglichkeiten und Maßstäbe für die Wissenschaftskommunikation im 21. Jahrhundert. |
Kuratierungstechnologien für die automatische Erschließung: Semantische Verfahren, Peter Bourgonje • Deutsches Forschungszentrum für Künstliche Intelligenz GmbH (DKFI), Projektbüro Berlin Dieser Vortrag gibt einen Überblick über Projekte des Forschungsbereichs “Speech and Language Technology” des DFKI, in denen Werkzeuge, Services und Infrastrukturen für die semantische Verarbeitung von Content entwickelt werden. Wir bezeichnen diese als Kuratierungstechnologien. Diese Plattformen integrieren verschiedene sprachtechnologische Komponenten (Natural Language Processing, NLP) und beschäftigen sich u.a. mit Herausforderungen wie Low-Resource-Settings, Domain-Transfer, Interoperabilität, Workflows und Workflow-Orchestrierung. In den Projekten wurden und werden Prototypen für verschiedene Dimensionen entwickelt, von kleinen und sehr spezifischen historischen Archiven (z.B. Briefwechsel) über neuere Datensammlungen aus dem politischen Bereich hin zur Analyse großer Mengen von Nachrichtenartikeln zur Erkennung von Falschnachrichten. Neben diesen Aktivitäten werden wir auch kurz das European Language Grid vorstellen. Dieses vom DFKI koordinierte EU-Projekt entwickelt derzeit die größte Plattform für Sprachtechnologien in Europa – für Forschung und Industrie und für alle europäischen Sprachen. |
Digitalisate kuratieren mit KI - von unstrukturierten Daten zu strukturierten Inhalten, Clemens Neudecker • Staatsbibliothek zu Berlin - Preußischer Kulturbesitz, Berlin |
Textanalyse im Kontext der Rundfunkanstalten, Dr.-Ing. Joachim Köhler • Fraunhofer-Institut für Intelligente Analyse- und Informationssysteme IAIS, Sankt Augustin |
Pause15:15 - 15:45 |
Session 215:45 - 17:45 | Die Vermessung der Welt – Maschinelle Erschließung des deutschsprachigen WWW, Joachim Feist • mindUp Web + Intelligence GmbH , Konstanz In diesem Vortrag wird die Klassifikation von Webseiten mit dem contentDetection-System der mindUp + Intelligence GmbH in Beziehung gesetzt zur Inhaltserschließung im Bibliotheksbereich. Könnten die Lösungsansätze übertragen werden? Welche spannenden Aufgabenstellungen im Bibliotheksbereich könnten mit den Methoden bearbeitet werden? |
Patentsuche und -überwachung mit Methoden der Künstlichen Intelligenz in Theorie und Praxis - Teil 1: Maschinelles Lernen für Patentklassifizierung, Dr. Kornél Markó • Averbis GmbH, Freiburg |
Patentsuche und -überwachung mit Methoden der Künstlichen Intelligenz in Theorie und Praxis - Teil 2: Praxisbericht, Dr. Jochen Spuck • EconSight, Basel |
Maschinelle Erschließungsverfahren versus Volltextsuche, Prof. Dr. Christian Wartena • Hochschule Hannover Ist die automatische Inhaltserschließung ein krampfhaftes Festhalten an überlebte Verfahren, die man durch eine moderne Technologie zu retten versucht? Sind die alten Argumente für die Inhaltserschließung, wie die der Synonymie und Homonymie in einem Zeitalter, in dem Query Expansion, Relevance Feedback und viele weitere Technologien längst Bestandteil jeder Suchmaschine sind, nicht längst hinfällig? Können die Suchmaschinen nicht alles, was man mit maschinellen Erschließungsverfahren erreichen kann, und gibt es daher keinen Platz für diese Verfahren zwischen der Volltextsuche und der intellektuellen Erschließung? |
Abendessenab 19:15 | Abendessen auf Selbstzahlerbasis im Restaurant der Deutschen Nationalbibliothek
|
11. Oktober 2019
| Thema |
---|
Parallele Angebote9:00 - 11:30 | Einführung in die Programmierung mit Python, Dr. Ramon Leon Voges, Nico Wagner • Deutsche Nationalbibliothek, Leipzig und Frankfurt am Main HANDS-ON TUTORIAL Anzahl der Plätze: 15 Python ist eine einfach zu erlernende Programmiersprache, die auch für Anwendungsfälle aus der Computerlinguistik und des maschinellen Lernens Popularität erlangt hat. Einerseits erleichtert die klare Syntax die Lesbarkeit und ermöglicht es, bereits mit wenig Code anspruchsvolle Aufgaben zu lösen. Andererseits ist Python durch die Erweiterbarkeit um viele spezifische Funktionen ein universelles Werkzeug, das für ganz unterschiedliche Zwecke genutzt werden kann. In diesem Workshop möchten wir eine Einführung in die Programmierung mit Python geben. Nach einer theoretischen Einführung in die Grundlagen der Sprache, entwickeln wir gemeinsam ein Programm, das einen Text entgegennimmt und einfache, quantitative Analysen darauf durchführt. Unser Angebot richtet sich an Teilnehmerinnen und Teilnehmer, die über keine oder nur sehr wenig Programmierkenntnisse verfügen und an den praktischen Grundlagen von Textstatistik und natürlicher Sprachverarbeitung interessiert sind. |
Vom Text zum Inhalt, Matthias Nagelschmidt, Christoph Poley • Deutsche Nationalbibliothek, Leipzig und Frankfurt am Main HANDS-ON TUTORIAL Anzahl der Plätze: 15 In der Deutschen Nationalbibliothek wenden wir seit einigen Jahren maschinelle Verfahren für die inhaltliche Erschließung ausgewählter Publikationsgruppen an. Prozessketten zur Verarbeitung von Volltexten, digitalisierten Inhaltsverzeichnissen und bibliografischen Metadaten sind in produktivem Einsatz. Darin eingebunden sind diverse Tools, teils Open Source, teils von kommerziellen Anbietern. Im Workshop möchten wir uns diesem Thema schrittweise und mit dem Ziel nähern, exemplarisch einen Prototypen für die maschinelle Indexierung des Englischen zu bauen. An einem einfachen Beispiel zeigen wir, wie mit Hilfe von Python nltk (Natural Language Toolkit) unstrukturierte Texte so aufbereitet werden können, dass sie sich mit inhaltlich korrespondierenden Entitäten anreichern lassen. Der Workshop besteht aus einem theoretischen und einem praktischem Teil. Bitte bringen Sie Ihr eigenes Notebook mit. Für den Workshop wird eine vorkonfigurierte Arbeitsumgebung in Form einer virtuellen Maschine bereitgestellt, die die benötigte Software enthält. Um die virtuelle Maschine starten und nutzen zu können, wird die Virtualisierungssoftware Oracle Virtual Box (ab Version 6.0) benötigt. Oracle Virtual Box ist kostenlos erhältlich für Windows, Linux oder Mac unter: https://www.oracle.com/de/virtualization/virtualBox. |
Knowledge-Café: Inhaltserschließung im digitalen Zeitalter für die Wissenschaft von heute und morgen, Elisabeth Mödden • Deutsche Nationalbibliothek, Leipzig und Frankfurt am Main Anzahl der Plätze: 36 |
Werkstattgespräche maschinelle Erschließung, Moderation: NN • Leibniz-Zentrum Wirtschaft (ZBW), Kiel und Hamburg / Deutsche Nationalbibliothek, Leipzig und Frankfurt am Main Anzahl der Plätze: 20 Das Leibniz-Zentrum Wirtschaft (ZBW) und die Deutsche Nationalbibliothek (DNB) beschäftigen sich schon seit einigen Jahren mit dem Einsatz maschineller Verfahren zur inhaltlichen Erschließung von Publikationen. Dabei sind die Bedürfnisse der Zielgruppen und entsprechend auch die Herangehensweisen in den beiden Institutionen recht unterschiedlich. In Lightning Talks möchten wir über den aktuellen Stand der Verfahren und Prozesse in unseren Institutionen berichten und anschließend mit Ihnen ins Gespräch kommen, Erfahrungen austauschen und neue Ideen diskutieren. Gerne können auch Sie eigene Vorhaben vorstellen. |
Pause11:30 - 12:00 |
Session 312:00 - 13:00 | TBD, Prof. Dr. Harald Sack • FIZ Karlsruhe |
Abschluss • Deutsche Nationalbibliothek, Leipzig und Frankfurt am Main |