Seitenhistorie

Der vierte Workshop zum Thema Computerunterstützte Inhaltserschließung – organisiert von der Universitätsbibliothek Stuttgart, der Staatsbibliothek zu Berlin -Preußischer Kulturbesitz und der Eurospider Information Technology AG in Zusammenarbeit mit dem Bibliotheksservicezentrum Baden-Württemberg und der Deutschen Nationalbibliothek – hat am 11. und 12. November als Videokonferenz stattgefunden. Angemeldet waren 230 Teilnehmerinnen und Teilnehmer.

Die Präsentationen stellen wir hier zum Download bereit

Welche Technologien stehen heute für die semantische Erschließung großer Textmengen zur Verfügung? Fachleute aus Wissenschaft, Wirtschaft und Praxis präsentieren und diskutieren Methoden, Dienste und Anwendungen aus den Bereichen Text Analytics, Machine Learning und Deep Learning.

...

. Die Veröffentlichungen unterliegen der CC BY-SA 3.0-Lizenz.

Berichte über die Tagung sind in o-bib 2020/1 und im Dialog mit Bibliotheken 2020/1 zu finden.

10. Oktober 2019

Die Materialien der früheren Workshops finden Sie → hier. Weitere Informationen zum Netzwerk maschinelle Verfahren in der Erschließung finden Sie → hier.

Stand: 20. November 2020

Mittwoch • 11. November 2020

...

Session_113:00 - 15

Thema

_____

Technische Durchführung: Bibliotheksservice-Zentrum Baden-Württemberg

Moderation: Helge Steenweg • Universitätsbibliothek Stuttgart Ι Peter Schäuble •Eurospider Information Technology AG

14:15

Begrüßung und Einführung in die Tagung, Ute Schwens

Frank Scholze • Deutsche Nationalbibliothek, Leipzig und Frankfurt am Main

Toggle Cloak

id	@T1

Können Wissensgraphen die Kommunikation in der Wissenschaft verändern?, Dr. Markus Stocker • Technische Informationsbibliothek (TIB), Hannover

Cloak

id	@T1

Der Open Research Knowledge Graph (ORKG) ist ein Wissensgraph, der im Besonderen wissenschaftliche Information, die in der wissenschaftlichen Literatur veröffentlicht und kommuniziert wird, enthält – und zwar so, dass die Information maschinenlesbar ist. Maschinenlesbarkeit ist der zentrale Aspekt, denn in der Form wie heute wissenschaftliche Information kommuniziert wird – mittels natürlicher Sprache, Daten in Tabellen und Bildern als digitale PDF-Dokumente –, unterstützen uns Maschinen in der Informationssuche und -exploration nur sehr bedingt. Der ORKG setzt sich zum Ziel, mehr wissenschaftliche Information Maschinen besser zugänglich zu machen, und setzt somit neue Möglichkeiten und Maßstäbe für die Wissenschaftskommunikation im 21. Jahrhundert.

Toggle Cloak

id	@T5

Kuratierungstechnologien für die automatische Erschließung: Semantische Verfahren, Peter Bourgonje • Deutsches Forschungszentrum für Künstliche Intelligenz GmbH (DKFI), Projektbüro Berlin

Cloak

id	@T5

Dieser Vortrag gibt einen Überblick über Projekte des Forschungsbereichs “Speech and Language Technology” des DFKI, in denen Werkzeuge, Services und Infrastrukturen für die semantische Verarbeitung von Content entwickelt werden. Wir bezeichnen diese als Kuratierungstechnologien. Diese Plattformen integrieren verschiedene sprachtechnologische Komponenten (Natural Language Processing, NLP) und beschäftigen sich u.a. mit Herausforderungen wie Low-Resource-Settings, Domain-Transfer, Interoperabilität, Workflows und Workflow-Orchestrierung. In den Projekten wurden und werden Prototypen für verschiedene Dimensionen entwickelt, von kleinen und sehr spezifischen historischen Archiven (z.B. Briefwechsel) über neuere Datensammlungen aus dem politischen Bereich hin zur Analyse großer Mengen von Nachrichtenartikeln zur Erkennung von Falschnachrichten. Neben diesen Aktivitäten werden wir auch kurz das European Language Grid vorstellen. Dieses vom DFKI koordinierte EU-Projekt entwickelt derzeit die größte Plattform für Sprachtechnologien in Europa – für Forschung und Industrie und für alle europäischen Sprachen.

--- Vortrag entfällt ---

Toggle Cloak

id	@T6

Digitalisate kuratieren mit KI - von unstrukturierten Daten zu strukturierten Inhalten, Clemens Neudecker • Staatsbibliothek zu Berlin - Preußischer Kulturbesitz, Berlin

Cloak

id	@T6

Der Vortrag bietet einen Überblick über die Forschung und Entwicklung zu KI-basierten Verfahren für die automatisierte Kuratierung des digitalisierten kulturellen Erbes der Staatsbibliothek zu Berlin - Preußischer Kulturbesitz im Rahmen des BMBF-Verbundprojekts QURATOR - Curation Technologies (https://qurator.ai/). Ausgehend von Digitalisaten und Metadaten werden hierfür maschinelle Lernverfahren für die Analyse von Metadaten und Volltexten (OCR) sowie deren Nachkorrektur, für die Layoutanalyse und logische Strukturierung von Dokumenten sowie für die semantische Anreicherung von Volltexten mit Named Entity Recognition erarbeitet. Zu jedem der genannten Arbeitsbereiche werden die Herausforderungen, verwendeten Methoden sowie erste Ergebnisse vorgestellt.

Toggle Cloak

id	@T3

Textanalyse im Kontext der Rundfunkanstalten, Dr. Jens Fisseler und Dr. Joachim Köhler • Fraunhofer-Institut für Intelligente Analyse- und Informationssysteme IAIS, Sankt Augustin

Cloak

id	@T3

Session 2

15:45 - 17:45

Toggle Cloak

id	@T4

Die Vermessung der Welt – Maschinelle Erschließung des deutschsprachigen WWW, Joachim Feist • mindUp Web + Intelligence GmbH , Konstanz

Cloak

id	@T4

In diesem Vortrag wird die Klassifikation von Webseiten mit dem contentDetection-System der mindUp + Intelligence GmbH in Beziehung gesetzt zur Inhaltserschließung im Bibliotheksbereich. Könnten die Lösungsansätze übertragen werden? Welche spannenden Aufgabenstellungen im Bibliotheksbereich könnten mit den Methoden bearbeitet werden?

Toggle Cloak

id	@T7

Patentsuche und -überwachung mit Methoden der Künstlichen Intelligenz in Theorie und Praxis - Teil 1: Maschinelles Lernen für Patentklassifizierung, Dr. Kornél Markó • Averbis GmbH, Freiburg

Cloak

id	@T7

Toggle Cloak

id	@T8

Patentsuche und -überwachung mit Methoden der Künstlichen Intelligenz in Theorie und Praxis - Teil 2: Praxisbericht, Dr. Jochen Spuck • EconSight, Basel

Cloak

id	@T8

Toggle Cloak

id	@T9

Maschinelle Erschließungsverfahren versus Volltextsuche, Prof. Dr. Christian Wartena • Hochschule Hannover

Cloak

id	@T9

Ist die automatische Inhaltserschließung ein krampfhaftes Festhalten an überlebte Verfahren, die man durch eine moderne Technologie zu retten versucht? Sind die alten Argumente für die Inhaltserschließung, wie die der Synonymie und Homonymie in einem Zeitalter, in dem Query Expansion, Relevance Feedback und viele weitere Technologien längst Bestandteil jeder Suchmaschine sind, nicht längst hinfällig? Können die Suchmaschinen nicht alles, was man mit maschinellen Erschließungsverfahren erreichen kann, und gibt es daher keinen Platz für diese Verfahren zwischen der Volltextsuche und der intellektuellen Erschließung?