In der Deutschen Nationalbibliothek wenden wir seit einigen Jahren Verfahren für die automatische Erschließung ausgewählter Publikationstypen an. Im produktiven Einsatz sind lange Prozessketten für die Verarbeitung von Volltexten, digitalisierten Inhaltsverzeichnissen und bibliografischen Metadaten. Dafür existieren eine Reihe von Tools, teils Open Source, teils von kommerziellen Anbietern. Im Workshop möchten wir uns diesem Thema schrittweise nähern, mit dem Ziel, exemplarisch einen Prototypen für die maschinelle Indexierung des Englischen zu bauen. An einem einfachen Beispiel zeigen wir, wie mit Hilfe von Python nltk (Natural Language Toolkit) unstrukturierte Texte so aufbereitet werden können, dass sie sich mit inhaltlich dazu korrespondierenden Entitäten anreichern lassen. Der Workshop besteht aus einem theoretischen und einen praktischen Teil. |