In der Deutschen Nationalbibliothek wenden wir seit einigen Jahren maschinelle Verfahren für die automatische die inhaltliche Erschließung ausgewählter Publikationstypen Publikationsgruppen an. Im produktiven Einsatz sind lange Prozessketten für die Prozessketten zur Verarbeitung von Volltexten, digitalisierten Inhaltsverzeichnissen und bibliografischen Metadaten . Dafür existieren eine Reihe von sind in produktivem Einsatz. Darin eingebunden sind diverse Tools, teils Open Source, teils von kommerziellen Anbietern. Im Workshop möchten wir uns diesem Thema schrittweise nähern, schrittweise und mit dem Ziel nähern, exemplarisch einen Prototypen für die maschinelle Indexierung des Englischen zu bauen. An einem einfachen Beispiel zeigen wir, wie mit Hilfe von Python nltk (Natural Language Toolkit) unstrukturierte Texte so aufbereitet werden können, dass sie sich mit inhaltlich dazu korrespondierenden Entitäten anreichern lassen. Der Workshop besteht aus einem theoretischen und einen praktischen einem praktischem Teil. |