In der Deutschen Nationalbibliothek wenden wir seit einigen Jahren maschinelle Verfahren für die inhaltliche Erschließung ausgewählter Publikationsgruppen an. Prozessketten zur Verarbeitung von Volltexten, digitalisierten Inhaltsverzeichnissen und bibliografischen Metadaten sind in produktivem Einsatz. Darin eingebunden sind diverse Tools, teils Open Source, teils von kommerziellen Anbietern. Im Workshop möchten wir uns diesem Thema schrittweise und mit dem Ziel nähern, exemplarisch einen Prototypen für die maschinelle Indexierung des Englischen zu bauen. An einem einfachen Beispiel zeigen wir, wie mit Hilfe von Python nltk (Natural Language Toolkit) unstrukturierte Texte so aufbereitet werden können, dass sie sich mit inhaltlich korrespondierenden Entitäten anreichern lassen. Der Workshop besteht aus einem theoretischen und einem praktischem Teil. |