Versionen im Vergleich

Schlüssel

  • Diese Zeile wurde hinzugefügt.
  • Diese Zeile wurde entfernt.
  • Formatierung wurde geändert.
Kommentar: kleine Formatierungsverbesserungen

...

11:30

-

12:00

Begrüßung

Sabine Gehrlein (UB Mannheim, Leitende Bibliotheksdirektorin)

Stefanie Rühle (SUB Göttingen) und Jana Hentschke (DNB), DINI-AG KIM-Sprecherinnen

 

12:00

13:30

Session: Datenvalidierung, Datenbereinigung, Workflowsteuerung

Moderation: Stefanie Rühle (SUB Göttingen)

 

MAPS - Workflow-Tool zur Validierung und Transformation von XML Daten

Karl-Ulrich Becker (SUB Göttingen), Timo Schleier (SUB Göttingen)

Das Tool MAPS wird an der SUB Göttingen (DDB Fachstelle Bibliothek) für die Steuerung und Automatisierung von Validierungs- und Transformationsprozessen im Rahmen von Datenlieferungen an die Deutsche Digitale Bibliothek entwickelt. MAPS besteht aus einem Preprocessing Tool, mit dem Daten gebündelt in eine eXist-XML Datenbank hochgeladen werden und einer eXist Webapp, über die Prozesse gesteuert werden.

Die Anwendung wird über eine Web-GUI bedient und bietet neben einer Validierung mit automatischer PDF-Erzeugung ein Modul, mit welchem XSL-Transformationen aneinandergereiht und auf eine Auswahl von XML Dateien angewendet werden können.

 In dem Vortrag wird der aktuelle Stand der Entwicklung vorgestellt. 


Data Preparation Tool (DPT)

Oliver Götze (Landesarchiv BW)

Das Data Preparation Tool wurde am Landesarchiv Baden-Württemberg (DDB-Fachstelle Archiv) als Werkzeug zur Aufbereitung und Validierung von archivischen Datenlieferungen an die Deutsche Digitale Bibliothek entwickelt. Das Python-basierte Tool ermöglicht die Verarbeitung von XML-Dateien in verschiedenen Formaten sowie die Ausgabe von EAD-Dateien, welche für den Ingest in die Portale verwendet werden können. Spezifische Anpassungen an den Daten können mit relativ geringem Aufwand erstellt, miteinander verknüpft und für verschiedene Datengeber nachgenutzt werden. Daneben können Vorschau-Ansichten der Datensätze im Archivportal-D-Layout erstellt werden, wobei eine repräsentative Testmenge automatisiert ausgewählt wird.

Die Desktopanwendung nutzt das Qt-Framework für die GUI und setzt auf lxml für die performante Prozessierung auch großer XML-Dateien.

Es sollen die Motivation für die Entwicklung eines eigenen Tools, der aktuelle Stand sowie mögliche Perspektiven präsentiert werden.

 

Nightwatch (Arbeitstitel)

Daniel Opitz (SuUB Bremen)

 

 Mittagspause mit Verpflegung

14:30

16:00

Hands-On-Tutorial

Option 1:

Automatisierte Datenverarbeitung mit OpenRefine

Option 2:

Setup Indexierung von Fedora /Datensätzen in Apache Solr mit Apache Camel/Apache Solr

Leitung: Felix Lohmeier (Open Culture Consulting)

Die Software OpenRefine ist bekannt für ihre grafische Oberfläche, die einem Tabellenverarbeitungsprogramm ähnelt. Sie wird oft als Desktop-Software installiert und zur Analyse und Bereinigung von heterogenen Daten eingesetzt (siehe auch Präsentation von Maike Kittelmann auf KIM WS 2016). Weniger bekannt sind die Automatisierungsmöglichkeiten von OpenRefine. Durch die Client-Server-Architektur lässt sich OpenRefine auch auf einem Webserver installieren und über die Kommandozeile steuern. Das hat den Charme, dass Transformationsregeln in der Oberfläche spielerisch erprobt werden können und dann beispielsweise täglich automatisiert auf neue Datenlieferungen angewendet werden können.

Im ersten Teil des Hands-On-Tutorials steuern wir OpenRefine über die Kommandozeile. Dazu verwenden wir einen Client, der als Programm für Windows, MacOS und Linux bereitsteht und ohne weitere Installation ausgeführt werden kann.

Im zweiten Teil des Hands-On-Tutorials schreiben wir auf dem bereitgestellten Webserver beispielhaft kleine Shell-Skripte, um eine vollautomatische Datenverarbeitung zu erproben. Dabei orientieren wir uns an Erfahrungswerten aus dem Projekt Hamburg Open Science Schaufenster.

Zielgruppe: Personen, die gelegentlich mit OpenRefine arbeiten und Automatisierungsmöglichkeiten kennenlernen möchten.

Vorkenntnisse: Vorerfahrungen mit OpenRefine sind hilfreich, aber nicht erforderlich.

Voraussetzungen: Ein Notebook mit Windows, MacOS oder Linux. Es muss keine Software vorab installiert werden, da ein Webserver mit OpenRefine für alle TeilnehmerInnen bereitgestellt wird. Es sind keine Programmierkenntnisse erforderlich, die nötigen Schritte werden einzeln demonstriert.

Leitung: Jaime Penagos (UB LMU), Ralf Claussnitzer (SLUB Dresden), Rainer Gnan (UB LMU)

Im Rahmen dieses Hands-On-Tutorials wird zunächst ein allgemeiner konzeptioneller Überblick bezüglich der im Titel genannten Anwendungen geboten. Im speziellen soll anschließend deren Zusammenspiel vor dem Hintergrund eines einfachen aber dennoch praxisorientierten Anwendungsfalls sowohl theoretisch erläutert, als auch praktisch auf technischer Ebene demonstriert werden. Dieser Workshop möchte Interessierten damit primär die Gelegenheit bieten, sich einen ersten Eindruck über die hier vorgestellten Technologien zu verschaffen und zudem den Einstieg in die Arbeit mit diesem Setup zu erleichtern.

Folgende Agenda erwartet siedie Teilnehmer*innen:

  • Einführung in Fedora (

    UB LMU:

    Jaime Penagos)

    • Fedora GUI
    • Fedora HTTP REST API
    • Fedora Events und Messaging
  • Indexierung mit Apache Solr (

    UB LMU:

    Rainer Gnan)

    • Indexieren
    • Index-Schema und Solr-Konfiguration
    • Sucheinstieg
  • Integration von Fedora und Solr mit Apache Camel (

    SLUB Dresden:

    Ralf Claussnitzer)

    • Konsumieren von Fedora Events

    • Ansteuern der Camel Routen für Ingest, Update, Delete

    • Extrahierung von Informationen aus Dublin Core XML Dokumenten

    • Beschicken von Solr

Zielgruppe: Personen, die mit digitalen Objekten und Archiven in Repositorien arbeiten.

Vorkenntnisse: Unix/Linux, Java

Voraussetzungen:

https://www.vagrantup.com/
https://www.virtualbox.org/
https://github.com/fcrepo4-exts/fcrepo4-vagrant/releases/tag/fcrepo4-vagrant-4.7.5
 

Pause

16:30

-

18:00

Hands-On-Tutorial (Fortsetzung)

Option 1:

Automatisierte Datenverarbeitung mit OpenRefine (Fortsetzung)

Option 2:

Setup Indexierung von Fedora /Datensätzen in Apache Solr mit Apache Camel/Apache Solr (Fortsetzung)

  
 Für Interessierte: Schloss- und/oder Eis-Spaziergang zum Restaurant Ellinn (E3,1, Di, ab 19:00 Uhr, Wegbeschreibung)

...