Sie zeigen eine alte Version dieser Seite an. Zeigen Sie die aktuelle Version an.

Unterschiede anzeigen Seitenhistorie anzeigen

« Vorherige Version anzeigen Version 26 Nächste Version anzeigen »


Wann: 

2. und 3. Mai 2022

Wo:

online (https://bbb.bib.uni-mannheim.de/b/jan-9cn-gde)

Veranstalter:

DINI-AG KIMUB Mannheim
Anmeldung:

https://dini.de/veranstaltungen/workshops/kim-workshop-2022/anmeldeformular/

Programmkomitee+
Organisationsteam:

Tracy Arndt (DNB), Alex Jahnke (SUB Göttingen), Jana Hentschke (ZBW Hamburg), Sylvia Hulin (UB Mannheim), Philipp Zumstein (UB Mannheim), Carloni Massimiliano (OEAW), Karl Krägelin (SUB Göttingen)

Twitter: 

Hashtag #kimws22
Kontakt:kim-info@dini.de

Programm

Montag, 2. Mai 2022

09:45 - 10:00

Begrüßung

Tracy Andt (DNB), Alex Jahnke (SUB Göttingen) (DINI-AG KIM AG-Sprecherin und -Sprecher)

10:00 - 10:30

Vortrag

Péter Király (GWDG): Validating JSON, XML and CSV data with SHACL-like constraints

(in englischer Sprache)

Metadata Quality Assessment Framework is a tool aiming to provide building blocks to analyse the quality of metadata records of cultural heritage organisations. It can read JSON, XML or CSV records and runs metrics of general quality dimensions, such as completeness, multilinguality, uniqueness, accuracy. It also provides a SHACL-like vocabulary to create specific validation rules for individual data elements. The tool can be used from the command line, and it can be built into a larger framework, and using it via its API.

The presentation provides an overview of the rule set one can apply for metadata records, and also shows how it is use in practice at the Deutsche Digitale Bibliothek. DDB aggregates data in different metadata schemas (Dublin Core, EDM, LIDO, EAD, METS/MODS). The tool is used to check incoming records, and those records which are transformed for exporting to Europeana. The metadata team sets a uniform set of requirements, and a scoring system to detect issues and qualify individual records.


10:30 - 11:00

Vortrag

Adrian Pohl und Fabian Steeg (hbz): Datentransformation mit Metafacture – Aktuelle Entwicklungen

Wir berichten von den Metafacture-Entwicklungen der letzten anderthalb Jahre, insbesondere der Entwicklung einer Catmandu-Fix-artigen Transformationssprache für Metafacture

(https://github.com/metafacture/metafacture-fix) und einer Web-basierten Oberfläche zum einfachen Ausprobieren und Teilen von Workflows (https://github.com/metafacture/metafacture-playground).


11:00 - 11:30Programmpause
11:30 - 13:00

Interaktive Session

Arbeit strukturieren, planen und verteilen - Erfahrungsaustausch zu Werkzeugen

Moderation: Jana Hentschke (ZBW)

Abstract

13:00 - 14:00Programmpause
14:00 - 15:00

Vortrag

Vom Abzug zum Dashboard. Wie aus Daten Informationen werden

Für die GNDCon 2.0 hat eine Projektgruppe in der Deutschen Nationalbibliothek ein interaktives Dashboard zur statistischen Auswertung der Daten erstellt (siehe [1]). Wir zeigen, wie wir vorgegangen sind, welche Software wir verwendet haben, was wir über unsere Daten gelernt haben und wie wir zukünftig solche Datenanalyse-Projekte angehen würden.

[1] https://share.streamlit.io/deutsche-nationalbibliothek/gnd-dashboard/main/dashboard/gnd-app.py

Teil 1 Nico Wagner (DNB): Datenformate und -aufbereitung

Im ersten Teil wird gezeigt, wie wir aus den Daten im Rohformat (PICA+) die wesentlichen Daten extrahieren und so aufbereiten, dass sie im GND-Dashboard angezeigt werden können. Wir stellen das Tool „pica-rs“ [2] vor, das für die Datenextraktion verwendet wird und illustrieren an ausgewählten Beispielen wie die Datenaufbereitung mit der Programmiersprache Python umgesetzt ist. Abschließend wird das Setup vorgestellt, mit dem wir die Daten im Dashboard monatlich aktualisieren.

[2] https://github.com/deutsche-nationalbibliothek/pica-rs

Teil 2 André Wendler (DNB): Anzeige der Statistiken im Dashboard

Der zweite Teil erläutert, wie die Statistiken mit der Software Streamlit (siehe [3]) zu einem interaktiven, web-basierten Dashboard aufbereitet werden. Dabei wird es auch um den Wissenstransfer zwischen bibliothekarischen Fachleuten und den Data Sciences gehen.

[3] https://streamlit.io/

15:00 - 15:15Programmpause
15:15 - 17:00

Lightning Talks & Open Space


Dienstag, 3. Mai 2022

09:30 - 13:00

(Info) Anmeldung erforderlich

Option 1:

Metadatenanalysen mit Python & Apache Superset

Option 2:

Hacky Morning - OpenAlex


Leitung: Karl-Ulrich Krägelin (SUB Göttingen)

In diesem Hands-On Workshop soll ein Ansatz ausprobiert werden, mit dem sich Metadaten in beliebigen Ausgangsformaten analysieren lassen. Dazu wird es im ersten Teil des Tutorials um die Datenextraktion mit Python gehen und im zweiten Teil werden die extrahierten Daten in eine bereitgestellte Apache Superset Instanz geladen und dort Queries definiert, aus denen sich dann ein Dashboard zur Datenvisualisierung gebaut wird.

Zielgruppe: Personen, die schnelle Einsichten in heterogene (Meta)daten haben wollen, ohne sich auf proprietäre Systeme verlassen zu müssen.

Vorkenntnisse: Interesse an Datenanalyse und -visualiserung, idealerweise Einsteiger-Kenntnisse in Python (Dateien lesen, For-Loops und lxml/pandas)

Voraussetzungen: Es genügt ein Rechner mit Internetzugang und modernem Webbrowser und ein Account bei https://academiccloud.de/home bzw. bei der GWDG, um https://jupyter-cloud.gwdg.de/ (siehe auch https://www.gwdg.de/application-services/jupyter) nutzen zu können.

Die Anzahl der möglichen Teilnehmer/innen ist begrenzt, daher ist eine separate Anmeldung für dieses Tutorial nötig.

Leitung: Tracy Arndt (DNB)

OpenAlex (https://openalex.org/) aggregiert und standardisiert Daten aus vielen verschiedenen Quellen zu wissenschaftlichen Publikationen inkl. Artikel-Metadaten und stellt diese über eine API frei zur Verfügung.
Wir wollen uns OpenAlex innerhalb von 3 Stunden gemeinsam anschauen und ausprobieren. Nach einem kurzem Impulsvortrag, fangen wir an OpenAlex zu erkunden. Nach dem “Motto alles kann, nix muss”, bieten wir hier Raum, sich innerhalb der vorgegebnen Zeit mit OpenAlex zu beschäftigen, Kontakte mit ebenso Interessierten zu knüpfen oder gemeinsam Ideen oder Abfragen zu entwickeln.

Zeitplan:
09:30 Uhr Start mit Impulsvortrag
09:40 Uhr Gruppenfindung
10:00 Uhr Hacken
12:30 Uhr Zusammenkommen und kurze Auswertung
13:00 Uhr Ende

Zielgruppe: Personen, die Interesse an Daten zu wissenschaftlichen Publikationen inkl. Artikel-Metadaten haben

Vorkenntnisse: keine besonderen Vorkenntnisse erforderlich

Voraussetzungen: Es genügt ein Rechner mit Internetzugang und modernem Webbrowser.



13:00 - 14:00Programmpause
14:00 - 14:30

Vortrag

Julia Rössel (Foto Marburg) und Barbara Fichtl (SUB  Göttingen): Auf dem Weg zu Linked Open Data – Verbesserung der Qualität von Forschungsdaten zu Objekten materieller Kultur am Beispiel des LIDO-Standards

Um Forschungsdaten als Linked Open Data (LOD) zur Verfügung stellen zu können und somit verknüpfbar und gut nachnutzbar zu machen, sind bestimmte Anforderungen an die Qualität der Daten zu erfüllen. Im BMBF-geförderten Projekt „KONDA  - Kontinuierliches Qualitätsmanagement von dynamischen Forschungsdaten zu Objekten der materiellen Kultur unter Nutzung des LIDO-Standards“  wurde auf der Basis von Datenanalysen und in enger Zusammenarbeit mit der Cultural-Heritage-Community ein Katalog von gängigen Datenqualitätsproblemen im Kulturerbebereich erstellt. Aktuell wird ein Qualitätsmanagementprozess für strukturierte Forschungsdaten entwickelt, der alle Stationen des Datenlebenszyklus umfasst. Aufbauend auf der inzwischen veröffentlichten neuen LIDO-Version v1.1 und der in den letzten Jahren entwickelten LIDO-Terminologie werden im Projekt zudem domainspezifische LIDO-Profile und -Handbücher z. B. für Malerei und Skulptur sowie für Architektur entwickelt. Im Vortrag werden zum einen das Vorgehen und einige Ergebnisse des KONDA-Projekts vorgestellt, zum anderen wird am Beispiel des LIDO-Standards veranschaulicht, worauf bei der Erzeugung, Verarbeitung und Pflege von Forschungsdaten zu Objekten materieller Kultur zu achten ist, um sie Linked Open Data-fähig zu machen.


14:30 - 15:00

Vortrag

Andreas Lüschow (SUB Göttingen):  Netzwerke in Normdaten - Die Visualisierung impliziter Beziehungen im CERL Thesaurus

Mit rund 1,3 Millionen Einträgen zu Personen und knapp 37.000 erfassten Orten ist der CERL Thesaurus ein zentrales Instrument zur Identifizierung und Beschreibung von Entitäten rund um die Geschichte des Buches. Nicht nur die Verknüpfungen zu anderen Normdateien, auch die zahlreichen Verknüpfungen der Thesaurus-Daten untereinander machen ihn darüber hinaus zu einem umfangreichen Rechercheinstrument. Häufig sind es allerdings nicht die einzelnen Datensätze, sondern die "versteckten" Zusammenhänge, die für unterschiedliche Forschungsfragen von Bedeutung sind. Wie entwickelte sich die Bedeutung eines Ortes im Lauf der Zeit? Zwischen welchen Städten bestand ein Austausch von Wissen? Wo waren die Hotspots bestimmter Berufsgruppen oder Regionen? Der Vortrag beschreibt einen anpassungsfähigen Workflow zur Extraktion und Analyse solcher impliziter Beziehungen und beleuchtet die Mehrwerte einer Netzwerkperspektive auf die Daten am Beispiel des Wissenstransfers zwischen Städten.


15:00 - 15:15

Abschluss

KIM Workshop 2022 - Wrap-Up

Tracy Arndt (DNB) Alex Jahnke (SUB Göttingen)

15:15 - 16:00Öffentliche Sitzung der DIN-AG KIM




  • Keine Stichwörter