Wann: 

2. und 3. Mai 2022

Wo:

online

Erfahrungsgemäß läuft BigBlueButton auch auf dem Mac reibungsloser mit Firefox oder Chrome. Außerdem hat sich gezeigt, dass es generell weniger technische Probleme gibt, wenn man sich nicht über VPN einwählt.

Veranstalter:

DINI-AG KIMUB Mannheim
Anmeldung:

Die Veranstaltung ist kostenlos. Wenn man nur an einzelnen Programmpunkten teilnehmen kann oder möchte ist das natürlich auch möglich. In jedem Fall bitten wir aber um Anmeldung unter

https://dini.de/veranstaltungen/workshops/kim-workshop-2022/anmeldeformular/

Programmkomitee+
Organisationsteam:

Tracy Arndt (DNB), Alex Jahnke (SUB Göttingen), Jana Hentschke (ZBW Hamburg), Sylvia Hulin (UB Mannheim), Philipp Zumstein (UB Mannheim), Carloni Massimiliano (OEAW), Karl Krägelin (SUB Göttingen)

Twitter: 

Hashtag #kimws22
Kontakt:kim-info@dini.de
Teilnehmende:https://dini.de/veranstaltungen/workshops/kim-workshop-2022/liste-der-teilnehmenden/

Programm

Montag, 2. Mai 2022

09:45 - 10:00

Begrüßung

Tracy Andt (DNB), Alex Jahnke (SUB Göttingen) (DINI-AG KIM AG-Sprecherin und -Sprecher)

10:00 - 10:30

Vortrag

Péter Király (GWDG): Validating JSON, XML and CSV data with SHACL-like constraints

(in englischer Sprache)

Metadata Quality Assessment Framework is a tool aiming to provide building blocks to analyse the quality of metadata records of cultural heritage organisations. It can read JSON, XML or CSV records and runs metrics of general quality dimensions, such as completeness, multilinguality, uniqueness, accuracy. It also provides a SHACL-like vocabulary to create specific validation rules for individual data elements. The tool can be used from the command line, and it can be built into a larger framework, and using it via its API.

The presentation provides an overview of the rule set one can apply for metadata records, and also shows how it is use in practice at the Deutsche Digitale Bibliothek. DDB aggregates data in different metadata schemas (Dublin Core, EDM, LIDO, EAD, METS/MODS). The tool is used to check incoming records, and those records which are transformed for exporting to Europeana. The metadata team sets a uniform set of requirements, and a scoring system to detect issues and qualify individual records.

Folien

10:30 - 11:00

Vortrag

Adrian Pohl und Fabian Steeg (hbz): Datentransformation mit Metafacture – Aktuelle Entwicklungen

Wir berichten von den Metafacture-Entwicklungen der letzten anderthalb Jahre, insbesondere der Entwicklung einer Catmandu-Fix-artigen Transformationssprache für Metafacture

(https://github.com/metafacture/metafacture-fix) und einer Web-basierten Oberfläche zum einfachen Ausprobieren und Teilen von Workflows (https://github.com/metafacture/metafacture-playground).

Folien

11:00 - 11:30Programmpause
11:30 - 13:00

Interaktive Session

Arbeit strukturieren, planen und verteilen - Erfahrungsaustausch zu Werkzeugen

Moderation: Jana Hentschke (ZBW)

In dieser 90-minütigen Session soll in der Runde aller KIM-Workshop-Teilnehmenden ein Good-Practice-Austausch stattfinden zu der Frage "Mit welchen unterstützenden Werkzeugen lassen sich Aufgaben effizient verwalten und Arbeitsabläufe realisieren".

Gegenstand müssen dabei nicht ausschließlich Aufgaben des Arbeitsbereich (Meta-)Datenverarbeitung seinDer Fokus soll aber auf Arbeiten in Teams und auf Routinetätigkeiten liegen - im Gegensatz zu Projekten.

Interessante Werkzeuge können sicherlich auch aus anderen Bereichen kommen, zum Beispiel der Softwareentwicklung oder dem Projektmanagement. Mögliche Beispiele: GitHub Issues, Trello, Jira, Alternativen zu Jira, Wikis, MS Outlook Features ...
Unabhängig von konkreten Werkzeugen kann sich auch der Austausch ergeben, mit welcher Art von Aufgabenvisualisierung welche Erfahrungen gemacht werden -z.B. Kanban Boards, Zeitleisten, grafische Ablaufdiagramme, Todo-Listen ... 

In der Session soll zunächst erhoben werden, welche Werkzeuge die Anwesenden bereits wie einsetzen. Dazu kann von allen Anwesenden spontan mündlich berichtet oder visuell demonstriert werden. Im weitere Verlauf können, ggf. in Break-Out-Räumen, Stärken und Schwächen der einzelnen Lösungen herausgearbeitet und in der Gruppe gegeneinander gehalten werden. Ziel ist die gegenseitige Inspiration für den Arbeitsalltag und eine gemeinsame Vorstellung von der Bandbreite der Möglichkeiten.

Ergebnisse: Gemeinsame erstellte Notizen

13:00 - 14:00Programmpause
14:00 - 15:00

Vortrag

Vom Abzug zum Dashboard. Wie aus Daten Informationen werden

Für die GNDCon 2.0 hat eine Projektgruppe in der Deutschen Nationalbibliothek ein interaktives Dashboard zur statistischen Auswertung der Daten erstellt (siehe [1]). Wir zeigen, wie wir vorgegangen sind, welche Software wir verwendet haben, was wir über unsere Daten gelernt haben und wie wir zukünftig solche Datenanalyse-Projekte angehen würden.

[1] https://share.streamlit.io/deutsche-nationalbibliothek/gnd-dashboard/main/dashboard/gnd-app.py

Teil 1 Nico Wagner (DNB): Datenformate und -aufbereitung

Im ersten Teil wird gezeigt, wie wir aus den Daten im Rohformat (PICA+) die wesentlichen Daten extrahieren und so aufbereiten, dass sie im GND-Dashboard angezeigt werden können. Wir stellen das Tool „pica-rs“ [2] vor, das für die Datenextraktion verwendet wird und illustrieren an ausgewählten Beispielen wie die Datenaufbereitung mit der Programmiersprache Python umgesetzt ist. Abschließend wird das Setup vorgestellt, mit dem wir die Daten im Dashboard monatlich aktualisieren.

[2] https://github.com/deutsche-nationalbibliothek/pica-rs

Teil 2 André Wendler (DNB): Anzeige der Statistiken im Dashboard

Der zweite Teil erläutert, wie die Statistiken mit der Software Streamlit (siehe [3]) zu einem interaktiven, web-basierten Dashboard aufbereitet werden. Dabei wird es auch um den Wissenstransfer zwischen bibliothekarischen Fachleuten und den Data Sciences gehen.

[3] https://streamlit.io/

15:00 - 15:15Programmpause
15:15 - 17:00

Lightning Talks & Open Space


Dienstag, 3. Mai 2022

09:30 - 13:00

(Info) Anmeldung erforderlich

Option 1:

Metadatenanalysen mit Python & Apache Superset

Option 2:

Hacky Morning - OpenAlex


Leitung: Karl-Ulrich Krägelin (SUB Göttingen)

In diesem Hands-On Workshop soll ein Ansatz ausprobiert werden, mit dem sich Metadaten in beliebigen Ausgangsformaten analysieren lassen. Dazu wird es im ersten Teil des Tutorials um die Datenextraktion mit Python gehen und im zweiten Teil werden die extrahierten Daten in eine bereitgestellte Apache Superset Instanz geladen und dort Queries definiert, aus denen sich dann ein Dashboard zur Datenvisualisierung gebaut wird.

Zielgruppe: Personen, die schnelle Einsichten in heterogene (Meta)daten haben wollen, ohne sich auf proprietäre Systeme verlassen zu müssen.

Vorkenntnisse: Interesse an Datenanalyse und -visualiserung, idealerweise Einsteiger-Kenntnisse in Python (Dateien lesen, For-Loops und lxml/pandas)

Voraussetzungen: Es genügt ein Rechner mit Internetzugang und modernem Webbrowser und ein Account bei https://academiccloud.de/home bzw. bei der GWDG, um https://jupyter-cloud.gwdg.de/ (siehe auch https://www.gwdg.de/application-services/jupyter) nutzen zu können.

Die maximale Anzahl an Teilnehmer/inne/n für dieses Tutorial ist leider schon erreicht.

Leitung: Tracy Arndt (DNB)

OpenAlex (https://openalex.org/) aggregiert und standardisiert Daten aus vielen verschiedenen Quellen zu wissenschaftlichen Publikationen inkl. Artikel-Metadaten und stellt diese über eine API frei zur Verfügung.
Wir wollen uns OpenAlex innerhalb von 3 Stunden gemeinsam anschauen und ausprobieren. Nach einem kurzem Impulsvortrag, fangen wir an OpenAlex zu erkunden. Nach dem Motto "alles kann, nix muss”, bieten wir hier Raum, sich innerhalb der vorgegebenen Zeit mit OpenAlex zu beschäftigen, Kontakte mit ebenso Interessierten zu knüpfen oder gemeinsam Ideen oder Abfragen zu entwickeln.

Zeitplan:
09:30 Uhr Start mit Impulsvortrag
09:40 Uhr Gruppenfindung
10:00 Uhr Hacken
12:30 Uhr Zusammenkommen und kurze Auswertung
13:00 Uhr Ende

Zielgruppe: Personen, die Interesse an Daten zu wissenschaftlichen Publikationen inkl. Artikel-Metadaten haben

Vorkenntnisse: keine besonderen Vorkenntnisse erforderlich

Voraussetzungen: Es genügt ein Rechner mit Internetzugang und modernem Webbrowser.



Folien des Impulsvortrags

Gruppennotizen

Gruppe 1 OpenAlex und (bibliographische Daten in) Wikidata

Gruppe 2 Evaluation / Datenqualität

Gruppe 3 Kataloganreicherung

Gruppe 4 Datenbestand entlang Tutorial erkunden

Gruppe 5 Datenabdeckung in OpenAlex

Gruppe 6 Concepts in OpenAlex - Vergleich mit anderen Inhaltserschließungssystemen

13:00 - 14:00Programmpause
14:00 - 14:30

Vortrag

Julia Rössel (Foto Marburg) und Barbara Fichtl (SUB  Göttingen): Auf dem Weg zu Linked Open Data – Verbesserung der Qualität von Forschungsdaten zu Objekten materieller Kultur am Beispiel des LIDO-Standards

Um Forschungsdaten als Linked Open Data (LOD) zur Verfügung stellen zu können und somit verknüpfbar und gut nachnutzbar zu machen, sind bestimmte Anforderungen an die Qualität der Daten zu erfüllen. Im BMBF-geförderten Projekt „KONDA  - Kontinuierliches Qualitätsmanagement von dynamischen Forschungsdaten zu Objekten der materiellen Kultur unter Nutzung des LIDO-Standards“  wurde auf der Basis von Datenanalysen und in enger Zusammenarbeit mit der Cultural-Heritage-Community ein Katalog von gängigen Datenqualitätsproblemen im Kulturerbebereich erstellt. Aktuell wird ein Qualitätsmanagementprozess für strukturierte Forschungsdaten entwickelt, der alle Stationen des Datenlebenszyklus umfasst. Aufbauend auf der inzwischen veröffentlichten neuen LIDO-Version v1.1 und der in den letzten Jahren entwickelten LIDO-Terminologie werden im Projekt zudem domainspezifische LIDO-Profile und -Handbücher z. B. für Malerei und Skulptur sowie für Architektur entwickelt. Im Vortrag werden zum einen das Vorgehen und einige Ergebnisse des KONDA-Projekts vorgestellt, zum anderen wird am Beispiel des LIDO-Standards veranschaulicht, worauf bei der Erzeugung, Verarbeitung und Pflege von Forschungsdaten zu Objekten materieller Kultur zu achten ist, um sie Linked Open Data-fähig zu machen.


14:30 - 15:00

Vortrag

Andreas Lüschow (SUB Göttingen):  Netzwerke in Normdaten - Die Visualisierung impliziter Beziehungen im CERL Thesaurus

Mit rund 1,3 Millionen Einträgen zu Personen und knapp 37.000 erfassten Orten ist der CERL Thesaurus ein zentrales Instrument zur Identifizierung und Beschreibung von Entitäten rund um die Geschichte des Buches. Nicht nur die Verknüpfungen zu anderen Normdateien, auch die zahlreichen Verknüpfungen der Thesaurus-Daten untereinander machen ihn darüber hinaus zu einem umfangreichen Rechercheinstrument. Häufig sind es allerdings nicht die einzelnen Datensätze, sondern die "versteckten" Zusammenhänge, die für unterschiedliche Forschungsfragen von Bedeutung sind. Wie entwickelte sich die Bedeutung eines Ortes im Lauf der Zeit? Zwischen welchen Städten bestand ein Austausch von Wissen? Wo waren die Hotspots bestimmter Berufsgruppen oder Regionen? Der Vortrag beschreibt einen anpassungsfähigen Workflow zur Extraktion und Analyse solcher impliziter Beziehungen und beleuchtet die Mehrwerte einer Netzwerkperspektive auf die Daten am Beispiel des Wissenstransfers zwischen Städten.


15:00 - 15:15

Abschluss

KIM Workshop 2022 - Wrap-Up

Tracy Arndt (DNB) Alex Jahnke (SUB Göttingen)

15:15 - 16:00Öffentliche Sitzung der DIN-AG KIM



Veranstaltungsausblick

Mittwoch, 4. Mai 2022

10:00 - 11:30

14:00-15:30

Treffen der Selbsthilfegruppe Verlagsmetadaten

Öffentlich, alle Interessierten sind herzlich willkommen.



  • Keine Stichwörter