Versionen im Vergleich

Schlüssel

  • Diese Zeile wurde hinzugefügt.
  • Diese Zeile wurde entfernt.
  • Formatierung wurde geändert.
Panel
bgColor#FEC673

Anker
Infrastruktur
Infrastruktur

Column
width100%

Die technische Infrastruktur

der GND

von GND4C

Kurze Übersicht der Themen und Fragestellungen in einem einführenden Vortrag von Axel Vitzthum,

Leiter IT in der digiCULT Verbund e.G..

Bitte auf das Icon klicken, um die Vortragsfolien zu öffnen.

Column
width15%

 

 



Column
width15%
Panel
bgColor#2A479E
titleColor#EF8340

Fax, Weiße Männchen, 3D Model, Freigestellt, 3D, ModelPräsentation

Panel
borderColor#2A479E
bgColor#CCEBF3
titleColor#EF8340
borderWidth3
titleBGColor#2A479E
borderWidthborderStyle3solid
titleArchitekturskizze GND4C
borderStylesolid

Zum Vergrößern des Bildes bitte anklicken

Column
width25%

Column
width65%

Das Plakat besteht aus zwei Teilen:

  1. Im oberen Bereich wird die grobe technische Architektur von GND4C dargestellt. Die externen Datenbestände der 4 Fallbeispiele (Personen, Geografika, Sachbegriffe, Bauwerke) werden zunächst in den normalisierten Datenspeicher (NDS) importiert. Aus dem NDS werden die Metadaten über ein JSON-API in die Lucene-basierte Solr Suchplattform übernommen. Von hier aus stehen die normalisierten Quelldaten der Werkzeugkiste zur Verfügung.
    Die Werkzeugkiste von GND4C besteht aus mehreren Teilmodulen. Der Matching-Service durchsucht unterschiedliche Quell- und Zieldaten auf übereinstimmende oder ähnliche Zeichenketten. Die im Matching-Service erstellten Matches sind Kandidaten für den Mapping-Prozess. Dabei werden im Mapping-Service semantisch übereinstimmende Begriffe/Entitäten unter Verwendung der Mapping-Properties von SKOS festgelegt.
    Ab Projektphase 2 ist geplant, dass neue GND-relevante Datensätze in die GND eingespielt werden. Bei Übereinstimmungen werden GND-Datensätze mit zusätzlichen Informationen aus den Quelldaten angereichert oder korrigiert.
     
  2. Auf dem unteren Teilplakat wird aus dem Matching-Service über das Solr-API auf die Quelldaten zugegriffen.
    Als Zielvokabular wird während des automatischen Abgleichverfahrens zunächst die GND verwendet. Der Zugriff auf die GND erfolgt über das GND4C RDF-API und das Lobid-API. Beide Dienste beruhen auf den Linked Data-Dumps (GNDO RDF) der GND. Da die RDF-Darstellung der GND nicht die vollständige GND wiedergibt, wird das GND4C RDF-API unter dem Arbeitstitel "GND4C RDF-API+" um weitere Attributsdaten aus dem Marc21-Dienst der GND erweitert.
    Für unterschiedliche Anwendungsfälle werden weitere Normdatendienste benötigt. Z.B. wird nachgelagert auf Wikidata gematcht, wenn es bei den Personen keinen Match in der GND gibt.
Panel
borderStyle
borderColor#2A479E
bgColor#CCEBF3
titleColor#EF8340
borderWidth1
titleBGColor#2A479E
borderWidthborderStyle1solid
titleWeltcafé-Diskussion auf dem GND4C-Forumsolid

Moderation Vitzthum, Axel / Dokumentation Büchner, Michael

Erweitern
titleZum Nachlesen der Diskussion im Weltcafé bitte hier klicken
Column
width100%

siehe "Diskussionspunkte Forum" unten

 

 




Panel
borderColor#2A479E
bgColor#CCEBF3
titleColor#EF8340
borderWidth3
titleBGColor#2A479E
borderWidthborderStyle3solid
titleWorkflow DatenborderStylesolid
Zum Vergrößern des Bildes bitte anklicken

 

Column
width55%

Column
width45%

Auf dem Plakat wird auf der linken Seite der Datenworkflow zwischen Quelldatenlieferung, normalisiertem Datenspeicher (NDS), Matching-Service, Mapping-Service und der Weitergabe von geeigneten Datensätzen an die GND aufskizziert. Rechts davon befinden sich auf dem Plakat einfache Graphendarstellungen am Beispiel von Manoel da Costa Ataíde:
Personendatensatz

  • in den Quelldaten
  • beim konzeptionellen Schemamapping während des Imports in den NDS
  • vereinfachter als vereinfachte Darstellung im NDS
  • in der GND
  • in Wikidata
 


Der Workflow etwas genauer:
Die Quelldatenlieferungen der jeweiligen Fallbeispiele (Personen/Akteure, Sachgruppe, Geografika, Bauwerke) werden in unterschiedlichen Formaten geliefert. Siehe in der Tabelle links unten auf dem Plakat.
Für den Import in den normalisierten Datenspeicher werden die Quelldaten über ein XSL-Transformationsscript auf das Internformat von dem normalisierten Datenspeicher abgebildet und als Version 0 in den NDS importiert. Über einfache Regeln erfolgen teilweise automatische Korrekturen an den Datenlieferungen und die korrigierten Datensätze werden jeweils unter einer eigenen Version abgespeichert. Bevor die Datensätze im Matching-Service gegen Normdaten abgeglichen werden, erfolgt zukünftig ein Konsistenztest. Personendatensätze die z.B. neben dem Namen keine weiteren Merkmale in den Lieferdaten enthalten, werden nicht zum Matching zugelassen oder Zeit-Angaben werden gemäß EDTF (ISO 8601-2) normalisiert. Auf das Matching folgt das Mapping.
Ab Projektphase 2 ist geplant, dass neue GND-relevante Datensätze in die GND eingespielt werden. Bei Übereinstimmungen werden GND-Datensätze mit zusätzlichen Informationen aus den Quelldaten angereichert oder korrigiert.

Panel
borderColor#2A479E
bgColor#CCEBF3
titleColor#EF8340
borderWidth1
titleBGColor#2A479E
borderWidthborderStyle1solid
titleWeltcafé-Diskussion auf dem GND4C-ForumborderStylesolid

Moderation / Dokumentation Richard Müller

Erweitern
titleZum Nachlesen der Diskussion im Weltcafé bitte hier klicken
Column
width30%

Zum Vergrößern des Bildes bitte anklicken

Column
width70%
 siehe auch "Diskussionspunkte Forum" unten
Panel
borderColor#2A479E
bgColor#CCEBF3
titleColor#EF8340
borderWidth3
titleBGColor#2A479E
borderWidthborderStyle3solid
titleVorstellung des ToolsborderStylesolid
Moderation Carsten Resch / Axel Vitzthum

 

Erweitern
titleDiskussion zur Tool-Vorstellung
Column
width100%

siehe "Diskussionspunkte Forum" unten

 





 

 

 
 
Panel
borderColor#2A479E
bgColor#CCEBF3
titleColor#EF8340
borderWidth3
titleBGColor#2A479E
borderWidthborderStyle3solid
titleDiskussionspunkte Forum
borderStylesolid


Erweitern
titleWeltcafé-Diskussion auf dem GND4C-Forum / Diskussionpunkte während der Vorstellung des Tools
Column
width100%

 Einige Diskussionspunkte/Empfehlungen aus den Weltcafés und der Vorstellung des Tools:

  • Mögliche Zusammenarbeit GND/Wikibase-Projekt für die Anreicherung der GND sollte untersucht werden

  • Weitere Entitätstypen für Phase 2: Z.B. Körperschaften und Werke

  • Dublettenproblematik wurde diskutiert. Evt. könnten alle Personendatensätze der GND in den NDS importiert werden und anschließend die GND gegen sich selbst gematcht werden

  • Der Wunsch nach einer zeitnahen Möglichkeit der Lieferung von Quelldaten für Personen wurde geäußert

  • Nicht ausgearbeitete Hierarchien bei den Sachbegriffen in der GND. Führt zu Problemen z.B. auch bei der Verwendung der GND in einer hierarchischen Objekttyp-Facette in Portalen

  • Es wurde der Wunsch nach einer verstärkten Berücksichtigung des AAT bei Sachbegriffen während des Matchings geäußert

  • Eine mögliche Zusammenarbeit beim Importmapping der Quelldaten in den NDS mit existierenden Projekten (z.B. Mint, DARIAH) wurde andiskutiert

  • Die Vokabulare der Landesvermessungsämter sollten als mögliche Zielvokabulare untersucht werden