Hintergrund

Aus der Culturegraph-Werkbündelung werden monatlich Konkordanzen pro Verbund für die Übernahme von GND-Personenverknüpfungen zu Tp-Sätzen erstellt. Dies soll dazu dienen, Namenstrings durch Verknüpfungen zu ersetzen. Dafür wird jedes Werkbündel daraufhin überprüft, ob es in einem der Titel einen Namenstring gibt, der in einem anderen Titel des gleichen Clusters mit der GND verknüpft ist. Hierzu werden auch die Verweisungsformen aus dem verknüpften GND-Satz mit herangezogen.

Aufbau der Konkordanz

Die Felder der Konkordanz sind jeweils durch Pipes ("|") getrennt. Im Feld 2, 3, 4 und 6 kann es mehrere Angaben geben, die jeweils durch ein Semikolon (";") getrennt sind. Diese Angaben beziehen sich jeweils aufeinander, d.h. die erste Angabe im Feld 2 bezieht sich auf die erste Angabe im Feld 3,  4 und 6, die zweite Angabe im Feld 2 bezieht sich auf die zweite Angabe im Feld 3, 4 und 6 etc. Also beispielsweise für Zeile 3 der Tabelle an Position 1: BT000000105 - 115411305 - Alfter,Dieter - 1949 - 2023-05-16 - 0.

Die Konkordanz besteht aus folgenden Feldern:

Feld 1Feld 2Feld 3Feld 4Feld 5Feld 6
Titel-IDNGND-IDN[;GND-IDN;...]Namenstring[;Namenstring;...]Geburtsjahr[;Geburtsjahr;...]Datum der BündelungNamenshäufigkeit[;Namenshäufigkeit;...]
BT000000105115411305;119521091Alfter, Dieter;Beisinghoff, Barbara1949;19452023-05-160;0

Beispiel-Felder mit Erläuterungen:

  1. "BT000000105"
    Titel-IDN des Verbundes, in dem der/die Name/n durch eine GND-Verknüpfung ersetzt werden können. Für jede Titel-IDN gibt es nur eine Zeile, auch wenn mehrere Namen verknüpft werden können
  2. 115411305;119521091
    GND-IDN; mehrere GND-IDNs für mehrere Namen werden durch ";" getrennt 
  3. Alfter, Dieter;Beisinghoff, Barbara
    Zu verknüpfender Name in der Form, wie sie im Titel genannt sind und in MARC an den GVI geliefert wurden; mehrere zu verknüpfende Namen werden durch ";" getrennt
  4. 1949;1945
    Geburtsjahr der zu verknüpfenden Person; falls nicht vorhanden: "0"; Geburtsjahre für mehrere Personen werden durch ";" getrennt. Das Geburtsjahr kann zur Prüfung genutzt werden, ob die Verknüpfung korrekt ist (falls das Geburtsdatum nach oder nur kurz vor dem Erscheinungsjahr eines Titels liegt, sollte nicht verknüpft werden...)
  5. 2023-05-16
    Datum der Bündelung, die die Grundlage der Auswertung war.
  6. Handelt es sich um einen häufigen Namen? Angaben zu mehreren Namen werden durch ";" getrennt. Diese Angaben können zur Steuerung genutzt werden, da es für häufigere Namen öfter Fehlverknüpfungen gibt als für nicht-häufige. Mögliche Werte:
    1. frq_fullname: Der gesamte Name (Vorname + Nachname) gilt als häufiger Name (Ermittlung durch Auswertung von entsprechenden Listen aus der Wikipedia)
    2. frq_surname: Der Familienname kommt öfter als fünf Mal in der GND vor (Stand: 2022)
    3. short_surname: Der Familienname hat weniger als fünf Buchstaben
    4. 0: Der Name gehört zu keiner der oben genannten Gruppen

Bereitstellung

Die Konkordanzen werden regelmäßig bis Mitte des Monats unter https:\\data.dnb.de/culturegraph zur Verfügung gestellt. Die Dateinamen werden in der Form

[ISIL]_tp_[JJJJ-MM]_monthly.koko.csv.gz

gebildet, also "DE-603_tp_2023-06_monthly.koko.csv.gz", "DE-604_tp_2023-06_monthly.koko.csv.gz", etc. Die Konkordanzen gelten jeweils für den Gesamtbestand von Culturegraph, also nicht nur für die Updates seit der letzten Monatsbündelung.