Hintergrund
Aus der Culturegraph-Werkbündelung werden monatlich Konkordanzen pro Verbund für die Übernahme von GND-Personenverknüpfungen zu Tp-Sätzen erstellt. Dies soll dazu dienen, Namenstrings durch Verknüpfungen zu ersetzen. Dafür wird jedes Werkbündel daraufhin überprüft, ob es in einem der Titel einen Namenstring gibt, der in einem anderen Titel des gleichen Clusters mit der GND verknüpft ist. Hierzu werden auch die Verweisungsformen aus dem verknüpften GND-Satz mit herangezogen.
Ist in einem Titel ein Name über einen nicht mehr verwendeten Personennamenssatz (Tn-Satz) verknüpft, wird der dazugehörige Name wie ein Namensstring ohne Verknüpfung behandelt, also auch hierfür kann es einen Tp-Verknüpfungsvorschlag geben.
Werden für einen Namensstring mehrere unterschiedliche GND-IDNs in einem Bündel ermittelt, werden diese in eine Fehlerliste geschrieben und keine der GND-IDNs in der Konkordanz ausgegeben, da die Wahrscheinlichkeit einer Fehlverknüpfung gegeben ist und das Auswertungsprogramm nicht entscheiden kann, welches die korrekte Verknüpfung ist.
Grundlage des Abgleichs sind die Daten, die von den Verbünden täglich an den GVI geliefert werden. Titel, die dem GVI ausschließlich innerhalb von Grundbeständen zur Verfügung gestellt werden, werden u.U. erst verspätet nachgezogen.
Aufbau der Konkordanz
Die Felder der Konkordanz sind jeweils durch Pipes ("|") getrennt. Im Feld 2, 3, 4 und 6 kann es mehrere Angaben geben, die jeweils durch ein Semikolon (";") getrennt sind. Diese Angaben beziehen sich jeweils aufeinander, d.h. die erste Angabe im Feld 2 bezieht sich auf die erste Angabe im Feld 3, 4 und 6, die zweite Angabe im Feld 2 bezieht sich auf die zweite Angabe im Feld 3, 4 und 6 etc. Also beispielsweise für Zeile 3 der Tabelle an Position 1: BT000000105 - 115411305 - Alfter,Dieter - 1949 - 2023-05-16 - 0.
Die Konkordanz besteht aus folgenden Feldern:
| Feld 1 | Feld 2 | Feld 3 | Feld 4 | Feld 5 | Feld 6 |
Titel-IDN | GND-IDN[;GND-IDN;...] | Namenstring[;Namenstring;...] | Geburtsjahr[;Geburtsjahr;...] | Datum der Bündelung | Namenshäufigkeit[;Namenshäufigkeit;...] |
BT000000105 | 115411305;119521091 | Alfter, Dieter;Beisinghoff, Barbara | 1949;1945 | 2023-05-16 | 0;0 |
Beispiel-Felder mit Erläuterungen:
"BT000000105"
Titel-IDN des Verbundes, in dem der/die Name/n durch eine GND-Verknüpfung ersetzt werden können. Für jede Titel-IDN gibt es nur eine Zeile, auch wenn mehrere Namen verknüpft werden können115411305;119521091
GND-IDN; mehrere GND-IDNs für mehrere Namen werden durch ";" getrenntAlfter, Dieter;Beisinghoff, Barbara
Zu verknüpfender Name in der Form, wie sie im Titel genannt sind und in MARC an den GVI geliefert wurden; mehrere zu verknüpfende Namen werden durch ";" getrennt1949;1945
Geburtsjahr der zu verknüpfenden Person; falls nicht vorhanden: "0"; Geburtsjahre für mehrere Personen werden durch ";" getrennt. Das Geburtsjahr kann zur Prüfung genutzt werden, ob die Verknüpfung korrekt ist (falls das Geburtsdatum nach oder nur kurz vor dem Erscheinungsjahr eines Titels liegt, sollte nicht verknüpft werden...)2023-05-16
Datum der Bündelung, die die Grundlage der Auswertung war.- Handelt es sich um einen häufigen Namen? Angaben zu mehreren Namen werden durch ";" getrennt. Diese Angaben können zur Steuerung genutzt werden, da es für häufigere Namen öfter Fehlverknüpfungen gibt als für nicht-häufige. Mögliche Werte:
frq_fullname: Der gesamte Name (Vorname + Nachname) gilt als häufiger Name (Ermittlung durch Auswertung von entsprechenden Listen aus der Wikipedia)frq_surname: Der Familienname kommt öfter als fünf Mal in der GND vor (Stand: 2022)short_surname: Der Familienname hat weniger als fünf Buchstaben0: Der Name gehört zu keiner der oben genannten Gruppen
Bereitstellung
Die Konkordanzen werden regelmäßig bis Mitte des Monats unter https:\\data.dnb.de/culturegraph zur Verfügung gestellt. Die Dateinamen werden in der Form
[ISIL]_tp_[JJJJ-MM]_monthly.koko.csv.gz
gebildet, also "DE-603_tp_2023-06_monthly.koko.csv.gz", "DE-604_tp_2023-06_monthly.koko.csv.gz", etc. Die Konkordanzen gelten jeweils für den Gesamtbestand von Culturegraph, also nicht nur für die Updates seit der letzten Monatsbündelung.