Aus der Culturegraph-Werkbündelung werden monatlich Konkordanzen pro Verbund für die Übernahme von GND-Personenverknüpfungen zu Tp-Sätzen erstellt. Dies soll dazu dienen, Namenstrings durch Verknüpfungen zu ersetzen. Dafür wird jedes Werkbündel daraufhin überprüft, ob es in einem der Titel einen Namenstring gibt, der in einem anderen Titel des gleichen Clusters mit der GND verknüpft ist. Hierzu werden auch die Verweisungsformen aus dem verknüpften GND-Satz mit herangezogen.
Die Felder der Konkordanz sind jeweils durch Pipes ("|") getrennt. Im Feld 2, 3, 4 und 6 kann es mehrere Angaben geben, die jeweils durch ein Semikolon (";") getrennt sind. Diese Angaben beziehen sich jeweils aufeinander, d.h. die erste Angabe im Feld 2 bezieht sich auf die erste Angabe im Feld 3, 4 und 6, die zweite Angabe im Feld 2 bezieht sich auf die zweite Angabe im Feld 3, 4 und 6 etc. Also beispielsweise für Zeile 3 der Tabelle an Position 1: BT000000105 - 115411305 - Alfter,Dieter - 1949 - 2023-05-16 - 0.
Die Konkordanz besteht aus folgenden Feldern:
| Feld 1 | Feld 2 | Feld 3 | Feld 4 | Feld 5 | Feld 6 |
Titel-IDN | GND-IDN[;GND-IDN;...] | Namenstring[;Namenstring;...] | Geburtsjahr[;Geburtsjahr;...] | Datum der Bündelung | Namenshäufigkeit[;Namenshäufigkeit;...] |
BT000000105 | 115411305;119521091 | Alfter, Dieter;Beisinghoff, Barbara | 1949;1945 | 2023-05-16 | 0;0 |
"BT000000105"115411305;119521091Alfter, Dieter;Beisinghoff, Barbara1949;19452023-05-16frq_fullname: Der gesamte Name (Vorname + Nachname) gilt als häufiger Name (Ermittlung durch Auswertung von entsprechenden Listen aus der Wikipedia)frq_surname: Der Familienname kommt öfter als fünf Mal in der GND vor (Stand: 2022)short_surname: Der Familienname hat weniger als fünf Buchstaben0: Der Name gehört zu keiner der oben genannten GruppenDie Konkordanzen werden regelmäßig bis Mitte des Monats unter https:\\data.dnb.de/culturegraph zur Verfügung gestellt. Die Dateinamen werden in der Form
[ISIL]_tp_[JJJJ-MM]_monthly.koko.csv.gz
gebildet, also "DE-603_tp_2023-06_monthly.koko.csv.gz", "DE-604_tp_2023-06_monthly.koko.csv.gz", etc. Die Konkordanzen gelten jeweils für den Gesamtbestand von Culturegraph, also nicht nur für die Updates seit der letzten Monatsbündelung.