Datum des CBS-Abzugs: 2025-04-01
Dieser Bericht wurde automatisiert mit R Markdown erstellt. Der pica-rs-Code für die Abfrage aller Tc-Sätze und der R-Code für die Berechnung der Ausgabetabelle können durch Aufklappen der Codeblöcke eingesehen werden.
Von allen Datensätzen mit 002@.0 == 'Tc'
ohne 050C.a =^ 'GND-kein-Schlagwort'
werden die Unterfelder $2
und $4
der PICA+-Felder 022P, 028P, 029P, 030P, 041P und 065P ausgelesen und die IDN-Anzahlen für alle Kombinationen der Werte {‘agrovoc’, ‘lcsh’, ‘ram’, ‘mesh’, ‘stw’, ‘thesoz’, ‘embne’, ‘nsbncf’, ‘tpro’, ‘etiras’} in $2
und {‘ftaa’, ‘ftae’, ‘ftai’, ‘ftao’, ‘ftau’, ‘ftob’, ‘ftub’, ‘ftvb’, ‘ftnu’} in $4
berechnet.
Eine äquivalente Abfrage in der WinIBW für den ersten Rückgabewert lautete f bbg tc crt agrovoc-ftaa NOT rdb GND-kein-Schlagwort*
.
#!/bin/bash
set -euo pipefail
# set -x
# Datenformat GND - Crosskonkordanzen zu externen Vokabularen/Thesauri:
# https://wiki.dnb.de/x/lgy6Dw
dnb_dump=/srv/aen-data/pica/T.dat
# Tc-Sätze "f bbg Tc NOT rdb GND-kein-Schlagwort*"
pica filter -s "002@.0 == 'Tc'" --not "050C.a =^ 'GND-kein-Schlagwort'" $dnb_dump -o Tc.dat
# 028P (700) - "p" - Person
# 029P (710) - "b" - Körperschaft
# 030P (711) - "f" - Konferenz
# 022P (730) - "u" - Einheitstitel
# 041P (750) - "s" - Sachbegriff
# 065P (751) - "g" - Geografikum
pica select -H "IDN, Feld, Thesaurus, Relation" "003@.0, '028P', 028P{2, 4}" \
--where "028P.4?" Tc.dat -o Tc.csv
# ohne Header anhängen
pica select "003@.0, '029P', 029P{2, 4}" --where "029P.4?" Tc.dat --append -o Tc.csv
pica select "003@.0, '030P', 030P{2, 4}" --where "030P.4?" Tc.dat --append -o Tc.csv
pica select "003@.0, '022P', 022P{2, 4}" --where "022P.4?" Tc.dat --append -o Tc.csv
pica select "003@.0, '041P', 041P{2, 4}" --where "041P.4?" Tc.dat --append -o Tc.csv
pica select "003@.0, '065P', 065P{2, 4}" --where "065P.4?" Tc.dat --append -o Tc.csv
Anzahl der Tc-Sätze gruppiert nach Thesaurus und Relation:
# Crosskonkordanzen einlesen
ck <- read_csv('Tc.csv', col_types = 'cccc')
# Wertebereiche gemäß Wiki-Seiten definieren
thesauri <- read_csv('Thesauri.csv', col_types = 'cc')
relationen <- read_csv('Relationen.csv', col_types = 'cc')
# Crosskonkordanzen filtern und zählen
rslt <- ck %>%
filter(Thesaurus %in% thesauri$Code & Relation %in% relationen$Code) %>%
mutate(
Thesaurus = factor(Thesaurus,
levels = thesauri$Code, labels = thesauri$Thesaurus),
Relation = factor(Relation,
levels = relationen$Code, labels = relationen$Relation)
) %>%
# GESAMT als Summe über alle Relationen
rbind((.) %>% mutate(Relation = factor('GESAMT'))) %>%
# auch alle leeren Levels jeweils mit Anzahl 0 anzeigen
group_by(Thesaurus, Relation, .drop = FALSE) %>%
# jede Kombination (Thesaurus, Relation) je IDN nur einmal zählen
summarise(n = n_distinct(IDN)) %>%
pivot_wider(id_cols = Relation, names_from = Thesaurus, values_from = n)
# Formatierte Ausgabetabelle
rslt %>%
mutate_at(.vars = setdiff(colnames(.), 'Relation'), .funs = ~ formatC(
., format = 'd', big.mark = '.', decimal.mark = ',')) %>%
knitr::kable(align = c('l', rep('r', ncol(.)-1)))
Äquivalenz (ftaa) |
90 |
48.153 |
46.708 |
56 |
0 |
102 |
13.040 |
8.616 |
2 |
669 |
exakte Äquivalenz (ftae) |
5.490 |
1.148 |
764 |
6.344 |
5.834 |
7.336 |
17 |
22 |
36 |
3.512 |
inexakte Äquivalenz (ftai) |
5 |
683 |
705 |
388 |
0 |
197 |
550 |
4 |
29 |
2.365 |
ODER-Äquivalenz (ftao) |
4 |
140 |
64 |
65 |
0 |
0 |
6 |
0 |
8 |
1.411 |
UND-Äquivalenz (ftau) |
1.293 |
2.315 |
4.668 |
118 |
416 |
1.616 |
1 |
0 |
0 |
0 |
Oberbegriff-Relation (ftob) |
2.127 |
0 |
0 |
55 |
7.922 |
2.934 |
0 |
0 |
0 |
0 |
Unterbegriff-Relation (ftub) |
183 |
0 |
0 |
12 |
381 |
393 |
0 |
0 |
0 |
0 |
Verwandter-Begriff-Relation (ftvb) |
769 |
0 |
0 |
11 |
3.773 |
929 |
0 |
0 |
0 |
0 |
Null-Relation (ftnu) |
168 |
18.903 |
20.723 |
0 |
502 |
897 |
2 |
1 |
0 |
0 |
GESAMT |
10.129 |
71.342 |
73.632 |
7.049 |
18.828 |
14.404 |
13.616 |
8.643 |
75 |
7.957 |