Versionen im Vergleich

Schlüssel

  • Diese Zeile wurde hinzugefügt.
  • Diese Zeile wurde entfernt.
  • Formatierung wurde geändert.
Kommentar: minor change

Text von Moritz Strickert (UB HU Berlin) in einer von Barbara Fischer (DNB AfS) überarbeiteten Fassung, CC BY SA

DNB Netzpublikation: https://d-nb.info/1325174785

Section


Column
width5%

Sprungmarken

Inhalt
maxLevel1


Column
width25%
Was vermittelt dieser Text?
Hier wird erklärt, wie man mittels der Verwendung von Normdaten seine Suchergebnisse nach Literatur und Daten verbessern kann. Dazu wird detailliert erläutert, was Normdaten sind und welche Funktion sie bei der Beschreibung von Objekten wie Publikationen, Forschungsdaten oder Sammlungsgut haben. Im Fokus stehen dabei die Normdaten der Gemeinsamen Normdatei (GND), das zentrale kontrollierte Vokabular für Kultur und Forschung im deutschsprachigen Raum. Im Text werden dann verschiedene Anwendungen vorgestellt, mit denen man in der GND passende Suchbegriffe beispielsweise für die Suche nach geeigneter Literatur zum eigenen Thema findet. Zugleich erfährt man, wie man seine eigenen Texte und Daten durch die Verwendung von Normdaten für Dritte leichter auffindbar und damit sichtbarer machen kann.


Column
width60%


Vom Suchen und Finden im Netz Credit: Digital Transformation by Dominic Smith via Flickr CC BY



In der Forschung und im wissenschaftlichen Publikationswesen gewinnt die Nutzung von Datenbanken und digitalen Informationen aus verschiedenen Quellen zunehmend an Bedeutung. Neben digitalen Bibliothekskatalogen, digitalen Findbüchern in Archiven oder Objektdatenbanken von Museen stellen inzwischen auch Forschungsdatenrepositorien oder digitale Plattformen, etwa die Deutsche Digitale Bibliothek (DDB) und Europeana, umfangreiche Informationen mit unterschiedlichen inhaltlichen Ausrichtungen und thematischen Zuschnitten zur Verfügung. Gleichzeitig publizieren Forschende ihre gewonnenen Daten, damit andere sie für deren Fragestellungen nachnutzen können. Die Sicherstellung der digitalen Auffindbarkeit von Ressourcen und die qualifizierte Recherche in solchen Datensammlungen werden dadurch wichtiger. Zwei bedeutsame Qualitätskriterien sollte eine Suche in Datenbanken erfüllen: Genauigkeit (Precision) und Vollständigkeit (Recall). Wesentliche Voraussetzung für eine in diesem Sinne gelingende Suche ist die vorangegangene sogenannte Erschließung oder auch Beschreibung der Publikationen, Bilder, Forschungsdaten, Sammlungsobjekte bzw. ihrer digitalen Repräsentationen, die als regelgeleitete Beschreibung das Verzeichnete eindeutig identifizierbar machen soll. Diese Beschreibung liegt zunehmend ebenfalls digital vor. Man nennt diese Daten Metadaten. Das Gelingen der Suche hängt also wesentlich von der Qualität der Metadaten und ihrer Zugänglichkeit ab. In den letzten Jahren hat ein Standardisierungsprozess in Kultur und Forschung eingesetzt, der dazu beiträgt, dass in den Metadaten zunehmend häufiger Normdaten zum Einsatz kommen, die sowohl Precision als auch Recall der Suchergebnisse verbessern helfen. Die Genauigkeit (Precision) ist ein Maß dafür, wie viele der gefundenen Dokumente relevant sind; die Vollständigkeit (Recall) ist ein Messwert dafür, wie viele der relevanten Dokumente in einem System bei der Suche tatsächlich zurückgeliefert werden. Der Idealfall für die Recherche ist eine hohe Genauigkeit bei zugleich hoher Vollständigkeit. Die vorliegende Handreichung erläutert Forschenden und interessierten Mitarbeitenden in Archiven und Sammlungen zunächst die Grundzüge der Medien- und Datenerschließung sowie die Vorteile der Nutzung von normierten Suchbegriffen aus sogenannten kontrollierten Vokabularen beziehungsweise Normdaten als wichtiges Werkzeug der Erschließung. Das Verständnis dieser Grundzüge dient im Folgenden als Basis, um dieses Werkzeug der Erschließung für eigene Recherchen fruchtbar machen zu können. Gleichzeitig zeigt die Handreichung Interessierten, wie sie bei der Verschlagwortung zum Beispiel bei der Einreichung eigener Artikel oder der Datenabgabe an Repositorien vorgehen können, indem sie passende Normdaten wie Schlagwörter verwenden. Als solche normierten Begriffe, die als Schlagwörter beim Nachschlagen in Katalogen verwendet werden, gelten neben Sachbegriffen auch Personen, Geografika, Körperschaften oder Werke, sofern sie als Term eines kontrollierten, zugänglichen und verwendeten Vokabulars, wie der GND, vorliegen.



Ressourcen eindeutig beschreiben

Eine umfassende Erschließung ist die zentrale Voraussetzung für eindeutige und zuverlässige Suchergebnisse, weil nur so die für eine zielgerichtete Suche notwendige Datenqualität sichergestellt werden kann. Erschließung ist der Prozess, in dem Bibliotheken, Archive, Museen und andere sammlungshaltende Einrichtungen ihre Ressourcen (Texte, Bilder, Forschungsdaten, Objekte ...) mit beschreibenden Angaben versehen. Diese sogenannten deskriptiven Metadaten ermöglichen eine Auffindbarkeit der Ressourcen in Katalogen und Datenbanken. In Abhängigkeit vom zu beschreibenden Objekt können das zum Beispiel Angaben zu beteiligten Personen, dem Werktitel, dem Erscheinungsjahr oder den verarbeiteten Materialien sein. Die Vergabe dieser Metadaten ist in der Regel ein intellektueller Vorgang, der also von Menschen und nicht von Maschinen durchgeführt wird. Voraussetzung ist natürlich, dass die Medien, Materialien, Objekte oder ganz allgemein gesprochen Ressourcen, tatsächlich so umfassend erschlossen wurden.


Hinter diesen Erschließungsprozessen stehen Regelwerke, die den Erschließungsvorgang standardisieren. Zudem werden bei der Erschließung sogenannte kontrollierte Vokabulare und Normdateien verwendet. Das sind beides Wissenssysteme, bei denen sich Mitwirkende – im Sinne einer Redaktion – darüber einigen, welche Sachverhalte, wie etwa Begriffe, Personen- oder Ortsnamen, in welcher Form, bezüglich der Schreibweise oder der bevorzugten Benennung, aufgenommen werden. So soll chaotischer Wildwuchs vermieden werden, wie in Form unterschiedlicher Schreibweisen oder Singular-/Pluralformen, die die Qualität der Suchergebnisse einschränken würden. Durch den Rückgriff auf einheitliche Benennungen aus den Normdateien sind einzelne Ressourcen präziser und konsistenter zu erschließen. Sie ermöglichen, dass Informationen harmonisiert und Ressourcen eindeutig referenziert werden können. Oft werden alternative Schreibweisen und Benennungen in einen Normdatensatz geordnet aufgenommen und mit dem kontrollierten Vokabular verknüpft, damit entsprechende Suchen zu einem Ergebnis führen. Eine durchgängige Erschließung auf Basis solcher konsistenten und zeitgemäßen kontrollierten Vokabulare ist die Voraussetzung für eine im oben genannten Sinne umfassende und genaue Suche über unterschiedliche Sammlungen, Portale und Bibliotheksverbundkataloge hinweg. Verteilte Ressourcen- und Datenbestände verschiedener Institutionen und Plattformen können auf Grundlage der kontrollierten Beschreibung viel einfacher identifiziert und zusammengeführt werden. Dies ermöglicht eine gesteigerte Sichtbarkeit, Zugänglichkeit und Zitierbarkeit der Daten in heterogenen Kontexten. Metadaten, die Normdaten verwenden, leisten damit einen wesentlichen Beitrag zur Einhaltung der FAIR Data Prinzipien, oftmals Voraussetzung für den Erhalt von Forschungsmitteln.



Die gelingende Suche

Die meisten Suchen in Rechercheportalen führen die Recherchierenden mit ihren eigenen zum Thema passenden Suchbegriffen durch, zum Beispiel „Feldforschung“, „Meier“ oder „Namibia“. Solche Suchen mit einfachen Stichwörtern ohne normierte Schlagwörter führen in der Regel auf vier Ebenen zu folgenden Suchergebnissen:

  1. Die Suchbegriffe finden sich in den Metadaten des Datenbank- bzw. Katalogeintrags, weil sie etwa im Titel einer Monografie oder des Objekttitels einer Sammlung stehen.
  2. Die Suchbegriffe werden in einer dem Titeldatensatz oder Objektdatensatz einer Sammlung zugeordneten Zusammenfassung oder einem durchsuchbaren Inhaltsverzeichnis gefunden.
  3. Die Suchbegriffe tauchen als frei vergebene Stichwörter wortwörtlich auf, da sie beispielsweise durch Autor*innen vergeben oder aus weiteren Quellen als sogenannte "Fremddaten" übernommen wurden.
  4. Die Suchbegriffe werden im möglicherweise hinterlegten digitalen Volltext einer Publikation gefunden.

Man kann den Recall mit Kurzformen, auch Trunkierung genannt, noch etwas verbessern. Das ist die Suche mit Platzhaltern. Die trunkierte Suchanfrage Romanti* findet gleichermaßen „Romantisch“ und „Romantik“. Wird in der Suche jedoch kein kontrolliertes Vokabular verwendet, werden auf allen vier Ebenen nur dann Treffer erzielt, wenn buchstäblich die Begriffe enthalten sind, mit denen gesucht wurde.

Eine einfache Stichwortsuche ist daher abhängig davon, dass die Suchbegriffe buchstäblich (literal) im Datensatz vorkommen. Das Auftreten eines Suchbegriffs in den Treffern heißt dennoch nicht, dass die Ressource das gesuchte Thema tatsächlich behandelt. Vielmehr können die Begriffe in einem ganz anderen als dem gesuchten Zusammenhang auftreten. Ein metaphorischer Sprachgebrauch, ein eingebundenes Zitat oder auch einfach ein spektakulärer, aber sachlich ungenauer Titel führen dann zu ungewollten Treffern in der Suchliste. Manche Titel lassen mitunter gar keine Rückschlüsse auf den Inhalt zu. So bezieht sich der Titel „Der Apfel fällt nicht weit vom Stamm“ wahrscheinlich nicht auf das Obst.

Besonders schwierig sind Suchen mit allgemeinen Begrifflichkeiten, die verschiedenste Verwendungskontexte besitzen, wie „Ethik“ oder „Gesundheit“. Sie führen zu einer großen Anzahl von Suchtreffern, die das Auffinden tatsächlich nützlicher Ressourcen in der Treffermenge erschweren. Gleichzeitig sind die Rechercheergebnisse der Forschenden von den sprachlichen Formulierungen der Autor*innen abhängig: Wenn nach „Müllentsorgung“ gesucht wird, im Titel aber „Abfallbeseitigung“ enthalten ist, wird die ansonsten vielleicht hilfreiche Publikation nicht gefunden. Passende Inhalte sind dementsprechend nur auffindbar, wenn die Autor*innen dieselben Stichworte wie der Suchende zur Beschreibung verwendet haben oder derselbe Begriff in der Ressource selbst genannt wird. Das gilt ähnlich für Namen. Weil Körperschaften, Geografika oder auch Personennamen ohne die Verwendung von Normdaten uneinheitlich benannt werden, lassen sie sich nicht immer trennscharf voneinander abgrenzen bzw. eindeutig zuordnen. Ohne eine Kontrolle und die Anreicherung mit zusätzlichen Informationen lässt sich beispielsweise nicht eindeutig feststellen, ob es sich bei Michael Müller um den Politiker, den Soziologen oder den Fotografen handelt.

Synonyme oder anderssprachige Bezeichnungen wie Bezeichnungen in unterschiedlichen Sprachen wie Moskau, Moskva, Moskwa, Moscow, die in den gesuchten Ressourcen eine relevante Rolle spielen, können auf diese Weise ebenfalls nicht gefunden werden. Gleichzeitig werden alle Homonyme, also Wörter mit mehreren Bedeutungen, wie beispielsweise „Bank“, bei der Stichwortsuche als Ergebnis präsentiert. Sinn- bzw. Bedeutungszusammenhänge werden nicht berücksichtigt, so dass auch Homonyme die Suchergebnisse verwässern.

Die angerissenen Probleme führen dazu, dass die Stichwortsuche vielfach eine große, aber gleichzeitig auch unpräzise Treffermenge zur Folge hat, der vermutlich einige relevante Ergebnisse fehlen, während eine große Anzahl nicht relevanter Titel aufgeführt ist. Kurz gesagt, Forschende bekommen schlechte Precision undRecall Ergebnisse.

Sachverhalte eindeutig benennen

Bessere Ergebnisse erzielt man, wenn man mit Termen eines kontrollierten Vokabulars oder einer Normdatei (authority file) als Schlagwörter anstelle der Stichwörter in den Katalogen und Portalen sucht. Kontrollierte Vokabulare und Thesauri werden u.a. von Einrichtungen wie Museen oder Archiven für ihre Sammlungen und anderen Ressourcen in arbeitsintensiven Prozessen entwickelt. Nicht immer sind diese Vokabulare oder Thesauri für Dritte frei zugänglich und wie die Gemeinsame Normdatei frei nachnutzbar. Sie dienen oft dem internen Gebrauch. In Normdateien wie der Gemeinsamen Normdatei hingegen werden eindeutig benannte und regelbasiert Aussagen  (unter anderem zu Sachbegriffen, Orten, Personen) in Datensätzen gesammelt, diese mit weitergehenden Informationen und Verlinkungen angereichert und dauerhaft online allgemein zugänglich gemacht. Bei der Erarbeitung eines kontrollierten Vokabulars wird festgelegt, wie Sachverhalte oder Entitäten benannt werden sollen. Dabei werden potenziell mehrdeutige Begriffe (Homonyme) geschieden und als getrennte Entitäten erfasst. Unterschiedliche Begriffe zu einem Sachverhalt (Synonyme) werden zusammengeführt und eine sogenannte "Vorzugsbenennung" (label) festgelegt wird. In einem Datensatz zum festgelegten Label werden die Synonyme und abweichende Schreibweisen umfassend erfasst und verweisen auf die definierte Vorzugsbenennung. Die Vorzugsbenennung kann im Anschluss als normierter Suchbegriff beziehungsweise Schlagwort genutzt werden. Für die Suche bedeutet das, dass auch der Sucheinstieg mit den im Normdatensatz hinterlegten Synonymen oder abweichenden Schreibweisen zu sinnvollen Ergebnissen führt, obwohl sie im entsprechenden Metadatensatz nicht explizit vorkommen, sondern lediglich technisch im Hintergrund ausgewertet werden, indem auf die in dem verknüpften Normdatensatz hinterlegten Informationen zurückgegriffen wird. Bei der Recherche nach Personen, Orten oder Körperschaften ermöglichen die Prozesse der Normierung ebenfalls die eindeutige Zuordnung. Denn gleichnamige Entitäten werden durch das Notieren von ergänzenden Merkmalen zur jeweiligen Bezeichnung der Entität eindeutig identifiziert und können voneinander disambiguiert werden.

Damit erbringen Suchbegriffe aus normierten Vokabularen – sofern sie in die Suchsysteme der Institutionen eingebunden sind – gegenüber simplen Stichwörtern einen vielfachen Mehrwert für die Suche. Voraussetzung ist jedoch, dass die Metadaten zu den Daten, Ressourcen oder Objekten digital vorliegen, entsprechend standardisiert erschlossen wurden und somit der webbasierten Recherche überhaupt zu Verfügung stehen. Dies ist insbesondere in Bibliothekskatalogen wie der Deutschen Nationalbibliographie oder auch in Verbundkatalogen wie dem K10plus der Fall.




Vom Mehrwert guter Erschließungsarbeit

Der Rückgriff auf Entitäten eines kontrollierten Vokabulars wie der Gemeinsamen Normdatei (GND), die beispielsweise ein Werk und seinen Inhalt beschreiben, aber auch Personen, Körperschaften und andere Entitäten definieren, schafft Abhilfe bei schlechten Suchergebnissen. Dieses Vokabular wird seit Langem von Bibliotheken und seit der 2017 begonnenen Öffnung der GND auch in weiteren Kultur- und Forschungseinrichtungen angelegt, gepflegt und intellektuell einzelnen Titeln, Sammlungsobjekten oder Archivalien zugeordnet. Dabei kann die Zuteilung auch (semi)automatisch erfolgen. Jeder GND-Datensatz kann als Suchbegriff in der Recherche dienen. Nicht nur Sachbegriffe sind derartige Schlagwörter, sondern genau so Datensätze zu Personen, Geografika, Körperschaften, Konferenzen oder Werken. Zwar erfordert die Erschließung einer Ressource mit genormten Begriffen einen größeren Arbeitsaufwand, liefert jedoch im Anschluss für alle Nutzenden präzisere Rechercheergebnisse, da die Suche nicht allein auf die in Titeln und Abstracts enthaltenen Literale zurückgreift, sondern auf Terme, die aufgrund ihres normierten Charakters eindeutigere Zuordnungen ermöglichen, konzeptuelle Kontexte erschließen, maschinell lesbar sind und auch fremdsprachige Sucheinstiege bieten können. Eine Sammlung solcher Terme nennt man ein kontrolliertes Vokabular. Bei Ressourcen, die – wie etwa Bilder – nicht textbasiert sind, ist eine ergänzende textbasierte Erschließung nötig, um sie besser recherchierbar zu machen. Für wissenschaftliche Arbeiten bietet sich ein Rückgriff auf das kontrollierte Vokabular der GND ebenfalls an, da sie oft  Personen, Ortsnamen und Körperschaften zum Gegenstand haben oder auf diese referenzieren. Forschende können die GND für ihre eigenen Publikationen nutzen, wenn sie bei der Einreichung von Zeitschriftenartikeln von den Redaktionen zur Schlagwortvergabe aufgefordert werden, um den Inhalt der Publikation zu beschreiben. Sie können schließlich ihre Forschungsdaten mit Normdaten annotieren und solche generell in den Metadaten zu Digitalisaten aller Art verwenden. Denn Normdaten vernetzen unterschiedliche Informationsressourcen mittels ihrer Identifikationsnummern und dienen der eindeutigen Referenzierung ausgewählter Entitäten. (siehe Abbildung 1)


Abb 1 
Für Forschende und Mitarbeitende in Archiven, Galerien, Museen und Sammlungen fasst dieses kurze Video die Grundzüge von Normdaten wie der GND zusammen. Credit: NFDI4Culture 2023, CC BY SA

Die Gemeinsame Normdatei

Für den deutschsprachigen Raum ist die Gemeinsame Normdatei (GND) bei der Bereitstellung von kontrolliertem Vokabular besonders bedeutsam. Einen kompakten Einblick zu den Normdaten und ihrer Administration bietet das Video "Über die GND" (DNB 2022). Die GND-Website informiert über Dienste rund um die GND und listet weitere Informationsmaterialien. Die GND enthält circa 10 Millionen normierte Datensätze zu Personen, Geografika, Körperschaften, Konferenzen, Werktitel sowie Sachbegriffen. (siehe Abbildung 2) Auch wenn Einträge zu historischen, zeitgenössischen, mythischen und fiktiven Personen mehr als 50% der GND ausmachen, ist die Sammlung der Sachbegriffe doch eindrücklich. In der GND werden über 200.000 Sachbegriffe gepflegt. Im Vergleich: Je nach Quelle und Zählweise wird die derzeitige Gesamtgröße des deutschsprachigen Wortschatzes auf ca. 350.000 bis 500.000 Wörter geschätzt. Die GND nimmt zudem als Sachbegriffe viele Individualbegriffe wie "Windows NT Server 3.51" auf, die man vermutlich nicht in einem Wörterbuch findet. Für die GND wurden 2012 eine Reihe von länger existierenden Normdateien zusammengeführt. Das Anlegen und Bearbeiten der Datensätze übernehmen Bibliotheksverbünde, Bibliotheken und zunehmend auch andere Einrichtungen aus Deutschland, Österreich und der Schweiz. Sie befolgen dabei internationale Standards und angepasste Regeln. Die Datensätze sind gesetzeskonform – zum Beispiel die Persönlichkeitsrechte von zeitgenössischen Personen betreffend – und stehen für die Nachnutzung zur freien Verfügung. Die Normdatensätze bezeichnen Entitäten mit einer normierten Benennung. Sie liefern eine kurze Definition, treffen identifizierende Aussagen über die Entität (zum Beispiel die Lebensdaten einer Person) und verknüpfen nach Möglichkeit die Entität mit weiteren Normdaten zu sicheren Abgrenzung von anderen Entitäten. Die Datensätze werden durch einen eindeutigen und persistenten Identifikator in Form einer Nummer, englisch Uniform Resource Identifier (URI), ergänzt. Die GND diente lange hauptsächlich der Erschließung von Material in Bibliotheken, wird aber inzwischen in wachsendem Maße auch für die Erschließung von Sammlungen in Archiven und Museen sowie in verschiedenen (digitalen) Projekt- und Forschungskontexten verwendet. Beispielsweise in der verstärkten Zusammenarbeit mit Wikidata und der deutschsprachigen Wikipedia. Weitere Best Practice Beispiele für die Nutzung der GND in Kultur und Forschung sind hier zu finden.

Normdaten in anderen Regionen

Für den anglophonen Bereich spielen hingegen die Library of Congress Subject Headings (LCSH) und für den frankophonen Bereich Répertoire d’autorité-matière encyclopédique et alphabétique unifié (RAMEAU) eine zentrale Rolle. Auch die GND selbst verknüpft entsprechend übereinstimmende Entitäten der genannten Normdateien. Ferner führt die Sammlung VIAF® (Virtual International Authority File) mehrere Normdateien und Wikidata in einem von OCLC gehosteten Normdatendienst automatisiert zusammen. Ziel dieses Dienstes ist die Steigerung des Nutzens der bibliothekarischen Normdateien bei gleichzeitiger Kostenreduzierung, indem weitgenutzte Normdateien zusammengeführt, verlinkt und die Daten im Web allgemein zugänglich gemacht werden.

Normdaten für die eigene Erschließung nutzen

Wenn Forschende bei der Publikation ihrer Artikel, Bücher oder Forschungsdaten Schlagwörter vergeben wollen oder müssen, dann sollten sie nach Möglichkeit direkt auf das Vokabular der GND zurückgreifen. Dabei stehen neben Allgemeinbegriffen auch Datensätze zu Personen, Körperschaften, Konferenzen, Werken und Geografika zu Verfügung. Die so erschlossenen Ressourcen werden dadurch anschlussfähig an moderne Suchumgebungen, gleichzeitig erhöht sich durch die Verwendung des kontrollierten Vokabulars die Auffind- und Sichtbarkeit der Ressourcen. Auch die Empfehlungen der Deutschen Digitalen Bibliothek und Partner zum Minimaldatensatz-Empfehlung für Online-ObjekteMuseen und Sammlungen sowie die Praxisregeln der Deutschen Forschungsgemeinschaft verweisen auf die GND. Die folgenden Ausführungen zeigen den Aufbau der GND-Normdatensätze und erläutern, wie Forschende mit der Normdatei arbeiten können.

Aufbau der GND

Jeder Datensatz zu einer einzelnen Entität wird in der GND mit einer Nummer versehen, die der eindeutigen dauerhaften Identifizierung und Lokalisierung der bezeichneten Entität dient. Ähnlich wie oben allgemein ausgeführt, enthält auch die GND normierte Vorzugsbenennungen, gleichzeitig werden Synonyme oder abweichende Schreibweisen zum Beispiel von Namen im Datensatz aufgeführt. Das gilt für alle Satzarten der GND. Über Sachbegriffe in der GND informiert dieser kurze Blog-Beitrag. In dem Blog werden auch die anderen fünf Satzarten der GND vorgestellt. Die Satzarten und ihre untergeordneten Entitätencodes bilden zusammen die Menge Entitätstypen der GND. Die GND-Ontologie stellt einen Versuch dar, systematisch diese Vielfalt der GND-Entitäten zu klassifizieren und zu ordnen. Sie wird laufend aktualisiert. Zur Vertiefung der Thematik empfiehlt sich die Darstellung in der GND-Dokumentation.



Abb 2
Die Satzarten in der GND und ihre Verteilung (2023)


















Multilingualität in der GND

Auf der Grundlage eines Abgleichsverfahrens mit den englisch-, italienisch-, spanisch- und französischsprachigen Normdateien ist es zudem möglich, selbst mit nicht-deutschsprachigen Sachbegriffen zu recherchieren, da diese regelmäßig mit den deutschsprachigen GND-Sachbegriffen verknüpft oder mit dem Fachbegriff "relationiert" werden. So lassen sich auch Ressourcen finden, die beispielsweise mit englischsprachigen Schlagwörtern versehen worden sind. Der Abgleich ist ein fortlaufender Prozess. In dem Prozess werden die Begriffe nach dem Grad ihrer semantischen Übereinstimmung nach unterschiedlichen Kategorien relationiert. Das nennt man auch Konkordanz. Dies ist erforderlich, da sich bestimmte Begrifflichkeiten nicht trennscharf von einer Sprache in die andere Sprache übersetzen lassen bzw. die verschiedenen Normdateien auf unterschiedlichen Aufbauprinzipien oder Ontologien basieren.

Sucht man beispielsweise "field work" als Sachbegriff im GND-Explorer wird einem der Datensatz „Feldforschung“ angezeigt. In der Rubrik "Konkordanzen in anderen Normdateien" auf dem Faktenblatt zur Entität "Feldforschung" findet man sowohl den Begriff „Field work“ als auch „Recherche sur le terrain“ sowie weitere mit dem Datensatz vernetzte Normdaten in anderen Sprachen. (siehe Abbildung 3)

Eindeutige Identifikation von Personen

Personendatensätze sind in der GND so aufgebaut, dass der bevorzugte Name einer Person nach geltenden Regeln bestimmt wird. Diese wird als Vorzugsbenennung hervorgehoben. Zugleich liefern alle Personendatensätze biografische Informationen – wie etwa Beruf, Beziehung zu weiteren Personen, sowie Lebensdaten der Person –, die die eindeutige Identifikation der Person ermöglichen, und verweisen zudem auf genutzte Quellen. Gleichzeitig werden im GND Explorer Werke aus der Nationalbibliografie angezeigt, deren Urheberschaft mit diesem Personendatensatz verbunden ist. Für Publikationen über die jeweilige Person oder der mit ihr verknüpften Themen lohnt der Blick in die oben genannten Kataloge und Portale. Datensätze werden durch einen eindeutigen und persistenten Identifikator in Form einer Nummer, englisch Uniform Resource Identifier (URI), ergänzt. Personen mit gleichlautenden Namen können auf diese Weise voneinander unterschieden werden. Gleichzeitig können alternative Schreibweisen (wie Abkürzungen), ehemalige Namen oder Pseudonyme hinterlegt werden. So ist es möglich, Personen bei Namenswechsel, beispielsweise im Zuge von Heirat oder Scheidung, weiterhin zu identifizieren und ihre Arbeiten zu finden. Die Aggregation dieser Informationen muss jedoch die Persönlichkeitsrechte von Personen zugleich wahren. Diese Informationen ermöglichen darüber hinaus bei der Suche eine größere Menge an relevanten Treffern, da auch hier gleichzeitig alle Namensvarianten recherchiert werden können.

Der ORCID Service

Bei Personendatensätzen ist zudem eine Verknüpfung zur weitverbreiteten ORCID iD möglich, die von der Open Researcher Contributor Identification Initiative (ORCID) initiiert wurde. Sie zielt auf die eindeutige Identifikation wissenschaftlicher Autor*innen ab, kann weltweit verwendet und die hinterlegten Daten können von den Personen eigenständig eingetragen sowie aktualisiert werden. Der ORCID-Datensatz umfasst auch die Metadaten zu den Publikationen, die manuell hinzugefügt oder aus externen Quellen importiert werden können. Ein Claiming-Service ermöglicht die Übernahme von Publikationsmetadaten aus zahlreichen Katalogen des GND-Netzwerks in den eigenen ORCID-Record sowie, wenn vorhanden, des GND-Identifiers in den eigenen ORCID-Record.


Abb 3  
Das Faktenblatt im GND Explorer zum Begriff "Feldforschung" mit  Konkordanzen in anderen Normdateien (Zum Vergößern auf das Bild klicken)

Passende Suchbegriffe finden

Die folgenden Abschnitte zielen darauf ab zu erläutern, wie die GND von Forschenden produktiv verwendet werden kann. Dies umfasst sowohl die Nutzung bei eigenen Recherchen in Katalogen und Portalen als auch die eigenständige Vergabe von Schlagwörtern mittels Normdaten bei der Erstellung von Metadaten, sei es für eigene Publikationen oder Forschungsdaten. Die Suchergebnisse mit Normdaten als Schlagwörter sind präziser und konsistenter, wie oben ausgeführt.

Wer GND-konforme Schlagwörter für eine eigene Publikation vergeben oder mit GND-Begriffen suchen möchte, muss wissen, welche Entitäten überhaupt in der GND verzeichnet sind. Grundsätzlich existieren unterschiedliche Möglichkeiten, online nach passenden Begriffen wie auch Personen, Orten etc. in der GND zu recherchieren. Je nach Anwendungszweck geeignet sind die folgenden Dienste:

  • GND Explorer
  • OGND
  • lobid-gnd
  • WebGND

Weitere Anwendungen sind auf der GND Website aufgeführt.



Der GND Explorer

Eine umfassende Anzeige- und Rechercheplattform für die GND ist der GND Explorer. Er eignet sich für intellektuelle explorative Suchen. Insbesondere die Visualisierung der Vernetzung der Entitäten innerhalb der GND und mit ihr die Darstellung des verknüpften zum Teil hierarchischen Begriffsnetzes sind bei diesem Recherchetool zentral. Die Visualisierungen sind interaktiv gestaltet, so dass ein Reinzoomen oder Wechseln auf bestimmte Begriffe und Verknüpfungen ebenso möglich ist, wie die Erweiterung oder Eingrenzung des Ausschnitts des Begriffsnetzes. Weitere Visualisierungsmöglichkeiten sind die Trefferdarstellungen auf der Landkarte und dem Zeitstrahl. Durch die Wahl und Kombination von Filtern lassen sich die Suchergebnisse vielfältig präzisieren. Mit dem GND Explorer soll es Interessierten möglichst leicht gemacht werden, entsprechende normierte Suchbegriffe in der GND zu finden, indem gerade die Wissensnetzwerke, in die ein Begriff eingebunden ist, dargestellt werden. So lässt sich einerseits leicht über den Kontext erkennen, ob der Begriff, die Person ... der "richtige" Datensatz ist und zugleich das Finden weiterer relevanter Suchbegriffe intuitiv bewerkstelligen. (siehe Abbildung 4) Details zum Vorgehen bei der Recherche bietet die Anwendung selbst auf ihrer Startseite. Gleichzeitig bietet der GND-Explorer die Ansicht "Faktenblatt", auf dem alle relevanten Informationen inklusive seiner Provenienz und Belegquellen eines GND-Datensatzes gebündelt und übersichtlich dargestellt werden.

Die Funktionen des GND Explorers werden laufend ergänzt. Geplant sind die weitergehende Integration von Datenbeständen aus verschiedenen Quellen ("Rückverlinkungen"), weitere Filter- und Suchmöglichkeiten sowie verkürzte Updatezyklen. Derzeit wird der Datenpool monatlich aktualisiert. Noch bietet der GND Explorer jedoch keine Download-Option der Ergebnisse an. Dazu im folgenden Abschnitt. Mit den ausgewählten Suchbegriffen kann man dann beispielsweise in der Nationalbibliographie nach Literatur suchen.


Abb 4
Der Term "Schamanismus" in der Netzvisualisierung des GND Explorers

Die Online-GND (OGND) und lobid-gnd

Die OGND wird vom Bibliotheksservice-Zentrum Baden-Württemberg betrieben.(siehe Abbildung 5) Auch bei der Recherche in der OGND ist es möglich, einen bestimmten Normdatentyp – z.B. „Person“, „Institution“ oder „Sachbegriff“ – auszuwählen, wenn dieser schon vorher bekannt ist. Ist dies nicht der Fall, liefert die „Teilwortsuche [SW]“ die umfangreichste Treffermenge, die dann je nach Suchbedürfnis weitergehend gesichtet werden kann. Gleichzeitig ist es bei der Recherche auch möglich, fremdsprachige Suchbegriffe in der GND zu recherchieren, die, falls vorhanden, im oben skizzierten Sinne auf die deutschsprachige Vorzugsbenennung des Begriffes verweisen. Die OGND zeigt auch gleich alle in dem Verbundkatalog K10plus erfassten Publikationen an, die mit den genormeten Suchbegriffen verknüpft sind. Die Ansicht der Anwendung ist anders als beim GND Explorer gestaltet. Derzeit bietet OGND und der im Folgenden beschriebene Dienst lobid-gnd den Vorteil, dass die bereitgestellten Daten in deutlich kürzeren Zyklen aktualisiert werden als für den GND Explorer. 

Einen aktuellen Zugang zu den Datensätzen der GND und ihre maschinelle Verarbeitung stellt auch lobid.org zur Verfügung. Es handelt sich um eine vom Hochschulbibliothekszentrum des Landes NRW betreute Anwendung. Die lobid-gnd bietet eine Rechercheoberfläche zum Durchsuchen der GND, eine Integration in OpenRefine, sowie eine generelle Schnittstelle oder Web-API auf Basis von JSON-LD zur Verwendung der Daten in verschiedenen Kontexten. Datenbasis sind die RDF-Version der GND (täglich aktualisiert) und EntityFacts. Dies bietet insbesondere Vorteile bei der Bearbeitung und Anreicherung eigener Daten, die über eine API in OpenRefine mit der GND abgeglichen und unkompliziert um Merkmale aus GND-Datensätzen erweitert werden können. Über die API können die Suchergebnisse auch heruntergeladen werden.

Wie auch bei dem GND Explorer visualisiert lobid die mit dem Datensatz verknüpften Informationen in ihrem Netzwerk. (siehe Abbildung 6)


Abb 5
Schlagwortsuche "Schamanismus" in der OGND

Abb 6
Darstellung der Beziehungen der der Entität "Bronislaw Malinowski" in lobid-gnd

Systematikstellen als Rechercheoption

Eine weitere Möglichkeit der Recherche von GND-Sachbegriffen stellt die GND-Systematik dar. Die Sachbegriffe werden in der GND durch die Systematikstellen nach thematischen Gesichtspunkten gegliedert. Die Systematikstellen ermöglichen damit einen fachspezifischen Überblick über die in der GND erfassten Begriffe, die wiederum für die Vergabe von Schlagwörtern für die eigenen Publikationen mit Normdaten und zur Recherche genutzt werden können. Die Systematikstellen können im WebGND Service Eurospider besonders leicht nachvollzogen werden.

Die Recherche über die spezifischen, beispielsweise ethnologischen, Systematikstellen kann allerdings oft nur eine begrenzte Auswahl an Begriffen liefern, weil auch andere Sachgruppen mit Blick auf die Breite der Themen und Zugänge ethnologischer Fächer ebenfalls von Relevanz sein können.

Tabellarische Überblicke, wie beispielsweise über die unterschiedlichen Datensätze zu Sprachen in der GND, bilden deren Oberkategorien in wissenschaftlich bestimmten Klassifikationen und Verwandtschaftsbeziehungen ab. (siehe Abbildung 7) So gibt es allein unter der Kategorie „Australische Sprachen“ 139 Begriffe, die wiederum für die differenzierte Verschlagwortung und Recherche verwendet werden können. 

Neben den nach Disziplinen geordneten Systematikstellen existieren weitere Formen der Sortierung, etwa nach den sechs Satzarten und Entitätencodes innerhalb der GND. Zudem werden beispielsweise geografische Regionen, Sprachen oder generell die DDC-Systematik als Rechercheoptionen für die Datenbestände der GND angeboten. Dabei ist die sogenannte Dewey Decimal Classification (DDC) die weltweit am meisten verwendete Klassifikation, die für die Sacherschließung von bibliothekarischen Beständen genutzt wird. Alle diese Anwendungen können bei der Identifikation von relevanten und geeigneten Schlagwörtern, sei es für die Recherche oder für die eigene Verschlagwortung, nützliche Werkzeuge sein.


Abb 7
Sprachencodes in der Anwendung WebGND



Fehler und Leerstellen

Es kann durchaus vorkommen, dass einzelne Begriffe oder andere Entitätstypen wie Personen nicht in der GND vorhanden sind, da sie beispielsweise im Zuge der Erschließung noch nicht gebraucht wurden. Vermeintlich fehlende Begrifflichkeiten können auch dadurch begründet sein, dass die GND versucht, sehr lange Wortkomposita nach Möglichkeit zu vermeiden. Zum Beispiel wird statt „Life-style-Forschung“ "Lebensstil" + "Analyse" verwendet. Bei der Vergabe von Schlagwörtern für die eigene Publikation ist es deshalb manchmal notwendig, mehrere einzelne normierte Begriffe kombiniert zu nutzen und so den gesuchten Begriffszusammenhang herzustellen. Die GND erhebt generell keinen Anspruch auf Vollständigkeit. Vielmehr ist die GND ein Abbild der Realität, wie sie sich in Medienwerken und Kulturgütern niedergeschlagen hat. Der einzelne Datensatz dient dazu, eine Entität eindeutig zu beschreiben. Die Beschreibung selbst ersetzt nicht den Lexikoneintrag. Entscheidend ist der Bedarf an dem Normdatensatz zur Referenzierung und übergreifenden Vernetzung von Ressourcen mit Bezug zu dieser Entität. Ist der Bedarf nicht gegeben oder noch nicht erkannt, wird auch kein Normdatensatz angelegt. Zudem kann es vorkommen, dass Begrifflichkeiten oder Personendatensätze veralten. Angaben zu Entitäten können aus der Perspektive von Forschung, Fachmuseen oder Archiven mitunter überbearbeitungsbedürftig oder lückenhaft erscheinen. Die Öffnung der GND und die damit angestrebte Integration weiterer Fachgemeinschaften mit ihrer jeweiligen Expertise adressiert genau diese Perspektiven. Die GND soll über die Öffnung vielfältiger, reichhaltiger und umfassender werden, ohne an Zuverlässigkeit zu verlieren. In der Regel editieren nur geschulte und an entsprechende Einrichtungen angebundene Mitarbeitende GND-Datensätze und legen bei Bedarf neue Datensätze an. Alle Einrichtungen werden immer von einer GND-Agentur (siehe Partner der GND Kooperative) oder einer GND-Redaktion betreut.

Aber auch ohne formale Anbindung an die GND-Kooperative können präzise Korrekturwünsche via Kontaktformular für konkrete Personen-Datensätze an die Deutsche Nationalbibliothek (DNB) gerichtet werden. Hierfür muss der DNB-Katalog genutzt werden, von dort führt ein unmittelbarer Link für den Korrekturwunsch auf das entsprechende Kontaktformular (siehe Abbildung 8)

Außerdem können Institutionen in Zusammenarbeit mit einer registrierten GND-Redaktion das GND-Webformular nutzen. Mit diesem können geringe Mengen an Personen- und Körperschaftsdatensätzen neu hinzugefügt oder editiert werden. In anderen Fällen (z.B. bei Sachbegriffen oder für einen umfassenderen Mengenbedarf) sind die Agenturen der GND-Kooperative erste Ansprechpartner. Im Zweifel können darüber hinaus Änderungs- und Ergänzungswünsche an die unten genannte Kontaktadresse gerichtet werden.


Abb 8
Ein Personendatensatz im DNB-Katalog, ganz rechts der interaktive Link "Korrekturanfrage"


Resümee

Die Beschreibung von Ressourcen, Material, Objekten oder Forschungsdaten mit dem kontrollierten Vokabular optimiert Precision und Recall der Recherche in digitalen Beständen. Es werden nicht nur einzelne Beiträge gefunden, sondern auch Kontexte erschlossen. Voraussetzung ist die gute Vorarbeit bei der Erschließung in Bibliotheken, Museen, Archiven und Forschungseinrichtungen. Forschende können mittels der hier vorgestellten Anwendungen und der Einführung in die Funktionsweise der GND sowohl ihre Sucherergebnisse als auch die Sichtbarkeit ihrer Forschungsergebnisse durch die Verwendung passender Normdaten aus der GND bei ihrer Verschlagwortung verbessern.

Kontakt zur GND Zentrale

Arbeitsstelle für Standardisierung der Deutschen Nationalbibliothek

gnd-info[at]dnb.de


Stand



DNB Netzpublikation: https://d-nb.info/1325174785, April 2024

Das PDF zum download

View file
nameBroschüre_304_UA.pdf
height250