Die nachfolgenden Abschnitte sind Ergebnis eines halbtätigigen ZBW-Workshops am 10.03.2011 in Hamburg. Dabei wurden im Kontext der Thesauruspflege eine Reihe von Fragen gestellt, die den Übergang eines verbalen Sacherschliessungsmittels von der Kataloganbindung ins freie Netz beleuchten. Die Protokollierung erfolgte durch Max-Michael Wannags. Eine weitere Kommentierung ist erwünscht.

1. Bislang waren (und sind) Normdaten, wie die des STW (Standard-Thesaurus Wirtschaft), Hilfsmittel bei der Erschließung von eigenen Bibliotheksbeständen. Die entsprechenden Regelwerke zur Erstellung der Normdaten sind darauf abgestellt und basieren teilweise noch auf Anforderungen des Zettelkataloges. (z.B. Homonymzusatz)


Wannags (wa): Die Antwort heißt wohl RDA.

Gastmeyer (mg): Neue Regelwerke (z.B. ISO-Norm) befinden sich seit Jahren im Entwurfsstadium. Internet und Interoperabilität erschweren Festlegungen.

Für Fachterminologie wird die Definition, was „Normdaten“ eigentlich sein sollen und können, bei Interoperabilität und Mehrsprachigkeit gleichmaßen unklar; z.B. weil es keine 1:1-Begriffsbeziehungen zwischen Sprachen/Kulturen gibt.

Das Problem wird noch gesteigert bei Interoperabilität zwischen verschiedenen Disziplinen, z.B. Ökonomie-Bildung-Soziologie.

2. Es gibt Tendenzen Normdaten weltweit zu standardisieren. Welche Rolle spielen dabei fachspezifische Vokabulare und deren zwangsläufige Verflachung an den Randgebieten, den sogenannten Nachbarwissenschaften?


Wa: Ein Diskussionspunkt beschäftigte sich mit der möglichen Bedeutung der aus den bisherigen Normdaten PND, GKD und SWD zusammengesetzten GND (Gemeinsame Normdaten Datei). Die Personennamensdatei (PND) hat eine inzwischen schon über der Bibliotheksanwendung hinausreichende Bedeutung bei der Verlinkung von Quellen unterschiedlicher Provenienzen. Die GKD wird die Körperschaftsansetzungen der RSWK integrieren und dabei ihr Schema so modifizieren, dass künftig mit einer Ansetzung sowohl von als auch über ein Objekt beschrieben werden kann. Hier gibt es von mir (Wannags) ein großes Interesse am Entwurf.

Es wird keinen dominierenden Universalthesaurus geben. Die Wissenschaftsdisziplinen haben eigene theoretische Modelle hervorgebracht, die untereinander in Konkurrenz stehen. So impliziert „Arbeitsmarkt“ in der Ökonomie eine andere Bedeutung als in der Soziologie. Die Disziplinen sollten in sich schlüssig strukturiert sein und eigenständige Kerne bilden.

Zur SWD bestehen zahlreiche Crosskonkordanzen, so dass der Gedanke naheliegt, ob die SWD nicht der Kitt sein könnte, der die Kerne zusammenhält. Die SWD entwickelt sich auf Basis vorliegender Dokumente und ist wegen fehlender, bzw. zu geringer semantischer Relationen kein Thesaurus, dafür aber leicht erweiterbar.

Mg: Bisher sind mir keine zwei Thesauri bekannt, die auch nur ein Konzept durchgängig gleich behandeln oder auch systematisch vergleichbar zuordnen, da jede Thesauruskonzeption bislang einzigartig ist.

Unter Thesaurusmachern herrscht heute auch keine Einigkeit darüber, wie einzelne Wissensgebiete nach OB, UB, VB oder Synonymie zu strukturieren sind.

Deshalb ist es schon eine Herausforderung, Wissensgebiete (z.B. Schulsysteme) interoperabel zu machen.

Im Gegensatz zur IT- und Internet-Community gibt es zu diesen fachlinguistischen Fragen auch kaum einen Informationsaustausch.

3. Muss das Vokabular aus pragmatischen Günden klein gehalten werden und dürfen Terme, die eigentlich eine eigene Bedeutung haben, als „Quasisynonyme“ einer anderen Bedeutung zugeführt werden? (hier auch Post- und Prä-Koordinierung)


Wa: Bezüglich des im STW realisierten Konzeptes „Nichtdeskriptor“ gibt es unterschiedliche Auffassungen. Das, was ich (Wannags) unter ‚Postkombination’ vorgestellt habe, kommt dem ‚Nichtdeskriptor’ der SWD sehr nahe. Die SWD benutzt den Nichtdeskriptor nicht zum Indexieren, sondern zur Kennzeichnung von postkoordinierten Schlagwörtern. Der Zwang zur Postkoordinierung scheint in der SWD stärker ausgeprägt als beim STW. Die auf Kombinationen hinweisenden Nichtdeskriptoren können für die Recherche von postkoordinierten Deskriptoren bedeutsam werden.

Mg: Bezüglich des unter Punkt 1. Gesagten zur Normdaten-Definition potenzieren Quasi-Synonyme die Problematik der Abgrenzungen erheblich.

Die Aspekte Pragmatismus (der Thesaurusgestaltung), theoretische Reinheit (der linguistischen und fachlichen Bezüge) und Vergleichbarkeit (des Thesaurusaufbaus) treffen hier verschärfend aufeinander.

4. Wie sehen gegenwärtige und künftige Suchstrategien mit Normdaten in der lokalen Bibliotheks-Suchmaschine aus? Was muss der Nutzer bei der Suche im Heuhaufen wissen?


Wa: Das Thema Retrieval wurde wegen seiner Komplexität nur gestreift. Die Herangehensweise hat sich umgekehrt, während früher vom Nutzer erwartet wurde, seine Suchanfrage dezidiert in einer spezialisierten Suchmaske vorzustrukturieren, nehmen die Suchmaschinen heute einen beliebigen Einstiegsbegriff und strukturieren den Ergebnis-Set mit gewichteten Kurzlisten (Facetten), die beliebig umgestellt werden können. Das Fachwissen um die Retrievalsprache verlagert sich in die Maschine, der Nutzer wählt aus den Angeboten. Das dabei zugrundeliegende Vokabular entspricht der fachspezifischen Ausrichtung der anbietenden Institution.

Häufig wird beim Retrieval in den Facetten auch ein regionaler Einstieg gewünscht. Dabei fehlt den Geo-Begriffen in der Regel das Umfeld. Wenn sie ein Umfeld haben, wie beim Geoteil des STW, hört es spätestens bei der Teilstaatsebene auf. Geodätische Daten fehlen normalerweise vollständig. In der GND sind Geobegriffe in der GKD als Gebietskörperschaften und in der SWD verortet. Hier wäre ein interessanter Ansatz einen eigenen (bzw. existierenden) Geo-Kern zu definieren, auf dem mit Techniken des Linked-Data verlinkt werden kann.  

Unberücksichtigt blieb in der Diskussion der Behandlung von Zeitdeskriptoren und die Suche mit Zeitspannen. (Interessant?)

Mg: Die Verlagerung des Fachwissens in den Such-Hintergrund erhöht nicht die Transparenz für den Nutzer, der wahrscheinlich seine Ergebnisse nicht sehr differenziert steuern kann. Wahrscheinlich ist das wg. der Vielzahl von Quellen und der großen Auswahl auch nicht mehr so wichtig.

Was Geobegriffe angeht, so wäre wohl disziplinspezifisch zu prüfen, welche hierarchische Tiefe angeboten werden sollte. GENIOS-GBI z.B. bietet für BWL nur die Staatenebene an.

Wie werden bei automatischer Indexierung und Retrieval Dokumente selektiert, die explizit gar keine Geozuordnung enthalten, sich aber implizit auf jenes Land beziehen, dem die Publikation entstammt?

5. Welche Ansätze eines strukturiertes „Weltwissens“ gibt es für Normdaten? Ist eine Zusammenarbeit z.B. mit Wikipedia anstrebenswert?

Wa: Auch die Wikipedia muss als ein eigener Kern betrachtet werden. So wies Kai mit Semtinel beispielhaft nach, dass die Wikipedia kein in sich schlüssig strukturiertes, das „Weltwissen“ systematisch abbildendes Gebilde darstellt. Was aber in keiner Weise ihre Bedeutung als Wissensspeicher schmälert. Die Wikipedia eignet sich hervorragend zur Inhaltsanreicherung eigener Anwendungen und bündelt ein großes Potenzial kreativer Ideen.

Eckert: Inhaltlich will ich noch anmerken, dass sich meine Analyse nicht allgemein auf die Wikipedia, sondern speziell auf das Kategoriensystem der Wikipedia bezieht. Das Kategoriensystem bildet eine Hierarchie, die man als Klassifikation sehen kann (und vielleicht gerne in dieser Richtung nachnutzen möchte). Das ist schwierig, da es da viele Probleme gibt, was ich auch vorgeführt habe. Nichts desto trotz ist das Kategoriensystem ein spannender Datensatz und man muss bedenken, dass die Kategorien und ihre Beziehungen untereinander nicht mit dem Ziel erstellt wurden, eine Klassifikation zu schaffen, sondern um die Navigation in der Wikipedia zu erleichtern.

Mg: Strukturiertes Weltwissen ist ein zentraler Schwachpunkt. Wikipedia z.B. ist ein „westliches“ Konzept mit angelsächsischem Schwerpunkt. Schon Frankreich ist nicht hinreichend vertreten.

Besonders problematisch sind die historisch überholten Gesamtklassifikationen, die trotz Aktualisierung kaum mehr den heutigen Wissenschaftsdisziplinen entsprechen und in regional stark divergierenden Sachgebieten (z.B. Rechtssystem) nur sehr schwer a jour zu stellen sind.

6. Wie gut kann eine Thesaurus-Übersetzung (deutsch-englisch) sein?

Mg: Wegen eines fehlenden „neutralen“ oder „übergeordneten“ Standpunktes in den Wirtschafts- und Sozialwissenschaften muss b.a.w. immer eine Quell- und eine Zielsprache festgelegt werden, man denke an die unterschiedlichen Bildungs-, Rechts- und Steuersysteme. Daraus ergibt sich, dass die Zielsprache immer ungenauer getroffen wird als die Quellsprache.

Ich persönlich bin unzufrieden mit dem allgemein zu beobachtenden gedankenlosen und unpräzisen Umgang mit der englischen Sprache, der zu endlos vielen unsinnigen und unbrauchbaren „Übersetzungen“ führt.

7. Der inhaltlichen Erschließung erschließt sich eine große Bandbreite von enger verbaler Erschließung bis zur Klassifizierung weiter Themenbereiche.  Wird sich eines der beiden Konzepte durchsetzen, oder ist ein Zusammenwirken möglich oder sogar erwünscht?


Wa: Der STW sieht in seinem Konzept die strikte Trennung zwischen Freien Schlagworten und Deskriptoren vor. Nur Deskriptoren bekommen einen persistenten Identifier. Freie Schlagworte sind Kandidaten und können künftig einen eigenen Deskriptor bilden, als (Quasi-)Synonym zum Umfeld eines bereits bestehenden Deskriptor zugeschlagen werden, oder in ihrem Status verharren. Die Trennung betrifft auch die thematische Gliederung, die den STW in bis zu 5 Ebenen ‚polyhierarchisiert’, während die freien Schlagworte nur der obersten Ebene mit den 7 Hauptteilen zugeordnet werden. In den Dokumenten werden Deskriptoren und Freie Schlagworte inzwischen gleichrangig zur Inhalterschließung verwendet. Freie Schlagworte stellen somit faktisch einen eigenen Kern dar.

Kontrovers wurde diskutiert, ob die Kerne, ergänzend zu ihrer inneren Struktur, mit einer überordneten einheitlichen Gliederung grob thematisch aufbereitet werden sollten.

Mg: FSW des STW kommen zunehmend aus dem Off-topic-Bereich der Nachbarwissenschaften. Die Ökonomie als „imperialistische“ Disziplin wildert sehr viel in fremden Bereichen.

Neue Ökonomiebegriffe werden zunehmend spezifischer und es stellt sich die Frage, ob sie dann überhaupt in einen Normdatenzusammenhang gehören.

Durch die verbesserten technischen Möglichkeiten und verbesserten Zugänge zu terminologischen Informationen sind die Anforderungen an Thesauri enorm gestiegen und da stellt sich die Frage nach dem Verhältnis zwischen Aufwand und Nutzen. Das gilt besonders für die Nebengebiete.

8. Sobald Normdaten, wie der STW, in verschiedenen Anwendungen zum Einsatz kommen sollen, ist eine Versionierung der aktuellen Fassung erforderlich.


Wa: In der Diskussion gestreift wurde der Komplex der Versionierung von Vokabularien, des Changelogs und der Veränderung von Vokabularien im Netz. Thesauri sollen sich der Fachdisziplin anpassen. Umbenennungen, Neueinführungen und Löschungen von Deskriptoren sowie Änderungen im Umfeld sind deshalb immanent vorhanden. Mit dem nächsten Versionswechsel der STW-SKOS-Version werden erste Lösungsansätze für dieses Problem erforderlich.

9. Was sind die Kriterien für eine Versionierung?


10. Ein Kriterium für die Aktualität eines Thesaurus ist die Übernahme von Thesauruskandidaten (das sind Freie Schlagwörter). Wer oder was entscheidet über deren Relevanz?


11. Wie kann man die Relevanz eines Thesaurusdeskriptors messen?


12. Löschung von Deskriptoren und Umbau von Teilbereichen des STW. Darf man einmal in die Welt gesetzte „Standards“ löschen?

Mg: Die „Standards“ sind in Wirklichkeit gar keine, sondern repräsentieren einen manchmal durchaus suboptimalen historischen Stand. Für den STW gilt, dass er in einigen Teilbereichen immer noch den Stand seiner Vorgänger repräsentiert.

Hier stellt sich die unter 4. schon angedeutete Frage nochmal: was können die Nutzer beim Retrieval erwarten? Das semantische Web bietet viele Möglichkeiten zur Rechercheunterstützung. Doch der Zustand des zugrundeliegenden Wortmaterials wird zu häufig nicht hinterfragt.

Generelles Problem: wann wird ein konkreter Thesaurus obsolet?

13. Kooperative Thesauruspflege. Ein Modell der Zukunft? Und wie muss man sich das vorstellen?


Wa: Kooperative Thesauruspflege wird sich wohl zunächst auf die Pflege der Crosskonkordanzen beziehen.

Gibt es dafür Andockstellen in der SWD? Wer wäre an Crosskonkordanzen interessiert?

Darüber hinaus wäre die Festlegung auf einen GEO-„Kern“ interessant. Der lässt sich gut abgrenzen, spielt überall rein und seine Integration wäre ein ziemliches Stück lohnende Arbeit.

  • Keine Stichwörter