Versionen im Vergleich

Schlüssel

  • Diese Zeile wurde hinzugefügt.
  • Diese Zeile wurde entfernt.
  • Formatierung wurde geändert.

...

  • Stefanie Rühle, Francesca Schulze

Grundsätzliches

Überlegungen zu einer On-Top-Systematik für den Kulturbereich

Entwurf: Anforderungen/Empfehlungen zur Verwendung von kontrollierten Vokabularen (

...

7.

...

12.2015)

Kontrollierte Vokabulare dienen dazu die Beschreibung von digitalen Ressourcen zu die Beschreibung von Kultur- und Wissensobjekten zu vereinheitlichen. Sie ermöglichen den Datennehmern die Metadaten zu den digitalen Sammlungen für verschiedene Anwendungsfälle sinnvoll auszuwerten. Im Kontext von Suchportalen und anderen digitalen Angeboten Sammlungen haben sie vor allem folgende Funktionen:

  • Unterstützung der Suche und Wiederauffindbarkeit der digitalen RessourcenKultur- und Wissensobjekte (und ihrer digitalen Repräsentationen)
  • Einheitliche Präsentation der Beschreibungen zu den digitalen Ressourcen
  • Logische Vernetzung der digitalen Ressourcen untereinander und bestandsübergreifende Vernetzung
  • Verknüpfung der Ressourcen mit anderen Entitäten, wie Personen, Orte, Körperschaften und Ereignisse

Darüber hinaus strukturieren sie die Metadatenbeschreibungen eines Metadatenstandards und unterstützen dadurch: 

  • zu den Kultur- und Wissensobjekten (und ihrer digitalen Repräsentationen)
  • Hierarchische Vernetzung der Kultur- und Wissensobjekte (und ihrer digitalen Repräsentationen)
  • Darstellung von Verwandtschaftsbeziehungen zwischen Kultur- und Wissensobjekten auf der horizontalen Ebene
  • Verknüpfung der Kultur- und Wissensobjekten mit Entitäten wie Personen, Orten, Körperschaften, Ereignissen oder Konzeptbegriffen
  • Unterstützung eines strukturierten Abrufs von Datensets durch Datennehmer anhand unterschiedlicher formaler Gruppierungskriterien
  • die Auswertung der Metadaten, beispielsweise durch die Typisierung von Inhalten der Metadatenelemente und -attribute
  • den strukturierten Abruf einzelner Datensets aus verschiedenen Repositorien

In den Kultur- und Wissenseinrichtungen werden unterschiedliche Verfahren für die Erschließung von Ressourcen Erschließung von Kultur- und Wissensobjekten angewandt. Die Auswahl der verwendeten Vokabulare der Vokabulare ist daher abhängig von der Sparte, dem Fachbereich und der Materialart sowie der Art der Kultur- und Wissensobjekte sowie dem für die Erschließung zu Grunde liegenden Regelwerk und Erfassungssystem.

Aus formalen Gesichtspunkten können kontrollierte Vokabulare wie folgt gruppiert werden:

  • Einfache Term- bzw. Wertelisten
  • Normdaten für die einheitliche Beschreibung von Personen, Körperschaften, Orten, Ereignissen oder abstrakten Begriffen
  • Strukturierte Vokabulare, in denen Begriffe miteinander in Beziehung gesetzt sind, z.B. Klassifikationen oder Thesauri 

Darüber hinaus werden kontrollierte Vokabulare für die Vereinheitlichung der Struktur von Metadaten innerhalb eines Austauschformats oder Anwendungsprofils verwendet. Dazu zählen vor allem sogenannte Type-Attribute, die die Art eines Elementinhalts genauer spezifizieren.

Das DINI-Zertifikat gibt daher ausdrücklich gibt ausdrücklich die Empfehlung, Vokabulare zu verwenden, die innerhalb einer Sparte oder/und darüberhinaus Sparte und bestenfalls darüberhinaus anerkannt und verbreitet sind. Jedes verwendete Vokabular muss standardkonform aufgebaut und von einer Institution veröffentlicht und gepflegt werden, die die langfristige Nachnutzbarkeit gewährleistet. Darüber hinaus muss das Vokabular zumindest folgende Qualitätskriterien erfüllen: 

  • Begriffe sind eindeutig identifiziert und definiert
  • Synonyme sind möglichst vollständig erfasst
  • Homonyme sind eindeutig geklärt

Dabei eignen sich je nach Beschreibungsmerkmalen und beabsichtigten Verwendungszweck unterschiedliche Arten von Vokabularen:

  • Einfache Term- bzw. Wertelisten
  • Normdaten für die einheitliche Beschreibung von Personen, Körperschaften, Orten, Ereignissen oder abstrakten Begriffen
  • Strukturierte Vokabulare, in denen Begriffe miteinander in Beziehung gesetzt sind, z.B. Hierarchiebeziehungen in Klassifikationen oder Hierarchie- und Verwandtschaftsbeziehungen in Thesauri 

Es wird dringend empfohlen Regeln für die Anwendung von Vokabularen zur Indexierung der Metadaten zu beachten, besonders im Hinblick auf den Nutzen für die Suche und Wiederauffindbarkeit der Ressourcen. Dabei müssen Regelwerke, wie RDA, RSWK, CDWA oder CCO unbedingt beachtet werden. Beispielsweise wird durch eine Klassifizierung eine Beziehung zwischen Ressourcen mit ähnlichen Merkmalen hergestellt (siehe CDWA). Der für die Klasse ausgewählte Wert dient i.d.R. als Einstiegsterm für die Suche. Von daher sollte er generisch und gewöhnlich allgemeiner sein als der Wert, der den Objekttyp spezifiziert. Im Idealfall stellt eine Klassifikation eine Beziehung zwischen den Klassen der Klassifikation und den Wert für den Objekttyp her.

Um eine möglichst breite Nachnutzbarkeit der Metadaten zu gewährleisten sollten gewährleisten sollen Vokabulare verwendet werden, die im Sinne von Linked Open Data in maschinenlesbarer Form frei zur Verfügung stehen.  Für Für Vokabulare, die dieses Qualitätskriterium nicht erfüllen, wird ein semantisches Mapping zur GND oder zum AAT unter Berücksichtigung der Standards ISO 25964 und SKOS empfohlen.

 

[Anmerkung FS: Standards für Aufbau und Anwendung von Vokabularen noch im Text verankern / auswählen:
ISO 25964: The international standard for thesauri and interoperability with other vocabularies
ANSI/NISO Z39.19-2005:  Guidelines for Construction, Format, and Management of Monolingual Controlled Vocabularies
ISO 2788:1986 Documentation -- Guidelines for the establishment and development of monolingual thesauri
DIN 1463 Teil 1 (1987): ''Erstellung und Weiterentwicklung von Thesauri. Einsprachige Thesauri''
DIN 1463 Teil 2 (1993): ''Erstellung und Weiterentwicklung von Thesauri. Mehrsprachige Thesauri''
DIN 2330 (1993): ''Begriffe und Benennungen. Allgemeine Grundlagen''
DIN 2331: ''Begriffssysteme und ihre Darstellung''
DIN 31 623 Teil 1 (1988): ''Indexierung zur inhaltlichen Erschließung von Dokumenten: Begriffe, Grundlagen''
DIN 31 623 Teil 2 (1988): ''Indexierung zur inhaltlichen Erschließung von Dokumenten''
DIN 31 623 Teil 2 (1988): ''Syntaktische Indexierung mit Deskriptoren''
DIN 32705 (1987): ''Klassifikationssysteme. Erstellung und Entwicklung von Klassifikationssystemen"]

 

Darüber hinaus wird empfohlen einschlägige Regelwerke bei der Verwendung von Begriffen aus Vokabularen zu beachten (z.B. RDA, RSWK, CDWACCO). Dies dient im Endeffekt der Wiederauffindbarkeit von Kultur- und Wissensobjekten innerhalb der digitalen Sammlungen. 

Die Beschreibung von Ressourcen
Nr. M/EKriteriumQuelle/Herkunft Erläuterung
  Verwendung von kontrollierten Werten in den Metadaten  
  Folgende administrative Angabe zum Metadatensatz erfordert die Verwendung eines kontrollierten Vokabulars: 
 
  • Die strukturelle Ebene der Beschreibung, die auf einem Kultur- und Wissensobjekt basiert und in einem Metadatensatz repräsentiert ist, wird durch einen kontrollierten Wert spezifiziert (->Strukturtyp).
 

Die Angabe des Strukturtyps kann je nach Kultur- und Wissenseinrichtung und der Spezifikation im Anwendungsprofil unterschiedlich granular erfolgen. Anhand des kontrollierten Werts sollte zumindest erkennbar sein, ob es sich um die Beschreibung eines einzelnen Objekts, einer Gruppe von Objekten oder eines Bestandteils eines Objekts handelt. Für die Beschreibung digitalisierter Drucke ist die Anwendung der Werte aus dem DFG-Viewer Strukturdatenset verpflichtend.

  Die Beschreibung der Kultur- und Wissensobjekte
VerpflichtungKriterienBeispielBemerkungen
 Verwendung von kontollierten Werten in den Metadaten  
  erfordert in den folgenden Bereichen die Verwendung kontrollierter Werte:   
 VerpflichtendM
  • Die Art des Kultur- und Wissensobjekts wird Die Art der Ressource wird durch kontrollierte Werte spezifiziert

z. B.: DFG-Viewer Strukturdatenset, AAT, Oberbegriffsdatei

 

FS: Ich denke, hier sollten wir empfehlen noch etwas zu differenzieren(s. Anmerkungen zu M6.-4 unten)

  • (->Objekttyp).
 

 

 
  • Der Wert für die Spezifizierung des Kultur- und Wissensobjekts muss einem kontrollierten Vokabular entstammen, das den 5-star Open Data Prinzipien von Tim Berners-Lee entspricht.
 

Der Wert muss einem kontrollierten Vokabular entnommen werden, das den 5-Star Open Data Prinzipien von Timm Berners Lee entspricht:

  • Das Vokabular ist unter einer freien Lizenz im Web publiziert
  • Das Vokabular ist strukturiert
  • Das Vokabular ist in einem nicht-proprietären Format publiziert
  • Jeder Begriff im Vokabular ist durch einen URI global eindeutig identifiziert
  • Es existieren Links zu Begriffen aus anderen Vokabularen oder/und zu Quellen

Welches Vokabular zu Grunde gelegt wird, ist je nach Sparte und Spezifikation im Anwendungsprofil unterschiedlich. Für Objekte aus der Kunst- und Kulturdomäne wird bspw. der AAT empfohlen.

 MVerpflichtend
  • Ortsangaben werden durch kontrollierte Werte identifiziert
 z. B.: TGN, Geonames, GND
 
  • die Art der Ereignisse im Lebenszyklus einer Ressource wird durch kontrollierte Werte spezifiziert
 z. B.: LIDO-Eventtype  
 
  • die Sprache des Inhalts eines Kultur- und Wissensobjekts wird durch kontrollierte Werte spezifiziert  
 z.B.: ISO 639-2
  Für die Erhöhung der Datenqualität und des Vernetzungsgrades der Kultur- und Wissensobjekte innerhalb von digitalen Sammlungen gelten folgende Empfehlungen für kontrollierte Vokabulare:  
 
  • Die Art der Objekte wird durch einen Gruppierungsterm aus der Objektfacette des Art & Architecture Thesaurus spezifiziert (-> Klassifikation <Art des Objekts>).
 

 

   
 EEmpfohlen
  • Themen, die im Rahmen einer Ressource behandelt eines Kultur- und Wissensobjekts behandelt werden, werden aus kontrollierten Vokabularen übernommen
 z. B.: GND, Iconclass, CONA 
 EmpfohlenE
  • Zeiträume, Epochen, Kulturen, die für die Beschreibung einer Ressource relevant sind, werden aus kontrollierten Vokabularen übernommen
 z. B.: GND, eHRAF 
 
Verpflichtend
  • die Art der Ereignisse im Lebenszyklus einer Ressource wird durch kontrollierte Werte spezifiziert
z. B.: LIDO-Eventtype  
EVerpflichtend
  • Personen und Institutionen, die in einer Beziehung zu der Ressource stehen (z. B. als Ersteller, Sammler oder Bearbeiter) werden durch Normdaten identifiziert
 z. B.: GND, ULAN, ISIL 
 EmpfohlenE
  • Sammlungen werden durch Normdaten identifiziert
 z. B.: ISCI 
  Dokumentation der verwendeten kontrollierten Vokabulare  
 VerpflichtendMDie in den Metadaten berücksichtigten kontrollierten Vokabulare und Normdateien werden im Anwendungsprofil genannt  
 VerpflichtendMDie in den Metadaten berücksichtigten kontrollierten Vokabulare werden in den Metadatendaten identifiziert  
  
  • Der in den Metadaten verwendete Terms Term wird in den Metadaten durch einen URI eindeutig identifiziert
 

z. B. http://d-nb.info/gnd/131724126

z. B. http://vocab.getty.edu/aat/300041365

  oder  
  
  • Das Vokabular / die Normdatei, zu der ein Term gehört, wird durch einen URI eindeutig identifiziert
 z. B. http://d-nb.info/gnd/
  oder  
  
  • Das Vokabular / die Normdatei, zu der ein Term gehört, wird durch eine Namen identifiziert
 z. B. GND
 VerpflichtendMDas Vokabular / die Normdatei, aus der Terme verwendet werden, ist in menschenlesbarer Form im Web frei zugänglich z. B. http://www.getty.edu/research/tools/vocabularies/ 
 
Empfehlung

Das Vokabular / die Normdatei, aus der Terme verwendet werden, ist in maschinenlesbarer Form im Web frei zugänglich

z. B. http://vocab.getty.edu/queries  
MVerpflichtend

Jeder Term in dem kontrollierten Vokabular / der Normdatei wird durch einen eindeutigen Identifier identifiziert

 z. B. http://d-nb.info/gnd/131724126, oder 131724126
 

 

 

Anforderungen/Empfehlungen aus dem DINI-Zertifikat 2013

Für alle Dokumente wird zusätzlich zu den Sachgruppen der Deutschen Nationalbibliografie eine verbale Sacherschließung durch frei vergebene Schlagwörter oder eine klassifikatorische Erschließung (fachübergreifend oder fachspezifisch) vorgenommen.

  • Dazu zählen beispielsweise SWD[1], LoC Subject Headings[2], CCS[3], MSC[4] und PACS[5].
  • Die Schlagwörter können auch unmittelbar durch die Autor/‑innen vergeben werden.
  • Wording: "kategorisiert" statt "klassifiziert"
  • DDC nach Möglichkeit verwenden
  • aber: ist für den nicht-bibliothekarischen Bereich vielfach nicht passend
  • Alternativen für die unterschiedlichen Sparten anbieten(TODO: noch recherchierchen!) - AV, 20150520: 
  • Ein (oder vielleicht der) wichtiger Aspekt ist meines Erachtens eine Repository-übergreifende Themazuordnung, die insbesondere auch die Strukturierung (Set-Abruf) unterstützt. Von daher ist die fachspezifische Zuordnung via Fachklassifikation (s. unten) und Nutzung von dc:subject unabhängig davon zu sehen. Deswegen ist 'kategorisiert' viel besser! (FSu)
  • FS (an FSu): Ist es für die Strukturierung der Sets wichtig, dass ein Objekt (bisher: Dokument) genau einer Gruppe zugeordnet ist, damit man dieses nicht mehrfach harvested? Bei einer Objektklassifikation ist zum Teil genau das Gegenteil der Fall, weil die Klassen ja nach verschiedenen Merkmalen geordnet sind (bsp. eine Facettenklassifikation wie AAT). Ich würde hier trotzdem bei dem Wort "klassifiziert" bleiben. Der Use Case der hier m. E. auch eine wichtige Rolle spielt ist der, dass die Datennehmer (Portale etc.) die Metadaten für die Suche und das Retrieval aufbereiten können.
  • UM: Mir ist noch nicht klar, wie/ob eine Trennung zwischen inhaltlichen (à la DDC) und objekttypbezogenen Kategorien aufrecht erhalten werden kann bzw. sinnvoll ist. Das war im DINI-Z jedenfalls die Aufteilung zwischen M.6-3 und M.6-4.
    --> gehört die AAT-Objektfacette nicht eher zur M.6-4?
  • FS (an UM): Durch eine Klassifizierung stellt man eine Beziehung zwischen Objekten mit ähnlichen Merkmalen (wie Material, Form, Funktion, Region oder Ursprung, kultureller Kontext, Stilepoche) her (vgl. http://www.getty.edu/research/publications/electronic_publications/cdwa/2classification.html). Von daher stimme ich dem zu, dass hier auch inhaltliche Merkmale eine Rolle spielen. Trotzdem braucht man beides - die Objektklassifikation und den Objekttyp / Objektbezeichnung:
    • Klassifikation: ist für den Sucheinstieg gedacht. Von daher sollte die Klasse möglichst generisch sein.  
    • Objekttyp / -Bezeichnung: sollte so spezifisch wie möglich angegeben werden.
  • FS (an UM): Der AAT beinhaltet sowohl Klassen (Groups) als auch spezifische Begriffe (Concepts) und gehört daher m.E. zu M6-3 und M6-4
  • UM: Wäre denn eine mögliche Formulierung hier: "Alle Ressourcen werden nach zumindest einem der folgendenden Systeme kategorisiert:
    (1) DDC gemäß Sachgruppen der Deutschen Nationalbibliografie [Anmerkung FS: Die (24?) DNB-Sachgruppen unterscheiden sich aber von den DDC-Klassen. Sowohl die DDC-Notation als auch die der DNB-Systematik sind im GND-Datensatz ausgewiesen]
    (2) Objektbezeichnung des AAT
    ..."
  • FS (an UM): Ich bin nicht dafür Klassifikationssysteme verpflichtend vorzugeben, sondern solche, die anerkannt / weit verbreitet sind und Qualitätskriterien (standardkonform, für LD nachnutzbar) entsprechen, wie die oben aufgelisteten, zu empfehlen. In der Praxis ist es so, dass unterschiedliche Verfahren zur Klassifizierung verwendet werden, die sich je nach Sparte und Fachbereich stark unterscheiden. Bei Sachgebieten wie Biologie oder Musikinstrumente würden wir ggfs. fachspezifische Begriffe verlieren. Von daher geht es m.E. eher in die Richtung, die AV vorschlägt, in solchen Fällen ein Begriffsmapping (Konkordanz) zu den empfohlenen Klassifikationen herzustellen.
  • FS: Sollte IconClass auch aufgenommen werden?
  • AV an FS: ja, für Kunst/Kunsthistorik
  • AV: es gibt relativ wenige Vokabulare die als Basis für ein Information Retrieval in den Portalen verwendet werden können. Diese können in meinen Augen nicht von den Datenlieferanten verpflichtend eingefordert werden. Andererseits gibt es im Museumsbereich weit verbreitete non-IR Vokabulare wie z.B. die OBG. Diese sollten ebenfalls zur Verwendung empfohlen werden. Sie müssen aber auf die Normvokabulare wie den AAT gemappt werden.

    Autor/‑innennamen werden mit Normdaten verknüpft.

    • Z. B. sollte eine Verknüpfung zur Gemeinsamen Normdatei[1] (GND) und zu ORCID[2] angeboten werden, um die Autor/‑innenidentifikation zu erleichtern.
     

    Das Vokabular / die Normdatei, aus der Terme verwendet werden, ist in maschinenlesbarer Form im Web frei zugänglich

     z. B.
     Text DINI-Zertifikat 2013Bemerkungen 
    E.1-1AV, 20150608:

    Es gibt nicht nur Dokumente :-)

    UM, 20150622:
    Ja, der Begriff stammt aus dem DINI-Zertifikat (auch dort wurde er der Einfachheit halber so verwendet, soll aber auf andere Objektarten übertragen werden); wir brauchen hier sicherlich einen generischeren Begriff.

    zusätzlich: AAT (Info: http://en.wikipedia.org/wiki/Art_%26_Architecture_Thesaurus)

    Museen verwenden größtenteils eigene Vokabulare. Diese sollten immer auf die GND oder den AAT gemappt werden.

     M.6-3  Alle Dokumente werden nach der → Dewey-Dezimalklassifikation (DDC) zumindest gemäß den → Sachgruppen der Deutschen Nationalbibliografie klassifiziert.  M.6-4 
    Allen Dokumenten sind Dokument- bzw. Publikationstypen aus dem Vokabular der DINI-Empfehlungen Gemeinsames Vokabular für Publikations- und Dokumenttypen zugeordnet.
  • Strukturdatenset des DFG-Viewers nachnutzen?
  • unterschiedliche Aspekte:
    1. formaler Medientyp: z.B. Text, Bild, Audio, Video
    2. qualifizierter Objekttyp: z.B. Zeitschrift, Monografie, Handschrift, Karten, Noten, ...
    3. Strukturtyp (zumeist abhängig vom Objekttyp): z.B. Artikel, Band, Ausgabe, Kapitel,
      offene Frage: gibt es immer eine eindeutige Zuordnung von Strukturtyp zum Objekttyp?
      • Kommt das nicht auch auf das Metadatenformat/Anwendungsprofil oder/und das verwendete Vokabular an (bzw. bestehende Begriffskonkordanzen)?
        • In LIDO wäre das bspw. die Beziehung zwischen dem recordType und dem objectWorkType.
        • In DCMI könnte man die Beziehung nicht ausdrücken
        • In MARC gibt es diese Unterscheidung m.E. nicht 
  • TODO: Aufstellung der unterschiedlichen Vokabulare  
  • für 1. DCMI Type Vocabulary, (ggfs. auch CIDOC-CRM)
  • für 2. AAT (Bsp. http://vocab.getty.edu/aat/300041365) , GND (Bsp. http://d-nb.info/gnd/4048166-9
  • für 3. Strukturdatenset des DFG-Viewers, im Kontext der LIDO-Terminologie wird gerade ein Vokabular entwickelt, was eher in Richtung Strukturtyp (anderes Wort: Dokumentarische Bezugseinheit?) gehen wird (aber noch nicht abschließend geklärt)
  • Beim qualifizierten Objekttyp kann man m.E. kein spartenübergreifendes Vokabular verpflichtend machen kann. Beim formalen Medientyp würde das vielleicht gehen, obwohl hier immer die Abgrenzung von Text und Bild schwierig ist und man unterscheiden muss, ob es sich um den Medientyp des physischen oder digitalen Objekts handelt.
  • Ich fände es wichtig zunächst diese drei/vier Bedeutungsebenen zu definieren und im Hinblick auf ihren Verwendungszweck zu klären, dann möglichst spartenübergreifende Beispiele zu sammeln und dann zu begutachten und entscheiden, welche Vokabulare man hier empfehlen kann bzw. verpflichtend macht.
  •  E.6-7

    AV, 20150608:
    warum nur Autor/-innen?

    UM, 20150622:
    Auch hier: Die Formulierung stammt aus dem DINI-Zertifikat.
    --> Sinnvoll für digitale Sammlungen sicherlich: Personen in jedweder Rolle zum beschriebenen Objekt (Beteiligte, Thematisierte)
    --> sowie auch andere Entititätentypen (Einrichtungen, Orte, Werke ...)
    --> die Frage ist hier sicher u.a., was man verpflichtend machen möchte und was nur empfehlend ...

    weitere Möglichkeiten: ULAN, VIAF, ...

    queries