Basis für die hier dokumentierten Punkte war eine Diskussion auf dem DINI AG KIM Workshop am 11. April 2012.
Vorteile
Nachteile
Vorteile
Nachteile
(Joachim Neubert, z.B. auch aufgrund nachgelagerter Kneipendiskussionen)
Bei großen Datensets, oder solchen, die ohne feste Versionen laufend aktualisiert werden, ist eine Aktualisierung durch Laden des jeweils aktuellsten Download Files oder durch stumpfes Crawling nicht möglich. Daher müssten solche Datensets einen Mechanismus bereitstellen, mit dem interessierte Parteien nach dem initialen Laden eines Dumps Aktualisierungen abrufen können. Dieser könnte z.B. in Atom-Feeds bestehen, wie sie die schwedische Nationalbibliothek und die Library of Congress benutzen (s. z.B. http://id.loc.gov/authorities/subjects - weitere Erläuterungen und Diskussionen dazu s.a. http://listserv.loc.gov/cgi-bin/wa?A1=ind1204&L=id): Das Format ist standardisiert, einfach zu verstehen, es gibt ensprechende Programmbibliotheken und Aggregatoren zur Verarbeitung etc. Mögliche Alternativen: OAI-PMH (eher bibliotheksspezifisch).
Nach dem das Mapping aktualisiert wurde (entweder auf einem eigenständigen System, oder auf dem Pflegesystem eines der beteiligten Datensets), müssten die neuen oder geänderten Mapping-Sätze in beide oder in das jeweils andere Zielsystem übernommen werden. Das kann über Push- oder Pullmechanismen geschehen: Wenn das Pflegesystem des Zieldatensets einen Updatemechanismus per Webschnittstelle bereitstellt (z.B. per SRU-Update), könnte das von dem System aus erfolgen, auf dem das Mapping gepflegt wird. In der Regel setzt das eine feingranulare Rechtevergabe auf dem Zielsystem voraus, da ja lediglich die Felder für das Mapping selbst, aber nicht die kompletten Datensätze aktualisiert werden dürfen.
Alternativ könnte das Mappingpflegesystem z.B. Beacon-Dateien mit den Mappings bereitstellen, mit die Zielsysteme Updates auf ihren Bestand fahren können (komplettes Ersetzen aller existierenden Mapping-Einträge auf dem Zielsystem?).
CKAN.net/The Data Hub ist ein bereits breit genutztes Repository mit guter Softwareunterstützung, keine Eintrittsschwelle (jede/r kann selbst Eintragungen vornehmen), hoher Anreiz (aus diesen Daten wird die generiert). CKAN bietet ein mächtiges API für eigene Auswertungen, Einbindung in Portalseiten etc.
Ansätze, separate Linksets/Mappings (auch in BEACON) in CKAN.net zu verzeichnen, gibt es bereits (z.B. http://thedatahub.org/dataset/pndbeacon). Eine Konvention, die beide verknüpften Datensets eindeutig bezeichnet und mit weiteren Metadaten eines Linksets verknüpft, scheint es auf CKAN.net noch nicht zu geben (nachfragen/diskutieren auf http://lists.okfn.org/mailman/listinfo/ckan-discuss).