Blog-Eintrag vom November, 2022


Svenia Pohlkamp -  Pohlkamp, Svenia

Deutsche Nationalbibliothek, nestor-Geschäftsstelle

s.pohlkamp@dnb.de


Stefan Strathmann -  Strathmann, Stefan

Niedersächsische Staats- und Universitätsbibliothek Göttingen

strathmann@sub.uni-goettingen.de


Dr. Monika Zarnitz -  Zarnitz, Monika

ZBW - Leibniz-Informationszentrum Wirtschaft

m.zarnitz@zbw.eu


nestor, das Kompetenznetzwerk digitale Langzeitarchivierung, hat jüngst eine Befragung unter nationalen und internationalen Gemeinschaften zur digitalen Langzeitarchivierung durchgeführt und die Ergebnisse als Community Survey veröffentlicht. Neben der anonymen Auswertung der erhobenen Daten ist daraus auch eine Reihe von Community-Profilen hervorgegangen.

In diesem Beitrag stellen drei Mitglieder der verantwortlichen Arbeitsgruppe einige der interessanten Ergebnisse der Befragung vor.


Die Idee der nestor-Community-Umfrage

Die digitale Bewahrung ist eine komplizierte und ressourcenintensive Aufgabe. Kooperation, Kommunikation und gegenseitige Unterstützung sind notwendig, um die unterschiedlichen Herausforderungen in diesem Bereich zu meistern. nestor ist in all diesen Bereichen aktiv.

Deshalb entstand die Idee, eine Umfrage unter den nationalen und internationalen Communities, die sich mit digitaler Langzeitarchivierung befassen, zu starten. nestor setzte eine kleine Arbeitsgruppe ein, die den Fragebogen entwickelte und die Ergebnisse der Community-Umfrage analysierte. Das Ziel dieser Umfrage ist es, Transparenz über die internationale Landschaft der Gemeinschaften in diesem Bereich zu schaffen und Informationen für alle zu sammeln, die eine Zusammenarbeit anstreben.

Der Fragebogen für die Umfrage, die online durchgeführt wurde, umfasste 40 Fragen. Wir sammelten 54 gültige Antworten als Grundlage für unsere Analyse.

Die Community-Umfrage

Die Umfrage wurde von Herbst 2019 bis Mai 2020 über verschiedene Kanäle wie Mailinglisten, direkten Kontakt zu Kolleg:innen usw. verbreitet. Die Ergebnisse der Umfrage wurden ausgewertet, aufbereitet und im Jahr 2022 in der Reihe der nestor-Materialien veröffentlicht.

Neben dieser Veröffentlichung war ein weiteres Ergebnis der Umfrage die Erstellung von so genannten Community-Profilen, die auf der nestor-Website zu finden sind. Diese Profile sind Selbstbeschreibungen der beteiligten Gemeinschaften und können als eine Art Register der nationalen und internationalen Communities dienen. Sie geben erstmals einen Überblick über die unterschiedlichen Facetten, Ressourcen und Schwerpunkte von Langzeitarchivierungsnetzwerken weltweit. Ziel ist es, die Transparenz zu verbessern und die Zusammenarbeit der Gemeinschaften weltweit zu erleichtern.

Von den 54 Teilnehmer:innen, die den Fragebogen vollständig ausgefüllt haben, haben uns bisher 32 ihr Einverständnis zur Veröffentlichung ihres Community-Profils gegeben. Wir hoffen, dass noch mehr ihr Einverständnis geben werden. Die Communities hatten die Möglichkeit, ihre Daten zu aktualisieren und/oder zu korrigieren, während sie ihre Profile überprüften.

Was ist eine Community?

Eine grundsätzliche Entscheidung während des Projekts war die Definition und Abgrenzung des Begriffs "Community" im Rahmen der Befragung, da es vielfältige Möglichkeiten gibt, eine Community zu definieren, und diese dem Untersuchungsgegenstand angemessen sein sollte. Nach intensiver Diskussion einigte sich die Arbeitsgruppe auf die folgende Definition:

  • Eine Community in unserem Sinne ist eine offene Gemeinschaft von Personen und/oder Institutionen, die sich mit dem Thema Langzeitarchivierung auseinandersetzt. Digitale Langzeitarchivierung kann eines von mehreren Themen sein, mit denen sie sich beschäftigt.
  • Die Mitglieder der Community haben sich der digitalen Langzeitarchivierung in einer Weise verschrieben, die über reines Eigeninteresse hinausgeht. Ihr zentraler oder einziger Zweck ist es nicht, ein Produkt zu liefern oder eine kommerzielle Dienstleistung zu erbringen.
  • Die Community ist auch eine Plattform zur Diskussion des Themas digitale Langzeitarchivierung und deren Weiterentwicklung, einschließlich der Entwicklung von Werkzeugen und/oder der Bereitstellung von Dienstleistungen.
  • Sie kann lokal, regional oder international tätig sein.
  • Es spielt keine Rolle, wie groß die Community ist. Sie kann groß oder klein sein.
  • Ob die Community produktbezogen oder nicht produktbezogen ist, ist ebenfalls irrelevant.

In den folgenden Abschnitten möchten wir einige ausgewählte Ergebnisse der Umfrage vorstellen.




Communities zur digitalen Langzeitarchivierung: Wo sind sie angesiedelt?

In Frage 6 haben wir gefragt, in welchem Land oder Teil der Welt die Community ansässig ist. Mehrere Gemeinschaften gaben im Texteingabefeld mehr als ein Land an. Wir haben entweder das Land ausgewählt, in dem sie ansässig sind, oder das erste Land, das sie genannt haben.


Interpretation: Fast alle Communities, die in dieser Umfrage vertreten sind, befinden sich in Industrieländern. Entweder konnten wir die Gemeinschaften in anderen Ländern nicht erreichen oder es gibt nur sehr wenige Communities für digitale Langzeitarchivierung in den Entwicklungsländern und weniger entwickelten Ländern. Dies könnte auf einen Mangel an Ressourcen zurückzuführen sein und zeigt, dass es in den meisten Ländern entweder nur wenige Aktivitäten im Bereich der digitalen Langzeitarchivierung gibt oder dass die Akteur:innen in diesem Bereich nicht über die Ressourcen verfügen, um einer Community beizutreten und vom Austausch mit Kolleg:innen in anderen Ländern zu profitieren. Der letztgenannte Aspekt ist vielleicht nicht so wichtig, da die Gemeinschaften immer mehr digital kommunizieren und es eine Fülle von Literatur und Software gibt, die im Internet frei zugänglich ist.




Communities für digitale Langzeitarchivierung: Sind sie Silos oder kooperieren sie miteinander?

In Frage 25 wollten wir wissen, wie viele Kooperationen mit anderen Communities die teilnehmenden Gemeinschaften derzeit haben. Es waren vier Kästchen zum Ankreuzen vorgesehen. Es konnte nur eine Antwort ausgewählt werden.

Die Grafik zeigt die Anzahl der Kooperationen mit anderen Communities, die die teilnehmenden Communities haben.

Interpretation: Unsere Daten zeigen deutlich, dass die Communities keine Silos sind und dass sie intensiv mit anderen Gemeinschaften zusammenarbeiten. Nur 17 % arbeiten nicht mit einer anderen Community zusammen, während 19 % mit mehr als zehn anderen Communities kooperieren. Einrichtungen und Personen, die sich mit digitaler Langzeitarchivierung befassen, sind häufig Mitglieder in mehreren Communities, sodass ein breiter Austausch von Ideen, Werkzeugen, Veröffentlichungen und anderen Ergebnissen der gemeinsamen Arbeit stattfindet. Digitale Langzeitarchivierung ist eine Aufgabe, die zu kompliziert ist, um sie allein zu bewältigen, und zwar nicht nur auf individueller Ebene, sondern auch auf der Ebene der Communities. Dies mag der Grund für den intensiven Austausch zwischen den Gemeinschaften sein.




Communities zur digitalen Langzeitarchivierung: Wie sind sie organisiert und welche Art von Finanzierung verwenden sie?

In Frage 11 erkundigten wir uns, wie die Gemeinschaften organisiert sind. Die Mehrheit von 93 % gab an, eine gemeinnützige Organisation zu sein. In Frage 14 fragten wir außerdem, wie die Communities sich und ihre Arbeit finanzieren. Sechs Auswahlmöglichkeiten wurden angeboten. Mehrere Antworten waren möglich. Die sechste Option war „Sonstiges“. Dafür gab es ein Texteingabefeld.

Die Einträge für "Sonstiges" wurden neu kategorisiert und sind neben den fünf vorgegebenen Antwortoptionen in der nachstehenden Tabelle aufgeführt. Die unter "Sonstiges" neu kategorisierten und zugewiesenen Einträge sind kursiv dargestellt.

Art der FinanzierungAnzahl% der Antworten
Mitgliedsbeiträge2240,7
Einnahmen aus Services der Community2138,9
Sponsoring1425,9
Drittmittel / Zuschüsse2138,9
Sachleistungen (z.B. von Mitgliedern, die sich als Freiwillige an Arbeitsgruppen beteiligt haben)2138,9
Staatliche Finanzierung814,8
Aufnahmevereinbarungen mit Einrichtungen11,9
Keine Finanzierung35,6
Keine Antwort11,9


Interpretation: Diese Tabelle zeigt, dass die wichtigsten Finanzierungsquellen Mitgliedsbeiträge, Einnahmen aus Services, Sponsoring, Drittmitteln/Zuschüssen und Sachleistungen sind. Alle anderen Quellen haben keine vergleichbare Bedeutung für die Finanzierung. Dies und die Tatsache, dass es sich bei den Communities hauptsächlich um gemeinnützige Organisationen handelt (siehe oben), zeigt, dass die digitale Langzeitarchivierung keine kommerziellen Ziele verfolgt und dass das Selbstverständnis dieser Organisationen mit dem Selbstverständnis von Bibliotheken, Archiven und Museen als Gedächtnisorganisationen vergleichbar ist. In der Tat stammen die in den Communities aktiven Personen aus solchen Organisationen und tragen dieselbe Mentalität in die Gemeinschaft.





Communities zur digitalen Langzeitarchivierung: Was macht eine Gemeinschaft erfolgreich?

In Frage 40 machten wir uns auf die Suche nach den wichtigsten Faktoren für den Erfolg einer Gemeinschaft. Die Teilnehmer:innen gaben oft mehrere Optionen in die Textfelder ein. Das bedeutet, dass es viele unterschiedliche Antworten auf diese Frage gab. Aus diesem Grund haben wir die in den Texteingabefeldern gegebenen Antworten (soweit möglich) verschiedenen Kategorien zugeordnet und in einer Wortwolke dargestellt. Die Wortwolke enthält sowohl alle kategorisierten Antworten als auch die, für die keine Kategorie gefunden wurde.


Wortwolke, die die wichtigsten Aspekte für den Erfolg einer digitalen Langzeitarchivierungs-Community. Dabei enthält die Wortwolke sowohl alle kategorisierten Antworten als auch, für die keine Kategorie gefunden wurde.


Interpretation: Diese Wortwolke zeigt die wichtigsten Aspekte für den Erfolg einer digitalen Langzeitarchivierungs-Community: Drei Aspekte sind sehr wichtig:

  1. Kritische Erfolgsfaktoren sind das Engagement, die Zusammenarbeit und die gemeinsame Nutzung von Wissen und Ressourcen.
  2. Communities unterstützen die Schaffung von Wissen und Technologien für die digitale Langzeitarchivierung.
  3. Die Bandbreite einer Community ist wichtig, da es bei der digitalen Langzeitarchivierung so viele Details gibt, dass die Vielfalt der Kompetenzen und Perspektiven notwendig ist.



Schlussfolgerung zu digitalen Langzeitarchivierungs-Communities

Die nestor-Community-Umfrage bietet eine reichhaltige Datenquelle, die das Verhalten von Gemeinschaften zur digitalen Langzeitarchivierung erklärt. Die Fälle, die wir in diesem Blog-Beitrag aufgegriffen haben, zeigen, dass die Gemeinschaften in Industrieländern angesiedelt sind, dass sie auf mehreren Ebenen in engem Kontakt und in Interaktion miteinander (die Gemeinschaften selbst, einzelne Mitglieder, Institutionen, Personen) und mit den Einrichtungen, die Teil der Communities sind, stehen, und dass es sich hauptsächlich um gemeinnützige Organisationen mit den typischen Finanzierungsquellen und der typischen Mentalität von Gedächtnisorganisationen handelt.


Wiederholung im Jahr 2023

Wir möchten die Umfrage 2023 wiederholen und hoffen, sie mit unseren Erfahrungen aus dem ersten Durchgang zu verbessern. Wir streben an, die Zeit zwischen dem Beginn der nächsten Umfrage und dem Datum der Veröffentlichung der Ergebnisse zu verkürzen und werden einige Fragen neu formulieren, damit sie klarer sind und die Auswertung einfacher wird. Wir hoffen, dass mit der Veröffentlichung der ersten Umfrage das Bewusstsein für die zweite Runde geschärft wird und dass sich dann mehr Communities an der Umfrage beteiligen.

Wir laden alle Gemeinschaften, die im Bereich der digitalen Langzeitarchivierung aktiv sind, dazu ein, Verbesserungsvorschläge für die Umfrage zu machen und an der kommenden Wiederholung teilzunehmen. Wenn Sie an einer Teilnahme interessiert sind, kontaktieren Sie uns bitte.



Dieser Text ist eine Übersetzung aus dem Englischen.

Er erschien zuerst bei ZBW Mediatalk unter dem Titel Digitale Langzeitarchivierung: die Vermessung von Netzwerken mit der nestor Community-Survery.

CC BY 4.0

Zugegeben, der Titel ist sehr plakativ, aber gar nicht so wahrheitsfern wie man auf den ersten Blick meinen mag.

Das Paper

Bei der diesjährigen iPRES in Schottland wurde das Paper vorgestellt: OAIS-compliant digital Archiving of Research and Patrimonial Data in DNA (Start auf S. 221). Verfasst wurde das Short Paper von sieben Forschenden aus der Schweiz, von denen die meisten an der Genfer Universität arbeiten. Sie arbeiten zurzeit an einem Projekt , dessen Proof-of-Concept Mitte 2022 fällig war, nach der Deadline des Papers, aber vor dem Vortrag bei der iPRES im September 2022.

Das Thema lautet: Daten speichern auf DNA. Davon hatte ich wohl schon mal gehört, hielt es aber für futuristisch. Bei dem Vortrag hingegen wurde mir klar, dass das praxistauglich ist. Man hat vier Basen (A, C, T und G) und jede Base kann eine Information tragen, beispielsweise eine 00, eine 01, eine 10 oder eine 11 und schon kann man theoretisch so ziemlich alles damit abbilden und das auf erstaunlich wenig Platz.

Codierung im Projekt / Proof of Concept:
BaseCode
A00
C01
T10
G11

Bei dem Vortrag wurde gesagt, dass dies eine Lösung für jene Daten ist, die selten gebraucht werden, aber lange erhalten werden müssen, aus dem einfachen Grund, dass das Auslesen der Daten eine Weile dauert und Fachpersonal erfordert. Ein erstaunlich hoher Prozentsatz der Daten wird nur selten oder erst nach längerer Zeit wieder benötigt, so dass die Speicherungsmöglichkeit auf DNA bedacht werden sollte.

Unsere Storage-Lösungen fressen unglaublich viel Energie, Tape natürlich weniger als Rechenzentren, aber meistens sind wir auf Strom angewiesen und dies ist angesichts der Klimakatastrophe und der Energiekrise keine Dauerlösung. Wir brauchen andere Lösungen.
DNA kann zwischen 2 und 215 Petabyte pro Gramm (!) an Daten speichern. Im Vergleich: eine handelsübliche externe Festplatte wiegt zwischen 100 und 200 Gramm und kann (Stand November 2022) selten mehr als 2 TB speichern.

Art SpeichermediumSpeichermedium GewichtMögliche Storage-Dichte
DNA2 Gramm4.000 TB (oder mehr)
externe Festplatte200 Gramm2 TB

Die Speicherdichte auf DNA ist hier 200.000 mal so hoch, selbst wenn man (wie in obenstehender Tabelle) von der kleinstgenannten Dichte im Paper ausgeht.


DNA hält bei korrekter Lagerung (keine Energie zur Kühlung etc. notwendig) tausende von Jahren. Aufgrund der hohen Dichte der Daten ist eine Absicherung durch viele Kopien kein Problem.
Drei Vorteile liegen auf der Hand:

  1. Hohe Datendichte, viele Information passen auf wenige Gramm
  2. Keine Energie zum Lagern notwendig
  3. Keine Obsoleszenz (wenn DNA obsolet wird, haben wir ganz andere Problem – keine neue Versionen (DNA Version 2.0 wird es nicht geben)

Diese Idee haben die Forschenden, die das Paper verfasst haben, in OAIS eingebettet, um den gesamten Datenzyklus zu bedenken. Die auf DNA verpackten Daten betreffen natürlich nur das AIP, die Übersetzung der Bits in DNA-Basen erfolgt im Ingestprozess und für die Access-Kopie (DIP) wird wieder zurück übersetzt. Die Architektur ist gebaut auf Standards wie PREMIS, DateCite für die Metadaten, DOI für den persistenten Identifier und OAI-PMH als Schnittstelle. Die DNA Segmente brauchen eine Adresse und es muss klar sein, was darauf gespeichert ist, diese Information muss anderweitig gespeichert sein, damit das Rückübersetzen entfällt.
Die Storage Tubes werden in einem Warenhaus der Archives cantonales vaudoises (ACV) Cantonal Archives of Vaud in der Schweiz gespeichert und die Information (auch die Laborprotokolle, AIP Struktur usw.) werden auf säurefreiem Papier gespeichert. Der langfristige Test beinhaltet, dass die Lesbarkeit nach einem, zwei, fünf, zehn und zwanzig Jahren getestet wird. Pro Vorlage wurden tatsächlich 500.000 Kopien angefertigt. Diese Redundanz kann man sich aufgrund der großen Speicherdichte erlauben.

Diskussion während des Panels

Bei der iPRES wurde das Thema während eines Panels diskutiert. Hier wurde darauf hingewiesen, dass das Beschreiben der DNA noch recht lange dauert, 1 MB pro Sekunde. Bis man ein TB voll hat, ist man mehr als zehn Tage Tag und Nacht beschäftigt. Zahlen für den Access wurden nicht genannt, aber schnell ist das Auslesen auch nicht.
Gefahren für Daten auf DNA sind Oxidation und Hitze, aber man kann sie so aufbewahren, dass diese Gefahren minimiert werden können. Außerdem sind andere Storage-Lösungen auch nicht hitzebeständig und man kann auch keinen LKW drüberfahren lassen und erwarten, dass alles noch in Ordnung ist.
In dem Panel wurden auch offene Fragen thematisiert, beispielsweise wie das File System in der DNA repräsentiert werden. Die DNA Kapseln sollten Barcodes aufgedruckt haben, die die Metadaten dazu liefern.
Es handelt sich hier um eine reine Storage-Lösung, Datei-Obsoleszenz bleibt ein Thema. Es ist denkbar, alle notwendigen Komponenten mitzuspeichern, z. B.Tools zwecks Access und die Datei-Spezifikation.

Nachtrag

Um das alles etwas griffiger zu machen, hat mir Prof. Dr. Dominik Heider freundlicherweise zwei Erklärvideos zu dem Thema weitergeleitet, die das Thema praktisch etwas mehr beleuchten.

Der Datenspeicher der Zukunft? Synthetische DNA!

LOEWE-Schwerpunkt MOSLA-Molekulare Datenspeicher