Zugegeben, der Titel ist sehr plakativ, aber gar nicht so wahrheitsfern wie man auf den ersten Blick meinen mag.

Das Paper

Bei der diesjährigen iPRES in Schottland wurde das Paper vorgestellt: OAIS-compliant digital Archiving of Research and Patrimonial Data in DNA (Start auf S. 221). Verfasst wurde das Short Paper von sieben Forschenden aus der Schweiz, von denen die meisten an der Genfer Universität arbeiten. Sie arbeiten zurzeit an einem Projekt , dessen Proof-of-Concept Mitte 2022 fällig war, nach der Deadline des Papers, aber vor dem Vortrag bei der iPRES im September 2022.

Das Thema lautet: Daten speichern auf DNA. Davon hatte ich wohl schon mal gehört, hielt es aber für futuristisch. Bei dem Vortrag hingegen wurde mir klar, dass das praxistauglich ist. Man hat vier Basen (A, C, T und G) und jede Base kann eine Information tragen, beispielsweise eine 00, eine 01, eine 10 oder eine 11 und schon kann man theoretisch so ziemlich alles damit abbilden und das auf erstaunlich wenig Platz.

Codierung im Projekt / Proof of Concept:
BaseCode
A00
C01
T10
G11

Bei dem Vortrag wurde gesagt, dass dies eine Lösung für jene Daten ist, die selten gebraucht werden, aber lange erhalten werden müssen, aus dem einfachen Grund, dass das Auslesen der Daten eine Weile dauert und Fachpersonal erfordert. Ein erstaunlich hoher Prozentsatz der Daten wird nur selten oder erst nach längerer Zeit wieder benötigt, so dass die Speicherungsmöglichkeit auf DNA bedacht werden sollte.

Unsere Storage-Lösungen fressen unglaublich viel Energie, Tape natürlich weniger als Rechenzentren, aber meistens sind wir auf Strom angewiesen und dies ist angesichts der Klimakatastrophe und der Energiekrise keine Dauerlösung. Wir brauchen andere Lösungen.
DNA kann zwischen 2 und 215 Petabyte pro Gramm (!) an Daten speichern. Im Vergleich: eine handelsübliche externe Festplatte wiegt zwischen 100 und 200 Gramm und kann (Stand November 2022) selten mehr als 2 TB speichern.

Art SpeichermediumSpeichermedium GewichtMögliche Storage-Dichte
DNA2 Gramm4.000 TB (oder mehr)
externe Festplatte200 Gramm2 TB

Die Speicherdichte auf DNA ist hier 200.000 mal so hoch, selbst wenn man (wie in obenstehender Tabelle) von der kleinstgenannten Dichte im Paper ausgeht.


DNA hält bei korrekter Lagerung (keine Energie zur Kühlung etc. notwendig) tausende von Jahren. Aufgrund der hohen Dichte der Daten ist eine Absicherung durch viele Kopien kein Problem.
Drei Vorteile liegen auf der Hand:

  1. Hohe Datendichte, viele Information passen auf wenige Gramm
  2. Keine Energie zum Lagern notwendig
  3. Keine Obsoleszenz (wenn DNA obsolet wird, haben wir ganz andere Problem – keine neue Versionen (DNA Version 2.0 wird es nicht geben)

Diese Idee haben die Forschenden, die das Paper verfasst haben, in OAIS eingebettet, um den gesamten Datenzyklus zu bedenken. Die auf DNA verpackten Daten betreffen natürlich nur das AIP, die Übersetzung der Bits in DNA-Basen erfolgt im Ingestprozess und für die Access-Kopie (DIP) wird wieder zurück übersetzt. Die Architektur ist gebaut auf Standards wie PREMIS, DateCite für die Metadaten, DOI für den persistenten Identifier und OAI-PMH als Schnittstelle. Die DNA Segmente brauchen eine Adresse und es muss klar sein, was darauf gespeichert ist, diese Information muss anderweitig gespeichert sein, damit das Rückübersetzen entfällt.
Die Storage Tubes werden in einem Warenhaus der Archives cantonales vaudoises (ACV) Cantonal Archives of Vaud in der Schweiz gespeichert und die Information (auch die Laborprotokolle, AIP Struktur usw.) werden auf säurefreiem Papier gespeichert. Der langfristige Test beinhaltet, dass die Lesbarkeit nach einem, zwei, fünf, zehn und zwanzig Jahren getestet wird. Pro Vorlage wurden tatsächlich 500.000 Kopien angefertigt. Diese Redundanz kann man sich aufgrund der großen Speicherdichte erlauben.

Diskussion während des Panels

Bei der iPRES wurde das Thema während eines Panels diskutiert. Hier wurde darauf hingewiesen, dass das Beschreiben der DNA noch recht lange dauert, 1 MB pro Sekunde. Bis man ein TB voll hat, ist man mehr als zehn Tage Tag und Nacht beschäftigt. Zahlen für den Access wurden nicht genannt, aber schnell ist das Auslesen auch nicht.
Gefahren für Daten auf DNA sind Oxidation und Hitze, aber man kann sie so aufbewahren, dass diese Gefahren minimiert werden können. Außerdem sind andere Storage-Lösungen auch nicht hitzebeständig und man kann auch keinen LKW drüberfahren lassen und erwarten, dass alles noch in Ordnung ist.
In dem Panel wurden auch offene Fragen thematisiert, beispielsweise wie das File System in der DNA repräsentiert werden. Die DNA Kapseln sollten Barcodes aufgedruckt haben, die die Metadaten dazu liefern.
Es handelt sich hier um eine reine Storage-Lösung, Datei-Obsoleszenz bleibt ein Thema. Es ist denkbar, alle notwendigen Komponenten mitzuspeichern, z. B.Tools zwecks Access und die Datei-Spezifikation.

Nachtrag

Um das alles etwas griffiger zu machen, hat mir Prof. Dr. Dominik Heider freundlicherweise zwei Erklärvideos zu dem Thema weitergeleitet, die das Thema praktisch etwas mehr beleuchten.

Der Datenspeicher der Zukunft? Synthetische DNA!

LOEWE-Schwerpunkt MOSLA-Molekulare Datenspeicher


  • Keine Stichwörter

Kommentar

  1. Naumann, Kai sagt:

    Fun fact: zum Nutzungsvorgang gehört, dass einige Körnchen der DNA aus den Storage Tubes herausgekippt werden. Das Auslesen ist nämlich mit Auflösen in einer Flüssigkeit verbunden. Sprich: irgendwann sind die Körnchen alle, also muss der Roboter von Zeit zu Zeit für Nachschub sorgen. Aber definitiv werden diese Probleme gelöst werden. So wie sie für magnetische Medien auch gelöst wurden.