Datenformat für Langzeitarchivierung

bananenBrot

Well-Known Member
Hallo.
Aktuell beschäftige ich mich mich Langzeitarchivierung von wichtigen Daten wie Bilder von besonderen Ereignissen, Dokumenten usw.
Aktuell habe ich (neben einem Backup auf externen Medien) alle meine wichtigen Bilder in ein ZIP gepackt und dieses verschlüsselt extern auf nem Rootserver gelagert (quasi für den Notfall, dass zuhause alles abfackelt).
Jetzt habe ich mir dieses 2 GB zip Archiv angeschaut und überlegt, was wohl passiert, wenn da diverse Bits umkippen (Bitrot)
Kann es sein, dass es gar nicht so schlau ist, alles in ein Format zu packen, was bei bestimmten Änderungen gar nicht mehr entpackt werden kann?

Wie macht ihr das denn?
Gruß
 
Eigentlich hast du das Problem ja immer.
Ein Bitrot kann dir auch deine unverschlüsselten und ungepackten Dateien kaputt machen. Der Einzige Vorteil dabei ist, dass viele Formate ein einzelne falsches Bit an der richtigen Stelle nicht stört, und dir nur eine Datei kaputt geht.

Hast du eine große verschlüsselte ZIP-Datei ist das Problem halt, dass dein einzelnes Bit dir unter Umständen dein komplettes Archiv zerstören kann.

Eigentlich geht da nix drüber deine Datenkonsistenz sicher zu stellen. Sprich das Ganze auf ein gescheites RAID legen. Pack ein redundantes ZFS drunter oder so. Oder leg den Kram mehrfach ab (das ist zwar nicht schön, aber selten).

Das wären so meine Vorschläge dazu.
 
Das muss man wohl auch auf das Medium erweitern.
Ich habe dazu Artikel gelesen, dass optische Medien generell (bei geeigneter Lagerung) besser geeignet sind, als magnetische. Es gab in der Medizintechnik spezielle CDs mit Garantie für zehn stabile Jahre. Wie das heute aussieht, weiß ich nicht, aber für eine 2GB große Datei wäre das womöglich keine schlechte Idee.

Persönlich hatte ich immer viel von Sticks gehalten und auch inzwischen über zehn Jahre Erfahrung, auch bei Lagerung an eher ungünstigen Stellen und sie halten bisher gut. Kaputt gehen die eigentlich nur im Gebrauch, nicht durch Lagerung und die Daten bleiben offenbar auch gut erhalten.

Es gilt natürlich, was Rakor sagte.
In meinem Bekanntenkreis nutzen nur sehr sehr wenige Leute einen Speicher im WWW. Fast alle vertrauen auf mehrere Medien an unterschiedlichen Orten. Der berühmte Wohnungsbrand steht dabei jedem vor Augen, der Wasserschaden wird meist nicht befürchtet, ist dann aber mit der Verteilungsmethode ebenfalls abgedeckt.
Bei mir hält ein FreeBSD-Server mit redundantem ZFS inzwischen wohl auch schon zehn Jahre seine Daten stabil und regelmäßige Backups auf externe Medien ziehe ich für den Fall der Fälle ebenfalls. Die werden also regelmäßig "refreshed", so dass die Daten darauf nicht wirklich lange lagern müssen. Sonst würde ich mir wohl auch eine Sammlung mit optischen Medien anlegen und auf mehrere Orte verteilen.
 
Früher habe ich auch größere Datenmengen in Archive gezippt. Davon bin ich lange ab, weil es zu gefährlich ist. Aus Gründen,die hier bereits angesprochen wurden. Ob optische oder magnetische Medien oder auch USB Sticks. Da gibt es gewaltige Qualitätsunterschiede. Qualität hat seinen Preis. Wer Wert auf Sicherheit legt, sollte das genügend berücksichtigen. Ansonsten liegen meine Daten (auch) zusätzlich in einer Cloud. Da habe ich noch nie mit Probleme gehabt. Optische Datenträger reichen nicht aus, wie ich neulich bei DragonFly 5.0 gesehen habe, das meine CD/DVD Laufwerk nicht erkannte. Wenn ich die Daten nicht doppelt gesichert hätte, hätte ich da ein Riesenproblem gehabt.
 
Zur Archivierung nutze ich einmal heute weit verbreitete, offene und standardisierte Dateiformate. Also beispielsweise JPEG für Bilder, MP3 für Audio und H.264 im Matroska-Container für Video. Damit hat man eine recht hohe Chance, dass die Daten auch noch in 50 Jahren gelesen werden können. Zu jeder Datei rechne ich eine Prüfsumme, die ich für später Konsistenzchecks neben ihr speichere. Das alles wird dann 3x vorgehalten. Einmal lokal auf der Festplatte im Dauerzugriff, auf einer externen Platte im Schrank hinter mir und bis zum Sommer in einem Bankschließfach. Die externe Platte und die Kopie im Schließfach habe ich einmal jährlich umkopiert. Da die Bank die Preise erhöht hat und Bankschließfächer nicht beschlagnahmungssicher sind (das kann jeden treffen, egal ob man irgendwas Illegales getan hat oder nicht), habe ich dir Drittkopie nun für kleines Geld auf Tarsnap liegen.
 
(das kann jeden treffen, egal ob man irgendwas Illegales getan hat oder nicht)
Kann ich bestätigen, wegen eines ehemaligen Arbeitskollegen einer Nebenabteilung, den ich kaum gekannt hatte...

Vorallem sind die Daten auf den beschlagnahmten Datenträgern dann nichtmehr vertrauenswürdig (zumindest für mich), siehe Reengineering Chaos Computer Club 2008, 2010, 2011 Bundestrojaner
Um diese Inhalte anzuzeigen, benötigen wir die Zustimmung zum Setzen von Drittanbieter-Cookies.
Für weitere Informationen siehe die Seite Verwendung von Cookies.
 
Ich synce meine Daten per syncthing mit meinen verschiedenen Rechnern. Zusätzlich noch auf eine externe Platte und zur Sicherheit noch einmal per Tarsnap.
 
Zur Archivierung nutze ich einmal heute weit verbreitete, offene und standardisierte Dateiformate. Also beispielsweise JPEG für Bilder, MP3 für Audio und H.264 im Matroska-Container für Video. Damit hat man eine recht hohe Chance, dass die Daten auch noch in 50 Jahren gelesen werden können. Zu jeder Datei rechne ich eine Prüfsumme, die ich für später Konsistenzchecks neben ihr speichere. Das alles wird dann 3x vorgehalten. Einmal lokal auf der Festplatte im Dauerzugriff, auf einer externen Platte im Schrank hinter mir und bis zum Sommer in einem Bankschließfach. Die externe Platte und die Kopie im Schließfach habe ich einmal jährlich umkopiert. Da die Bank die Preise erhöht hat und Bankschließfächer nicht beschlagnahmungssicher sind (das kann jeden treffen, egal ob man irgendwas Illegales getan hat oder nicht), habe ich dir Drittkopie nun für kleines Geld auf Tarsnap liegen.
Eine intelligente und vorbildliche Datensicherungsstrategie, die mir sehr gefällt.
 
Ich lagere meine Dateien in einem RAIDZ2. Damit habe ich zunächst Ruhe und muss nur hoffen, dass nicht zwei Platten gleichzeitig ausfallen. Hauptsächlich geht's um meine Musik, die zu 95% in FLAC vorliegt. Dann noch meine Fotos, die als NEF, also dem RAW-Format von Nikon, vorliegen.

Beide Formate sind verlustfrei, so dass ich später nochmal auf ein schöneres Format wechseln kann, wenn das akut werden sollte. Sonst habe ich nichts großartig an Daten, die gesichert werden müssten. Alles andere versuche ich auch in gängigen Formaten zu sichern.

Ich denke nun schon länger über eine langfristige Lösung für ein externes Backup nach, die nicht auf einen zentralen, großen Anbieter zurückgreift und dabei auch noch halbwegs komfortabel ist.

PS: Was ich so tagtäglich brauche, also ein paar Konfigurationsdateien und Notizen, synchronsisiere ich auch via syncthing.
 
Dateisysteme (auch ZFS) ist sind nur temporär. Für Langzeitarchivierung würde ich ein Format mit Prüfsummen und Forwärtsfehlerkorrektur verwenden z.B. PAR2. Das heisst nicht das da kein RAID (bzw. ZFS) drunter passt. Ein Dateisystem mit End to End Checksumming wie ZFS hilft dabei Daten so zurück zubekommen wie man sie geschrieben hat, aber leider kann man sich kaum darauf verlassen nur solche Dateisysteme zu verwendene. Manchmal muss man seine Daten übers Netzwerk replizieren. An solchen Übergängen ist es wichtig, das die Dateien selbst Prüfsummen enthalten.
 
dass die Daten auch noch in 50 Jahren gelesen werden können.
von mir sicher nicht mehr :(

Aber ein wichtiger Punkt: Langzeit im Sinne der IT ist ja niemals für wirklich lange. Es gibt ja die gesamte IT noch nicht lange und es hat sich inzwischen schon dramatisch viel verändert. Wohin die Reise geht, wissen wir alle nicht und die Macher geplanter Langzeitarchive für das menschliche Wissen haben genau damit ja auch ihre Probleme.
Ich denke, ein Rahmen von etwa 10 Jahren sollte im Sinne von Lanzeit-Archiv maximal ins Auge gefasst werden.

Innerhalb von zehn Jahren wird sicher auch der Inhalt eines solchen Archivs sich ändern, so dass man also auch über die Zeit keine rein statische Archivierung haben wird. Dass dabei dann auch der Austausch von Medien hinzukommt, verändert ja den Anspruch an ein zunächst gewähltes Medium. Es ist ja schon der Tod der optischen Medien absehbar. Wer also heute auf DVDs speichert und archiviert, wird sicher in den nächsten Jahren irgendwann wechseln müssen. Wenn es dann mal keine magnetischen Datenträger mehr gibt, wird das entsprechend wieder gelten und daraus leite ich ab, dass ich heute nicht länger als maximal zehn Jahre als Archivierungszeitraum plane.
Ein Medium und Format, das ich heute wähle, sollte diesen Zeitraum überdauern können. Es wird aber aller Voraussicht nach nicht tatsächlich in diesem Bereich gefordert, sondern schon früher ersetzt werden.

Mit Bankschließfach ist lustig, das wollte ich nämlich auch mal, habe aber gar keines bekommen.
Die Dinger kosten ja nicht nur relativ viel, sie sind auch kompliziert zu handhaben.
In meinem Umkreis hat sich die Familie daher gut bewährt. Es gibt da mehrere Stellen in nicht allzu weiter Ferne, die sich als einfacher Speicher-Ort anbieten. In meinem Bekanntenkreis ist das unterschiedlich, da toleriert man dann mal einen kompletten Aktentresor (da gibt es ja rechtliche Vorschriften, wie stabil und Feuerfest so etwas sein muss), der nur dem Eigentümer des Inhaltes auch zugänglich ist und manchmal akzeptiert man die Lagerung des Speichers im eigenen Tresor (oder der Nachttischschublade oder wo auch immer). Ich finde das gut und die berühmten Familienfeste machen dann auch einen besonderen Sinn, wenn man seine Daten zu diesen Gelegenheiten aktualisiert.
Interessant finde ich bei der Gelegenheit den Gedanken, inwieweit sich jemand da womöglich strafbar macht, wenn auf diese Weise die Speicherung illegaler Daten ermöglicht wird(hier: Speicherung = Aufbewahrung). Manchmal ist es vielleicht besser, das Denken gar nicht erst anzufangen...
 
Zur Archivierung nutze ich einmal heute weit verbreitete, offene und standardisierte Dateiformate. Also beispielsweise JPEG für Bilder, MP3 für Audio und H.264 im Matroska-Container für Video. Damit hat man eine recht hohe Chance, dass die Daten auch noch in 50 Jahren gelesen werden können. Zu jeder Datei rechne ich eine Prüfsumme, die ich für später Konsistenzchecks neben ihr speichere. Das alles wird dann 3x vorgehalten. Einmal lokal auf der Festplatte im Dauerzugriff, auf einer externen Platte im Schrank hinter mir und bis zum Sommer in einem Bankschließfach. Die externe Platte und die Kopie im Schließfach habe ich einmal jährlich umkopiert. Da die Bank die Preise erhöht hat und Bankschließfächer nicht beschlagnahmungssicher sind (das kann jeden treffen, egal ob man irgendwas Illegales getan hat oder nicht), habe ich dir Drittkopie nun für kleines Geld auf Tarsnap liegen.
Wobei ich noch einen Schritt weiter gehe und die Spezifikationen der Dateiformate und eine Referenzanwendung beilege. Bei mir werden Bänder als Lagermedium genutzt und bei Bedarf auf ein aktuelles Band umkopiert. Das ganze Prozedere natürlich noch zur Sicherheit in Papierform gegossen, falls ich also vom legendären Bus überfahren werde ist sichergestellt, dass die Daten trotzdem verfügbar sind.
 
Bei mir sieht's ähnlich aus wie bei @Yamagi. Ich sichere einmal auf eine USB-Festplatte (geli-verschlüsseltes ZFS) und dann immer auch nach Tarsnap. Wobei das mit dem "kleinen Geld" bei mir schon lange nicht mehr stimmt - ich sichere einen Großteil meines Arbeitsrechners und auch den Familienrechner dahin (mit Fotos und allem). Da hilft dann auch die Deduplizierung und Kompression von Tarsnap nur noch beschränkt.

Die Keys sind an sicherer Stelle (sprich: in einer anderen Stadt) hinterlegt. So komme ich im schlimmsten Fall (Hausbrand) immerhin noch an die Kopie bei Tarsnap.

Auf Servern setze ich ansonsten gerne noch sysutils/duplicity ein. Das kann ich auch dem OP empfehlen, da die Originaldateien immer in ca. 50(?) MB großen gezippten Tar-Archiven zusammengefasst und dann mit GnuPG verschlüsselt werden. So verliert man bei Bitrott vielleicht mal eines oder ein paar dieser Archive. Aber nicht gleich alles.

Für die Backups der Firmen-Laptops (Linux/Windows) nutzen wir neuerdings auch Duplicati. Dem traue ich noch nicht über den Weg was "Langzeit" betrifft. Aber das steht hier auch nicht im Vordergrund. Hier geht es um Kurz- oder maximal Mittelfrist-Speicherung für die Wiederherstellung z.B. nach Diebstahl, Plattencrash,...
 
Sobald man etwas zuverlässig für >10 Jahre speichern will kann man sich entweder in Unkosten stürzen (z.B. Bänder unter den richtigen Bedingungen) oder einsehen, das die Datenträger nicht das Relevante sind. Möchtest du in 10 oder gar 50 Jahren die Datenträger oder die Daten? Ich wäre mehr an den Daten interessiert. Deswegen brauchst du Redundanz und Prüfsummen um Fehler erkennen und beheben zu können. Deine Daten sind also nicht einfach tote Bits die langsam verrotten sondern müssen regelmäßig kontrolliert werden damit du Schäden beheben kannst bevor sie sich lange genug addiert haben um die Möglichkeiten deiner Fehlerkorrektur zu überfordern.
 
Da es noch nicht genannt wurde: ZPaq. Komprimiert, Dedupliziert, hat Checksums und verschlüsselt auf Wunsch mit AES. Dazu kann ein Index des Archivs lokal gespeichert werden (wenige MB für ein 100GB+ Archiv), mit dessen hilfe ein neues inkrementelles Backup gemacht werden kann - dieses Teilarchiv dann wieder einzeln wegsichern. Das ganze funktioniert unkompliziert auf allen gängigen OSen.

Wers ganz sicher will kann auch 2mal hintereinander die gleichen Daten zum Archiv hinzufügen, sollte es wirklich beim hinzufügen selbst einen Bitfehler im RAM gegeben haben, wird das so auch erkannt (die Checksum der Datei am FS muss dann ja anders sein als die im Archiv).
 
Ich stimmt den Vorpostern zu, möchte aber noch aber noch eine zusätzliche Überlegungen einbringen, nämlich, dass man wenn möglich verlustfreie Formate nutzt und dafür den Compression-Level hoch schraubt.

Hintergrund: Wenn man wirklich archivieren will sollte man dafür sorgen nicht was wegzuschneiden, was man vielleicht in zig Jahren später bereut, vor allem auch wenn man später raus findet, dass man es doch will. Ein ähnliches Problem ist das (vielleicht versehentliche) Wegschnippseln von Metadaten.

Ein Seiteneffekt ist dass diese Formate meist relativ simpel in der Dekompression sind und man die notfalls gut reversen könnte.

Wenn man die Kompression im Dateiformat überspringt und was wirklich banal simples nimmt, wie ein Bitmap kann man übrigens mit generischer Kompression kommen und viel raus holen oder sogar blockweise deduplizieren, was auch hilfreich sein kann und im Endeffekt potentiell sogar mehr bringen könnte.
 
Zurück
Oben