Kleiner Ratgeber zur Archivierung digitaler Daten
99
gut archivierungstauglich. Gegenwärtig liegen aber
noch nicht viele Erfahrungen mit XML-Daten vor, die
Thematik sollte also weiter verfolgt werden.
Das Schweizer Bundesarchiv hat einen eigenen
Standard „SIARD RDB DATA" etabliert. Tools extra-
hieren dabei aus relationalen Datenbanken Struktur-
informationen sowie Daten und wandeln sie in ein
archivierbares Format um. Es wird auch eine Be-
schreibung der Tabellen und Attribute erwartet. Der
Standard basiert auf SQL, CSV und XML.
Übrigens: Das Schweizer Bundesarchiv archiviert aus-
schließlich die folgenden Formate: TXT, PDF/A, CSV,
SIARD, TIFF und WAVE.
Das „kopal "-Projekt (Kooperativer Aufbau eines
Langzeitarchivs digitaler Informationen) vertraut in die
Langzeitarchivierungsfähigkeit professioneller Daten-
banksysteme (IBM). Allgemeine Vor- und Nachteile
wurden schon beschrieben. Im Falle von „kopal" wer-
den binäre Dokumentformate als BLOBs gespeichert,
womit sich eine Abhängigkeit von proprietären
Datenbankschnittstellen ergibt.
Das Deutsche Archäologische Institut (DAI) fordert zur
Archivierung von Datenbanken eine Dokumentation
(Anforderungen, Datenstruktur als ERD, Tabellen, se-
mantische Beschreibung). Es sollen keine BLOBs, son-
dern Referenzierungen auf das Verzeichnissystem be-
nutztwerden. Neben der Original-Datenbank soll auch
ein softwareunabhängiges Format als XML (+ doku-
mentierte DTD) oder SQL (DDL) bereitgestellt werden.
Weitere Hinweise zur Archivierung von Datenbanken,
auch hinsichtlich XML, findet man bei „Nestor".
Formate für Datenbanken
bevorzugt:
• dauerhaft betriebene Online-
Datenbank
akzeptiert
(ggf. problematisch):
• ggf. SQL (+ Modell, + Schema)
• ggf. CSV (+ Modell, + Schema)
Kandidaten
(problematisch, weiter prüfen):
• ggf. PDF/A (nur für Modell, auch
für Ansichten/Visualisierungen
mit beschränkter Funktionalität)
9 Zusammenfassung: Datenbank-Formate zur Archivierung
Der Betrieb einer Datenbank (Server-DB) beinhaltet in
sich schon alle Aspekte der Langzeitarchivierung, vor
allem die Migration. Insofern muss eine aktive, laufen-
de Datenbank nicht archiviert werden.
Bei der Archivierung von Datenbanken müssen neben
den Daten unbedingt auch die Datenmodelle und
Datenbankschemata archiviert werden. Geeignete
Formate sind SQL und CSV für Daten und Daten-
bankschema sowie gegebenenfalls PDF/A für das kon-
zeptionelle Datenmodell.
6 Schlussfolgerungen, Empfehlungen
Das Ziel der digitalen Archivierung ist es, digitale
Inhalte oder digitale Funktionalitäten dauerhaft
zu erhalten und verfügbar zu machen.
Dabei treten jedoch einige Probleme auf. Während
analoge Medien in der Regel direkt lesbar sind, kön-
nen digitale Medien nur indirekt gelesen werden.
Digitale Informationen erfordern ein komplexes
System aus Hardware, Software, Datenträger und
Datenformat, um einem Rezipienten zugänglich ge-
macht zu werden. Im analogen Bereich wirken Alte-
rungsprozesse langsam, kontinuierlich und damit vor-
hersehbar. Im digitalen Bereich dagegen wirken spon-
tane und kurzfristige Alterungsprozesse, die durch
komplexe Systeme mit relativ geringer Redundanz
noch brisanter werden. Vorteilhaft ist jedoch die
Möglichkeit, digitale Informationen ohne Verlust
kopieren und damit erneuern zu können.
Zur Vorsorge gibt es mehrere Methoden. Die Hard-
copy-Methode eignet sich gut für einfache Doku-
mente, deren Inhalt per Ausdruck vollständig wieder-
gegeben werden kann. Die Hardcopys werden her-
kömmlich archiviert. Die Methode ist für komplexe
Inhalte sowie für Funktionalitäten nicht geeignet. Die
Erhaltungs-Methode eignet sich für Daten, die nur in
ihrer originalen Systemumgebung benutzbar sind
oder wenn Authentizität im Vordergrund steht. Sie ist
sehr aufwendig und außerdem für eine dauerhafte
Bewahrung nicht geeignet. Die Emulations-Methode
ist aufwendig, zeichnet sich aber dadurch aus, dass
sie Originaldaten nutzen kann. Weiterhin bietet sie
gute Möglichkeiten, Funktionalitäten zu bewahren.
Bei der Migrations-Methode werden alle Systemkom-
ponenten, also auch die Daten, stets aktuell gehalten.
Dies gewährleistet einen niedrigen Betreuungsauf-
wand. Die Aktualisierung der Daten erfordert gegebe-
nenfalls eine Überprüfung der Authentizität.
Noch gibt es keine fertig konfektionierten Digital-
archive zu kaufen. Jedoch sind die Prinzipien, nach
denen sie arbeiten müssen, recht klar, sodass man be-
99
gut archivierungstauglich. Gegenwärtig liegen aber
noch nicht viele Erfahrungen mit XML-Daten vor, die
Thematik sollte also weiter verfolgt werden.
Das Schweizer Bundesarchiv hat einen eigenen
Standard „SIARD RDB DATA" etabliert. Tools extra-
hieren dabei aus relationalen Datenbanken Struktur-
informationen sowie Daten und wandeln sie in ein
archivierbares Format um. Es wird auch eine Be-
schreibung der Tabellen und Attribute erwartet. Der
Standard basiert auf SQL, CSV und XML.
Übrigens: Das Schweizer Bundesarchiv archiviert aus-
schließlich die folgenden Formate: TXT, PDF/A, CSV,
SIARD, TIFF und WAVE.
Das „kopal "-Projekt (Kooperativer Aufbau eines
Langzeitarchivs digitaler Informationen) vertraut in die
Langzeitarchivierungsfähigkeit professioneller Daten-
banksysteme (IBM). Allgemeine Vor- und Nachteile
wurden schon beschrieben. Im Falle von „kopal" wer-
den binäre Dokumentformate als BLOBs gespeichert,
womit sich eine Abhängigkeit von proprietären
Datenbankschnittstellen ergibt.
Das Deutsche Archäologische Institut (DAI) fordert zur
Archivierung von Datenbanken eine Dokumentation
(Anforderungen, Datenstruktur als ERD, Tabellen, se-
mantische Beschreibung). Es sollen keine BLOBs, son-
dern Referenzierungen auf das Verzeichnissystem be-
nutztwerden. Neben der Original-Datenbank soll auch
ein softwareunabhängiges Format als XML (+ doku-
mentierte DTD) oder SQL (DDL) bereitgestellt werden.
Weitere Hinweise zur Archivierung von Datenbanken,
auch hinsichtlich XML, findet man bei „Nestor".
Formate für Datenbanken
bevorzugt:
• dauerhaft betriebene Online-
Datenbank
akzeptiert
(ggf. problematisch):
• ggf. SQL (+ Modell, + Schema)
• ggf. CSV (+ Modell, + Schema)
Kandidaten
(problematisch, weiter prüfen):
• ggf. PDF/A (nur für Modell, auch
für Ansichten/Visualisierungen
mit beschränkter Funktionalität)
9 Zusammenfassung: Datenbank-Formate zur Archivierung
Der Betrieb einer Datenbank (Server-DB) beinhaltet in
sich schon alle Aspekte der Langzeitarchivierung, vor
allem die Migration. Insofern muss eine aktive, laufen-
de Datenbank nicht archiviert werden.
Bei der Archivierung von Datenbanken müssen neben
den Daten unbedingt auch die Datenmodelle und
Datenbankschemata archiviert werden. Geeignete
Formate sind SQL und CSV für Daten und Daten-
bankschema sowie gegebenenfalls PDF/A für das kon-
zeptionelle Datenmodell.
6 Schlussfolgerungen, Empfehlungen
Das Ziel der digitalen Archivierung ist es, digitale
Inhalte oder digitale Funktionalitäten dauerhaft
zu erhalten und verfügbar zu machen.
Dabei treten jedoch einige Probleme auf. Während
analoge Medien in der Regel direkt lesbar sind, kön-
nen digitale Medien nur indirekt gelesen werden.
Digitale Informationen erfordern ein komplexes
System aus Hardware, Software, Datenträger und
Datenformat, um einem Rezipienten zugänglich ge-
macht zu werden. Im analogen Bereich wirken Alte-
rungsprozesse langsam, kontinuierlich und damit vor-
hersehbar. Im digitalen Bereich dagegen wirken spon-
tane und kurzfristige Alterungsprozesse, die durch
komplexe Systeme mit relativ geringer Redundanz
noch brisanter werden. Vorteilhaft ist jedoch die
Möglichkeit, digitale Informationen ohne Verlust
kopieren und damit erneuern zu können.
Zur Vorsorge gibt es mehrere Methoden. Die Hard-
copy-Methode eignet sich gut für einfache Doku-
mente, deren Inhalt per Ausdruck vollständig wieder-
gegeben werden kann. Die Hardcopys werden her-
kömmlich archiviert. Die Methode ist für komplexe
Inhalte sowie für Funktionalitäten nicht geeignet. Die
Erhaltungs-Methode eignet sich für Daten, die nur in
ihrer originalen Systemumgebung benutzbar sind
oder wenn Authentizität im Vordergrund steht. Sie ist
sehr aufwendig und außerdem für eine dauerhafte
Bewahrung nicht geeignet. Die Emulations-Methode
ist aufwendig, zeichnet sich aber dadurch aus, dass
sie Originaldaten nutzen kann. Weiterhin bietet sie
gute Möglichkeiten, Funktionalitäten zu bewahren.
Bei der Migrations-Methode werden alle Systemkom-
ponenten, also auch die Daten, stets aktuell gehalten.
Dies gewährleistet einen niedrigen Betreuungsauf-
wand. Die Aktualisierung der Daten erfordert gegebe-
nenfalls eine Überprüfung der Authentizität.
Noch gibt es keine fertig konfektionierten Digital-
archive zu kaufen. Jedoch sind die Prinzipien, nach
denen sie arbeiten müssen, recht klar, sodass man be-