Daten verwalten

Icon Figuren, die an einem Tisch sitzen

Zentrale Elemente des Forschungsdatenmanagements (FDM) sind klare Dateibenennung, strukturierte Ordnerorganisation, Metadaten und Dokumentation, sichere Datenspeicherung sowie regelmäßige Backups. FDM ist essenziell, um Datenverlust zu vermeiden, Nachvollziehbarkeit bzw. Reproduzierbarkeit sicherzustellen und die Nachnutzung der Daten durch Sie selbst und andere Forschende zu ermöglichen. Bei sensiblen oder vertraulichen Daten gehört zum FDM außerdem die Umsetzung von ethischen und datenschutzrechtlichen Vorgaben. Ein Datenmanagementplan (DMP) ist entscheidend für ein effektives Forschungsdatenmanagement. 

Fragen? Schreiben Sie uns an researchdata@unibe.ch

Um spätere Fehler, Verwechslungen und langes Suchen zu vermeiden, ist es sinnvoll, bereits zu Beginn des Projektes Zeit in eine systematische Organisation der Dateien und Ordner zu investieren. Dies ist besonders wichtig, wenn Sie mit anderen Forschenden zusammenarbeiten. Genutzte Schemata sollten mit allen an einem Projekt beteiligten Personen verbindlich vereinbart werden. Halten Sie das Organisations- und Benennungsschema in einem Dokument fest, das Sie während der Arbeit als Referenz und bei der Veröffentlichung oder Archivierung als Dokumentation Ihrer Daten verwenden können. 

  • Gruppieren Sie verwandte Dateien in Ordnern (z.B. nach genutzten Archiven, Messungen, Interviewpartnern, Methoden oder Projektphasen) 

  • Verwenden Sie klare und eindeutige Ordnernamen 

  • Verwenden Sie eine hierarchische Ordnerstruktur (Achtung: eine zu verschachtelte Ordnerstruktur führt zu langen und komplizierten Dateipfaden) 

  • Trennen Sie aktive und abgeschlossene Dateien in separaten Ordnern und löschen Sie Dateien, die nicht mehr benötigt werden. 

  • Nutzen Sie einen Archivordner für Dateien, die überholt sind, aber für spätere Referenzzwecke aufbewahrt werden sollen. 

Beispiel einer Ordnerstruktur des UK Data Service. 

Achten Sie darauf, Dateinamen nur einmal zu vergeben und so zu wählen, dass Sie auch von Personen, die mit dem Projektkontext nicht vertraut sind, verstanden werden können. Sie können Ihre Dateinamen zum Beispiel aus den folgenden Elementen zusammensetzen: 

  • Erstellungsdatum (JJJJ-MM-TT) 

  • Projektname oder -kennung 

  • Inhaltsbeschreibung (Stichwörter) 

  • Name der Urheberschaft (Initialen oder ganzer Name) 

  • Name der Forschungsgruppe, der Abteilung o.ä. 

  • Versionsnummer 

 
Um Probleme mit internen Vorgaben von Computer-Betriebssystemen zu vermeiden, sollten Sie die folgenden guten Praktiken berücksichtigen: 

  • Kurze Namen (max. 32 Zeichen) 

  • Keine Sonderzeichen (: & * % $ £ ] { ! @) 

  • Unterstriche _ statt Leerzeichen oder Punkten 

  • Nutzen Sie Dateiendungen (etwa .txt, .csv) wo immer möglich 

  • Verlassen Sie sich nicht auf die Unterscheidung von Gross- und Kleinschreibung 

 

Beispiele für Benennungskonventionen finden sich auf der Webseite des Geneva Graduate Institute

Durch eine gezielte Wahl des Dateiformats kann die Nachnutzbarkeit von Forschungsdaten erheblich verbessert werden, so dass Dateien auch nach Jahren noch verarbeitet werden können. Bei der Wahl eines geeigneten Formates sollten verschiedene Faktoren berücksichtigt werden: 

  • Zukunftsfähigkeit: Wie viele Softwareprodukte können das Datenformat lesen? 

  • freie Zugänglichkeit zur Dokumentation 

  • keine rechtlichen Beschränkungen (Patente, kommerzielle Lizenzen) 

  • keine technischen Beschränkungen (Verschlüsselung, Digital Rights Management (DRM)) 

  • etabliert in der jeweiligen Fachgemeinschaft 

 
Je nach Fachgebiet können sich Forschungsdaten und deren Dateiformate stark unterscheiden. Folgende Dateiformate sind grundsätzlich empfehlenswert: 

  • Bilder: TIFF, TIF 

  • Dokumente: TXT, PDF/A 

  • Tabellen: CSV 

  • Audiodateien: WAV 

  • Datenbanken: SQL, XML 

  • strukturierte Daten: XML, JSON, YAML 

 
Weitere Informationen über empfohlene Dateiformate und deren Haltbarkeit finden Sie unter hier. 

 

Versionskontrolle ist ein zentraler Bestandteil des Datenmanagements und unerlässlich bei Datensätzen, die sich im Lauf eines Projektes ändern. Dies stellt sicher, dass Änderungen nachvollziehbar sind und bei Bedarf rückgängig gemacht werden können. Bewährte Verfahren für manuelle Versionierung sind: 

  • Verändern Sie die Rohdaten nicht, damit Sie später jederzeit wieder auf die Originalversion zurückgreifen können. Bewahren Sie die Originaldaten als Referenzversion (golden copy) auf. 

  • Erstellen Sie Arbeitskopien und speichern Sie regelmäßig Meilenstein-Versionen. Meilenstein-Versionen enthalten einen Zwischenstand der Daten, z. B. nach Abschluss eines definierten Verarbeitungsschritts wie Transkription, Anonymisierung oder Bereinigung. 

  • Einzelne Datensätze sollten fortlaufend benannt werden; der Dateiname sollte sowohl das Speicherdatum (JJJJ-MM-TT) als auch die Versionsnummer enthalten. 

  • Führen Sie eine Versionstabelle, in der alle Versionen (einschließlich Dateinamen, Änderungen, Gründe für Änderungen und verantwortliche Mitarbeitende) dokumentiert sind. Dies erleichtert die Nachverfolgung von Änderungen, insbesondere bei umfangreichen Datensätzen. 

Zur Verwaltung von Code sollten spezifische Versionierungssysteme wie Git verwendet werden. 

Weiterführende Informationen zu guten Praktiken siehe hier

Wo Sie Ihre Daten während Ihres Projektes speichern können, hängt von verschiedenen Faktoren ab: 

  • finanzielle Mittel; 

  • Sensibilität der Daten: Enthalten Ihre Daten personenbezogene Informationen? Stehen Ihre Daten unter Lizenzen oder vertraglichen Vereinbarungen, die sichere Speicherung verlangen? 

  • Zugänglichkeit: Wie oft müssen Sie auf Ihre Daten zugreifen und sie ändern? Wie viele Mitarbeitende benötigen Zugriff? 

Die Universität Bern bietet eine Reihe von Speichersystemen für Forschungsdaten; Netzwerkspeicher (NAS) für verschiedene Anwendungsszenarien sowie Cloud-Speicher von Microsoft (Sharepoint/OneDrive). Kontaktieren Sie den IT-Support Ihres Instituts, Departments oder Ihrer Fakultät für nähere Informationen und Unterstützung. 

Sicherungskopien / Backups sind essenziell, um Ihre Daten bei Verlust oder versehentlichen Änderungen wiederherstellen zu können.  

Die 3-2-1-Strategie ist eine bewährte Methode zum Erstellen von Sicherungskopien: 

  • 3 Exemplare/Kopien der Daten (1 Arbeitsversion + 2 Sicherungen) 

  • Speicherung auf 2 verschiedenen Medien (z.B. externe Festplatten, USB-Laufwerke, Cloudspeicher) 

  • 1 Kopie an einem externen Speicherort (z.B. externe Festplatte zu Hause, Cloudspeicher) 

Die Sicherung sollte in regelmässigen Abständen automatisiert erfolgen. Überprüfen Sie, ob die Sicherung fehlerfrei erfolgte und die Daten im Bedarfsfall auch wieder zurückgespielt werden können. 

Für automatische Backups auf Ihren persönlichen Geräten empfehlen wir Open-Source-Tools wie etwa Duplicati

Um die Integrität der Sicherungskopien zu prüfen, können Sie Prüfsummen-Programme wie MD5 Summer nutzen. 

Wenn Sie die universitären Speicher wie Campus Storage nutzen, werden Ihre Daten automatisch gesichert (siehe die Informationen im UniBE-Intranet). 

Eine umfassende Dokumentation ist für die korrekte Interpretation und die (Nach-)Nutzung Ihrer Daten von entscheidender Bedeutung. Anders als Metadaten zielt Dokumentation primär auf menschliche Leser und ist im Sinne der FAIR data principles zentral. 

Dokumentation sollte vor allem die folgenden Informationen enthalten: 

  • Urheberschaft der Daten 

  • Kontextinformationen zur Erhebung der Daten, z.B. Projektkontext 

  • Informationen zur Nachnutzung der Daten, so etwa die Lizenz, unter der die Daten genutzt werden können, oder Beschränkungen von Datenzugang und -nutzung 

  • Zeit und Ort der Datenerhebung 

  • Methoden der Datenerhebung 

  • Tools und Software, mittels derer die Daten erhoben wurden 

  • Information zur Struktur und Aufbereitung der Daten, z.B. Variablen, Kodierungen, fehlende Werte, Terminologie, Abkürzungen und Akronyme. 

Diese Informationen sollten in einer separaten Datei (ReadMe) gespeichert werden, die Ihrem Datensatz beigegeben wird. Sie können dazu unsere Vorlage nutzen: ReadMe_Template_DE 

Weitere Informationen zu ReadMe-Dateien finden sich hier. Auf BORIS Portal finden sich zahlreiche Datensätze mit ReadMe-Dateien, an denen Sie sich orientieren können.  

Allgemeine Leitlinien für die Dokumentation von Daten finden sich in der Empfehlung des Open-Science-Teams zur Datendokumentation

 

Metadaten sind strukturierte und maschinenlesbare Informationen über Objekte (einschließlich Daten). Sie helfen Ihnen und anderen Forschenden, Daten zu finden und nachzunutzen, und ermöglichen es Maschinen und Algorithmen, diese zu analysieren und zu verarbeiten. Metadaten sind ein zentraler Bestandteil der Umsetzung der FAIR-Datenprinzipien

Bei der Publikation von Daten werden Metadaten automatisch erzeugt, wenn Sie die Eingabemaske des Repositoriums ausfüllen. Repositorien verwenden in der Regel etablierte Metadatenstandards, die die Auffindbarkeit und Interoperabilität der Metadaten optimieren. Beispielsweise nutzt BORIS Portal, das Repositorium der Universität Bern, den Metadatenstandard Dublin Core

Um Ihre Forschungsdaten im alltäglichen Datenmanagement zu beschreiben oder Ihre Daten für die Archivierung vorzubereiten, können Sie Werkzeuge wie den Dublin-Core-Generator oder den DataCite Metadata Generator verwenden. Diese Tools erzeugen maschinenlesbare Dateien, die Sie zusammen mit Ihren Forschungsdaten speichern können, so dass diese später identifiziert, verstanden und wiederverwendet werden können.