Projektdurchführung

Datenorganisation

Eine präzise Datenorganisation erleichtert die Arbeit während der Erhebung und Bearbeitung von Forschungsdaten, den Datenaustausch und das kollaborative Arbeiten z. B. in Kooperationsprojekten. Es ist sinnvoll, frühzeitig Benennungskonventionen für Ordner und Dateien festzulegen, insbesondere wenn mehrere Parteien an einem Projekt beteiligt sind.

Ordnerstrukturierung

Zur Ablage von Forschungsdaten eignet sich eine hierarchische Struktur. Überlegen Sie sich hierfür sinnvolle Gliederungskategorien, z. B. nach Teilprojekten, Zeiträumen, Art der Dateiformate oder dem Inhalt der Dateien und ordnen Sie diese hierarchisch. Die Benennung von Ordnern sollte selbsterklärend sein.

Dateibenennung

Die Dateibenennung sollte den Inhalt knapp beschreiben und helfen, die Daten eindeutig zu identifizieren. Dazu eignen sich Angaben wie Datum, Titel, Ort der Erhebung, Projektname oder eine Versionsnummer. Ein Dateiname könnte z. B. wie folgt strukturiert werden: JJMMTT_Titel_Bearbeiter*in_Version.

Bei der Benennung sollten folgende Regeln beachtet werden:

  • Dateinamen sollten möglichst präzise aber erklärend sein.
  • Sonderzeichen, Leerzeichen, Satzzeichen oder Umlaute sollten nicht verwendet werden.
  • Stattdessen sollten Großbuchstaben und Unterstriche genutzt werden.
  • Die Benennung sollte konsistent gehalten werden, da Großbuchstaben sich auf die Sortierung auswirken.
  • Datumsformate sollten in der Form JJMMTT angegeben werden.
  • Werden Nummern angegeben, sollten diese immer zwei- oder dreistellig sein (z. B. Interview01 anstatt Interview1).
  • Werden verschiedene Versionen einer Datei gespeichert, sollte ein V mit entsprechender Nummerierung (z. B. V01) angegeben werden.
  • Wiederholungen von Informationen aus Ordnernamen sollten in den Dateinamen vermieden werden.

Versionskontrolle

Häufig ist es sinnvoll, frühere Zustände von Dateien vorzuhalten und mit Dateiversionen zu arbeiten, um Entwicklungsstadien und Änderungen verfolgen zu können. Insbesondere auch dann, wenn mehrere Personen an einer Datei arbeiten. Versionen, die nicht mehr benötigt werden, sollten bei Bedarf gelöscht werden.

Zu unterscheiden sind manuelle und automatische Verfahren. Eine einfache und übersichtliche Methode ist es, die Versionsangabe direkt im Dateinamen anzugeben. Z. B. in Form von „V01“. Alternativ bietet sich die Speicherung der Angaben im Header oder in standardisierten Kopfzeilen innerhalb der Datei selbst an.

Darüber hinaus gibt es spezifische Software zur Versionsverwaltung, deren Verwendung sich insbesondere für große Projekte lohnt, die zentral auf einem Server abgelegt werden. Weit verbreitete Systeme sind Git und Subversion. Für die Angehörigen der Universität Bamberg stellt der IT-Service GitLab zur Verwaltung und Versionierung bereit.

Dokumentation und Metadaten

Eine nachvollziehbare Dokumentation und die Beschreibung mit Metadaten ist für die Veröffentlichung und Nachnutzung von Forschungsdaten unabdingbar. Das gilt nicht nur für die Nachnutzung durch Dritte, sondern auch für die zukünftige Nutzung durch den/die Datenerzeuger*in selbst.

Forschungsdaten sind in der Regel nicht selbsterklärend, sondern benötigen zusätzliche Informationen – die Metadaten. Typische Metadaten sind z. B. Angaben wie Autor*in oder Titel. Darüber hinaus enthalten Metadaten Informationen über den Entstehungskontext der Daten, Maßnahmen der Datenbereinigung etc. Oft werden Forschungsdaten erst kurz vor der Veröffentlichung oder Archivierung mit Metadaten beschrieben. Eine strukturierte Beschreibung bietet aber bereits früher im Forschungsprozess einen Mehrwert.

Ohne Dokumentation können Informationen mit der Zeit verloren gehen, sodass Daten aufgrund fehlender Kontextinformationen nicht mehr interpretierbar und nachvollziehbar sind. Zudem kann es zur Verwechslung unterschiedlicher Dateiversionen kommen. Die Dokumentation ist oft die einzige Form der Kommunikation zwischen Datenerzeuger*in und -nutzer*in, weshalb diese möglichst umfassend ausfallen sollte. Darüber hinaus steigt die Auffindbarkeit der Forschungsdaten, da Suchmaschinen nach Metadaten und nicht nach Inhalten der Daten suchen.

Es empfiehlt sich mindestens folgende Angaben zu dokumentieren:

  • Titel der Datenpublikation
  • Ersteller*innen, Urheber*innen, Rechteinhaber*innen
  • Institution und Projekt
  • Entstehungsjahr bzw. -zeitraum
  • Abstract/Beschreibung der Daten
    • Struktur der Daten und deren Beziehungen zueinander: Wie sind die Daten aufgebaut, was enthalten sie; bei mehreren Datensätzen: wie gehören sie zusammen, welche Daten braucht man, um die anderen Daten interpretieren zu können
  • Methode/Datenerhebung
  • Maßnahmen zur Datenbereinigung oder -gewichtung
  • Erklärungen für Codes und Labels (Codebook)
  • Version/Versionsänderungen
  • Verweis auf in Beziehung stehende Publikationen, die den Datensatz beschreiben/auswerten
  • Informationen zum Zugang, Nutzungs- bzw. Lizenzbedingungen

Grundsätzlich muss für jedes Projekt individuell entschieden werden, welche Art der Dokumentation am geeignetsten ist. Sinnvoll ist in jedem Fall eine sowohl menschen- als auch maschinenlesbare Dokumentation. Wenn möglich, sollten maschinell produzierte Metadaten, die ggf. bei der Erstellung der Daten entstehen, ausgelesen und gespeichert werden.

Dokumentiert werden kann in verschiedenen Formaten:

  • in einer README-Datei
  • in einem (elektronischen) Laborbuch
  • in einem projektinternen Wiki
  • innerhalb der Ordnerstruktur und Dateibenennung
  • in der Datei selbst bzw. in den Metainformationen der Datei.

Gut durchdachte und dokumentierte Metadaten spielen eine zentrale Rolle für das Finden, Durchsuchen und Nutzen von Forschungsdaten. Machen Sie sich daher frühzeitig Gedanken zur Datendokumentation und achten sie auf die Anforderungen von für ihr Fach relevanten Metadatenstandards und denen eines für die ggf. später erfolgende Veröffentlichung geeigneten Repositoriums.

Grundlegende Überlegungen, die Sie bereits bei der Planung oder im laufenden Projekt anstellen können, sind:

  • Identifikation relevanter Metadaten: Welche Informationen werden benötigt, um die Daten nachvollziehen zu können? Welche Such- und Filteroptionen hätte man gerne für die Daten?
  • Festlegen des Datenerhebungsprozesses: Zu welchem Zeitpunkt und in welcher Form liegen die identifizierten Informationen vor? Können sie ggf. automatisiert erzeugt werden? Welche Form der Dokumentation eignet sich für den laufenden Forschungsprozess? Wie können die Metadaten sinnvoll mit den Forschungsdaten verknüpft werden? Gibt es Tools, die dafür zur Verfügung stehen?
  • Festlegen des Metadatenformats: Wie können die Metadaten so strukturiert wie möglich gespeichert werden? Gibt es kontrollierte Vokabulare oder Ontologien? Wo sollen die Daten nach Projektabschluss gespeichert/veröffentlicht werden? Gibt es bestimmte Anforderungen des für die Veröffentlichung/Archivierung bestimmten Repositoriums oder Datenarchivs?
  • Erprobung und Verbesserung des Prozesses: Ist eine (Teil-)Automatisierung der Dokumentation möglich?

Speicherung

Das Speichern von Forschungsdaten ist ein wesentlicher Aspekt des FDM. Um Datenverlust vorzubeugen, ist es sinnvoll, sich Gedanken über den Speicherort, das Speichermedium und eine Backup-Strategie zu machen.

Unterschiedliche Speicherorte haben verschiedene Vor- und Nachteile:

Speicherort

Vorteile

Nachteile

PC

- Verantwortung für Sicherheit und Backup liegen bei einem selbst

- maximale Kontrolle

- PC und Backup sind miteinander verbunden, eine Datenrettung ist bei Verlust nicht möglich

- Schwierig für kooperatives Arbeiten

Mobile Speichermedien

- Leicht zu transportieren

- Aufbewahrung in einem abschließbaren Schrank oder Safe möglich

- unsicher gegen Verlust und Diebstahl

- Inhalte müssen separat verschlüsselt werden

- Externe Festplatten sind stoß- und verschleißanfällig

Institutionelle Speicherorte

- regelmäßiges Backup

- professionelle Durchführung und Wartung

- Berücksichtigung der Datenschutzrichtlinien der Einrichtung

- Geschwindigkeit eventuell zu niedrig

- Backup-Zugang verzögert sich ggf.

- Sicherheitskriterien und
-strategien sind ggf. nicht immer transparent einsehbar

Externe Speicherorte

- Einfache Nutzung und Verwaltung

- Backup vorhanden

- Für mobiles Arbeiten leicht nutzbar

- professionelle Durchführung und Wartung

- Datenschutzfragen oft ungeklärt

- Sicherheit der Verbindung schwankt je nach Anbieter

- Abhängigkeit von Internetverbindung

- Backup ggf. verzögert

Wir empfehlen, die Speichermöglichkeiten des IT-Service zu nutzen.

Weiterführende Informationen zum Thema Speicherung

forschungsdaten.info: Speichern und Rechnen.

Dateiformate

Forschungsdaten sollten, soweit möglich, zusätzlich zum Originalformat auch in offenen Dateiformaten gespeichert werden, um den Zugang zu den Informationen für Nachnutzende zu erleichtern. Viele Dateiformate lassen sich mit geringem Aufwand in offene Formate konvertieren. Darüber hinaus ermöglichen offene Dateiformate eine Archivierung über die Lebensdauer spezieller Software hinaus. Der guten wissenschaftlichen Praxis folgend, sollten Forschungsdaten mindestens 10 Jahre gespeichert werden. Hierfür eignen sich z. B. die folgenden Formate:

Dateityp

Empfehlenswerte Formate

Weniger empfehlenswerte Formate

Tabellendaten

CSV, SPSS portable

Excel (.xlsx/.xls)

Text

TXT, HTML, PDF/A

Word (.docx/.doc)

Präsentation

PDF/A

PowerPoint (.pptx/.ppt)

Multimedia

MP4, WAV, AVI

WMV

Bilder

TIFF, JPEG2000, PNG

GIF, JPG

Datenaustausch

XML, RDF, JSON

SDXF