Header

Suche

Daten organisieren

Die Datenorganisation beginnt bereits in der Planungsphase, wird aber besonders wichtig, wenn Daten erfasst werden. Gut organisierte Dateinamen und Ordnerstrukturen erleichtern das Auffinden und Wiederauffinden von Datendateien sowie die gemeinsame Nutzung und Wiederverwendung von Forschungsdaten.
Die Dokumentation der Dateinamenskonvention und der Ordnerstruktur sind ebenfalls wichtige Metadaten, die bei der gemeinsamen Nutzung oder Veröffentlichung von Forschungsdaten bereitgestellt werden müssen.

Um Daten richtig zu organisieren, sollten Sie darauf achten:

  1. Benennen Sie Ihre Dateien strukturiert und einheitlich.
  2. Wählen Sie geeignete Dateiformate.
  3. Organisieren Sie die Dateien in einer praktikablen Ordnerstruktur.
  4. Falls vorhanden, übernehmen Sie Standards Ihres Fachgebiets.

Datei-Benennungs-Konvention

Informationen, die in einem Dateinamen sein sollten

Gute Dateinamen können nützliche Hinweise auf den Inhalt und den Status einer Datei geben, eine Datei eindeutig identifizieren und bei der Klassifizierung von Dateien helfen. Sie können einige der folgenden Informationen in Ihre Dateinamen aufnehmen, aber auch jede andere Information, die es Ihnen ermöglicht, Ihre Dateien voneinander zu unterscheiden.

  • Projekt- oder Experimentname oder Akronym
  • Ort/Raumkoordinaten
  • Name der Forschenden/Initialen
  • Datum oder Datumsbereich des Experiments
  • Art der Daten
  • Bedingungen der Dateierstellung
  • Versionsnummer der Datei

Beachten Sie

Achten Sie bei der Benennung von Dateien auf Folgendes:

  • Wählen Sie kurze, aber aussagekräftige Dateinamen.
  • Vermeiden Sie Sonderzeichen wie ~ ! @ # $ % ^ & * ( ) ` ; < > ? , [ ] { } ' " und | in Dateinamen.
  • Vermeiden Sie Leerzeichen, verwenden Sie stattdessen andere Optionen (z. B. Unterstrich, Bindestrich, keine Trennung, Gross-/Kleinschreibung).
  • Dateinamen mit Jahr-Monat-Tag beginnen im Format JJJJMMTT oder JJJMMTT, damit die Dateien chronologisch aufgelistet werden.
  • Halten Sie sich nach Möglichkeit an Namenskonventionen, die in Ihrem Fachgebiet Standard sind oder allgemein verwendet werden.

Versionierung

Bei der Versionierung handelt es sich um ein System, das die an einer Datei (in der Regel Quellcode) vorgenommenen Änderungen im Laufe der Zeit aufzeichnet, so dass frühere Versionen später wieder aufgerufen werden können. Dies kann entweder automatisch (z. B. mit Git) oder manuell durch Hinzufügen einer Versionsnummerierung zu einer Datei erfolgen. Jede neue Version zeigt an, dass eine Datei überarbeitet wurde. Dies ist besonders bei einer Zusammenarbeit nützlich.

Beispiele für die Versionierung:

Name der Datei

Änderungen an der Datei

LC_Interviewschedule_1.0

Ursprüngliches Dokument

LC_Interviewschedule_1.1

Kleine Änderungen vorgenommen

LC_Interviewschedule_1.2

Weitere kleine Änderungen vorgenommen

LC_Interviewschedule_2.0

Gröbere Änderungen vorgenommen

Es gibt Textdokumenten (z. B. Dokument zu „Allgemeine Geschäftsbedingungen“), welche am Ende einen Abschnitt mit einem Änderungsprotokoll enthalten, in dem die wichtigsten Änderungen in jeder Version beschrieben werden.

Beispiele von guten Dateinamen

  • 20100212_FG1_CONS ist die Datei, die das Transkript der ersten Fokusgruppe mit einer Verbraucherstudie enthält, die am 12. Februar 2010 stattfand.
  • 20080605_Int024_R01 ist ein Interview mit Partizipant 024; das Interview wurde durch den Forschenden R01 am 5. Juni 2008 durchgeführt. (Es kann sinnvoll sein, die Forschenden zu pseudonymisieren, anstatt ihre Namen oder Initialen zu verwenden, wenn z.B. Blindanalysen durchführen werden sollen.)

Zusätzliche Informationen

CRS primer on file naming conventions (van de Wiel, H.,  Fraga Gonzalez, G., Furrer, E., & Held, L. (2024). Primer: File Naming Conventions. Zenodo. https://doi.org/10.5281/zenodo.13322390)  

Dateiformate

Ein Dateiformat ist ein Standardverfahren zur Codierung von Daten für die Speicherung in einer Computerdatei. Dateiformate können entweder proprietär oder frei sein und entweder unveröffentlicht oder offen sein. Die verwendeten Dateiformate beeinflussen, ob die Dateien zu einem späteren Zeitpunkt geöffnet und von anderen Personen genutzt werden können.

Bei der Auswahl von Dateiformaten für die Archivierung sollten idealerweise folgende Formate verwendet werden:

  • Nicht-proprietär
  • Unverschlüsselt
  • Unkomprimiert
  • In der Forschungsgemeinschaft weit verbreitet

Geeignete Dateiformate für die Wiederverwendbarkeit und Archivierung

Art der Daten

Geeignet

Akzeptabel

Ungeeignet

Tabellarische Daten mit viel Metadaten

.csv / .tsv / .hdf5

.txt / .html / .tex / .por

 

Tabellarische Daten mit einem Minimum an Metadaten

.csv / .tsv /.tab / .ods / SQL

.xml if appropriate DTD / .xlsx

.xls / .xlsb

Textdaten

.pdf / .txt / .odt / .odm / .tex / .md / .htm / .xml

.pptx / .pdf with embedded forms / .rtf

.doc / .ppt

Code

.m / .R / .py / .iypnb / .rstudio / .rmd / NetCDF

.sdd

.mat / .rdata

Bilddateien

.tif (uncompressed) / .png / .svg / .jpeg

.jpg / .jp2 / .tif (compressed) / .tiff / .pdf / .gif / .bmp

.indd / .ait / .psd

Audiodateien

.flac / .wav / .ogg

.mp3 / .mp4 / .aif

 

Videodateien

.mp4 / .mj2 / .avi / .mkv

.ogm / .webm

.wmv / .mov

Räumliche (Geo) Daten

NetCDF, tabular GIS attribute data, .shp / .shx / .dbf / .prj / .sbx / .sbn / PostGIS / .tif / .tfw / GeoJSON

.mdb / .mif

 

CAD / Vektor und Raster Daten

.x3d / .x3dv / .x3db / PDF3D .pdf

.dwg / .dxf

 

Generische Daten

.xml / .json / .rdf

 

 

Quelle: EPFL Library. 2018. Recommended data formats. Available at: https://www.epfl.ch/campus/library/wp-content/uploads/2018/05/Recommended_DataFormats_-2018_03_05_Final.pdf

Hinweis zu Textdaten: Das Kodierungsformat UNICODE UTF-8 wird für die Interoperabilität empfohlen. Wenn die Formatierung nicht wichtig ist, konvertieren Sie die Datei in einfachen Text. Wenn die Formatierung wichtig ist, wird für die Archivierung das Format .pdf empfohlen (in Anlehnung an die genormte PDF/A-Version).

Komprimierung von Dateien

Wenn Sie komprimierte Dateien verwenden müssen, wählen Sie eine verlustfreie Komprimierung statt einem verlustbehafteten Komprimierungsformat, bei denen die Originaldaten permanent entfernt werden. Je nachdem welche Merkmale der Daten wissenschaftlich relevant sind, sind komprimierte Formate generell nicht akzeptabel.

Zusätzliche Informationen

ETHZ: File formats for archiving
CLARIN: Format recommendations for language data

 

Struktur der Ordner

Bei der Organisation der Ordnerstruktur ist es hilfreich, wenn die Daten in Kategorien unterteilt sind, z.B. nach Projekt/Teilprojekt, Zeit, Datum, Dateityp, Ort usw. Halten Sie sich nach Möglichkeit an die Standards für die Ordner- und Dateiorganisation in Ihrem Fachbereich und organisieren Sie die Ordner so, dass ein externer Mitarbeitender die Dateien mit minimalen Anweisungen finden und wiederverwenden kann.

Denken Sie daran:

  • Die Ordnerstruktur sollte nicht mehr als 3-4 Ebenen tief sein.
  • Trennen Sie die Ordner mit den Primärdaten (Originaldaten, wie sie gesammelt wurden) klar von den vorverarbeiteten Daten (Daten, bei denen Transformationen an den Originaldaten vorgenommen wurden).
  • Beschriften Sie alle Ordner deutlich, die identifizierende oder besonders sensible Informationen enthalten. Solche Ordner können zusätzlich verschlüsselt sein und von der Archivierung ausgeschlossen werden, daher sollten sie leicht von anderen zu unterscheiden sein.
  • Achten Sie darauf, dass Ordnernamen sowohl informativ aber auch prägnant sind. Wenn einige Informationen im Dateinamen verschlüsselt sind, vermeiden Sie Wiederholungen im Ordnernamen und umgekehrt.
  • Vermeiden Sie Nummerierungen in Ordnernamen (z. B. 01_Daten, 02_Dokumente, usw.). Dies kann zu Mehrdeutigkeiten, häufigem Umbenennen von Ordnern oder zu einer zu unflexiblen Ordnerorganisation führen. Die Nummerierung von Skriptordnern oder Dateinamen kann jedoch hilfreich sein, um die beabsichtigte Ausführungsreihenfolge anzugeben.

Einige Beispiele:

Image of an exemplary folder structure where all subfolders are visible.

Zusätzliche Informationen

Fraga González, G., Clark, A., Furrer, E., & Held, L. (2024). Primer: Long-term Archiving of Experimental Data (Version v3). Zenodo. https://doi.org/10.5281/zenodo.13880988

Achten Sie darauf, dass Ihr Datenverwaltungssystem praktikabel ist und konsequent angewandt wird.


Dieses Tutorial wurde zusammen von den Open Science Services and Gorka Fraga González, wissenschaftlicher Mitarbeiter beim Center for Reproducible Science und Data Steward bei LiRI, entwickelt.

Weiterführende Informationen