Daten organisieren
Die Datenorganisation beginnt bereits in der Planungsphase, wird aber besonders wichtig, wenn Daten erfasst werden. Gut organisierte Dateinamen und Ordnerstrukturen erleichtern das Auffinden und Wiederauffinden von Datendateien sowie die gemeinsame Nutzung und Wiederverwendung von Forschungsdaten.
Die Dokumentation der Dateinamenskonvention und der Ordnerstruktur sind ebenfalls wichtige Metadaten, die bei der gemeinsamen Nutzung oder Veröffentlichung von Forschungsdaten bereitgestellt werden müssen.
Um Daten richtig zu organisieren, sollten Sie darauf achten:
- Benennen Sie Ihre Dateien strukturiert und einheitlich.
- Wählen Sie geeignete Dateiformate.
- Organisieren Sie die Dateien in einer praktikablen Ordnerstruktur.
- Falls vorhanden, übernehmen Sie Standards Ihres Fachgebiets.
Datei-Benennungs-Konvention
Informationen, die in einem Dateinamen sein sollten
Gute Dateinamen können nützliche Hinweise auf den Inhalt und den Status einer Datei geben, eine Datei eindeutig identifizieren und bei der Klassifizierung von Dateien helfen. Sie können einige der folgenden Informationen in Ihre Dateinamen aufnehmen, aber auch jede andere Information, die es Ihnen ermöglicht, Ihre Dateien voneinander zu unterscheiden.
- Projekt- oder Experimentname oder Akronym
- Ort/Raumkoordinaten
- Name der Forschenden/Initialen
- Datum oder Datumsbereich des Experiments
- Art der Daten
- Bedingungen der Dateierstellung
- Versionsnummer der Datei
Beachten Sie
Achten Sie bei der Benennung von Dateien auf Folgendes:
- Wählen Sie kurze, aber aussagekräftige Dateinamen.
- Vermeiden Sie Sonderzeichen wie ~ ! @ # $ % ^ & * ( ) ` ; < > ? , [ ] { } ' " und | in Dateinamen.
- Vermeiden Sie Leerzeichen, verwenden Sie stattdessen andere Optionen (z. B. Unterstrich, Bindestrich, keine Trennung, Gross-/Kleinschreibung).
- Dateinamen mit Jahr-Monat-Tag beginnen im Format JJJJMMTT oder JJJMMTT, damit die Dateien chronologisch aufgelistet werden.
- Halten Sie sich nach Möglichkeit an Namenskonventionen, die in Ihrem Fachgebiet Standard sind oder allgemein verwendet werden.
Versionierung
Bei der Versionierung handelt es sich um ein System, das die an einer Datei (in der Regel Quellcode) vorgenommenen Änderungen im Laufe der Zeit aufzeichnet, so dass frühere Versionen später wieder aufgerufen werden können. Dies kann entweder automatisch (z. B. mit Git) oder manuell durch Hinzufügen einer Versionsnummerierung zu einer Datei erfolgen. Jede neue Version zeigt an, dass eine Datei überarbeitet wurde. Dies ist besonders bei einer Zusammenarbeit nützlich.
Beispiele für die Versionierung:
Name der Datei |
Änderungen an der Datei |
---|---|
LC_Interviewschedule_1.0 |
Ursprüngliches Dokument |
LC_Interviewschedule_1.1 |
Kleine Änderungen vorgenommen |
LC_Interviewschedule_1.2 |
Weitere kleine Änderungen vorgenommen |
LC_Interviewschedule_2.0 |
Gröbere Änderungen vorgenommen |
Es gibt Textdokumenten (z. B. Dokument zu „Allgemeine Geschäftsbedingungen“), welche am Ende einen Abschnitt mit einem Änderungsprotokoll enthalten, in dem die wichtigsten Änderungen in jeder Version beschrieben werden.
Beispiele von guten Dateinamen
- 20100212_FG1_CONS ist die Datei, die das Transkript der ersten Fokusgruppe mit einer Verbraucherstudie enthält, die am 12. Februar 2010 stattfand.
- 20080605_Int024_R01 ist ein Interview mit Partizipant 024; das Interview wurde durch den Forschenden R01 am 5. Juni 2008 durchgeführt. (Es kann sinnvoll sein, die Forschenden zu pseudonymisieren, anstatt ihre Namen oder Initialen zu verwenden, wenn z.B. Blindanalysen durchführen werden sollen.)
Zusätzliche Informationen
CRS primer on file naming conventions (van de Wiel, H., Fraga Gonzalez, G., Furrer, E., & Held, L. (2024). Primer: File Naming Conventions. Zenodo. https://doi.org/10.5281/zenodo.13322390)
Dateiformate
Ein Dateiformat ist ein Standardverfahren zur Codierung von Daten für die Speicherung in einer Computerdatei. Dateiformate können entweder proprietär oder frei sein und entweder unveröffentlicht oder offen sein. Die verwendeten Dateiformate beeinflussen, ob die Dateien zu einem späteren Zeitpunkt geöffnet und von anderen Personen genutzt werden können.
Bei der Auswahl von Dateiformaten für die Archivierung sollten idealerweise folgende Formate verwendet werden:
- Nicht-proprietär
- Unverschlüsselt
- Unkomprimiert
- In der Forschungsgemeinschaft weit verbreitet
Geeignete Dateiformate für die Wiederverwendbarkeit und Archivierung
Art der Daten |
Geeignet |
Akzeptabel |
Ungeeignet |
---|---|---|---|
Tabellarische Daten mit viel Metadaten |
.csv / .tsv / .hdf5 |
.txt / .html / .tex / .por |
|
Tabellarische Daten mit einem Minimum an Metadaten |
.csv / .tsv /.tab / .ods / SQL |
.xml if appropriate DTD / .xlsx |
.xls / .xlsb |
Textdaten |
.pdf / .txt / .odt / .odm / .tex / .md / .htm / .xml |
.pptx / .pdf with embedded forms / .rtf |
.doc / .ppt |
Code |
.m / .R / .py / .iypnb / .rstudio / .rmd / NetCDF |
.sdd |
.mat / .rdata |
Bilddateien |
.tif (uncompressed) / .png / .svg / .jpeg |
.jpg / .jp2 / .tif (compressed) / .tiff / .pdf / .gif / .bmp |
.indd / .ait / .psd |
Audiodateien |
.flac / .wav / .ogg |
.mp3 / .mp4 / .aif |
|
Videodateien |
.mp4 / .mj2 / .avi / .mkv |
.ogm / .webm |
.wmv / .mov |
Räumliche (Geo) Daten |
NetCDF, tabular GIS attribute data, .shp / .shx / .dbf / .prj / .sbx / .sbn / PostGIS / .tif / .tfw / GeoJSON |
.mdb / .mif |
|
CAD / Vektor und Raster Daten |
.x3d / .x3dv / .x3db / PDF3D .pdf |
.dwg / .dxf |
|
Generische Daten |
.xml / .json / .rdf |
|
|
Quelle: EPFL Library. 2018. Recommended data formats. Available at: https://www.epfl.ch/campus/library/wp-content/uploads/2018/05/Recommended_DataFormats_-2018_03_05_Final.pdf
Hinweis zu Textdaten: Das Kodierungsformat UNICODE UTF-8 wird für die Interoperabilität empfohlen. Wenn die Formatierung nicht wichtig ist, konvertieren Sie die Datei in einfachen Text. Wenn die Formatierung wichtig ist, wird für die Archivierung das Format .pdf empfohlen (in Anlehnung an die genormte PDF/A-Version).
Komprimierung von Dateien
Wenn Sie komprimierte Dateien verwenden müssen, wählen Sie eine verlustfreie Komprimierung statt einem verlustbehafteten Komprimierungsformat, bei denen die Originaldaten permanent entfernt werden. Je nachdem welche Merkmale der Daten wissenschaftlich relevant sind, sind komprimierte Formate generell nicht akzeptabel.
Zusätzliche Informationen
ETHZ: File formats for archiving
CLARIN: Format recommendations for language data
Struktur der Ordner
Bei der Organisation der Ordnerstruktur ist es hilfreich, wenn die Daten in Kategorien unterteilt sind, z.B. nach Projekt/Teilprojekt, Zeit, Datum, Dateityp, Ort usw. Halten Sie sich nach Möglichkeit an die Standards für die Ordner- und Dateiorganisation in Ihrem Fachbereich und organisieren Sie die Ordner so, dass ein externer Mitarbeitender die Dateien mit minimalen Anweisungen finden und wiederverwenden kann.
Denken Sie daran:
- Die Ordnerstruktur sollte nicht mehr als 3-4 Ebenen tief sein.
- Trennen Sie die Ordner mit den Primärdaten (Originaldaten, wie sie gesammelt wurden) klar von den vorverarbeiteten Daten (Daten, bei denen Transformationen an den Originaldaten vorgenommen wurden).
- Beschriften Sie alle Ordner deutlich, die identifizierende oder besonders sensible Informationen enthalten. Solche Ordner können zusätzlich verschlüsselt sein und von der Archivierung ausgeschlossen werden, daher sollten sie leicht von anderen zu unterscheiden sein.
- Achten Sie darauf, dass Ordnernamen sowohl informativ aber auch prägnant sind. Wenn einige Informationen im Dateinamen verschlüsselt sind, vermeiden Sie Wiederholungen im Ordnernamen und umgekehrt.
- Vermeiden Sie Nummerierungen in Ordnernamen (z. B. 01_Daten, 02_Dokumente, usw.). Dies kann zu Mehrdeutigkeiten, häufigem Umbenennen von Ordnern oder zu einer zu unflexiblen Ordnerorganisation führen. Die Nummerierung von Skriptordnern oder Dateinamen kann jedoch hilfreich sein, um die beabsichtigte Ausführungsreihenfolge anzugeben.
Einige Beispiele:
Zusätzliche Informationen
Fraga González, G., Clark, A., Furrer, E., & Held, L. (2024). Primer: Long-term Archiving of Experimental Data (Version v3). Zenodo. https://doi.org/10.5281/zenodo.13880988
Achten Sie darauf, dass Ihr Datenverwaltungssystem praktikabel ist und konsequent angewandt wird.
Dieses Tutorial wurde zusammen von den Open Science Services and Gorka Fraga González, wissenschaftlicher Mitarbeiter beim Center for Reproducible Science und Data Steward bei LiRI, entwickelt.