Skip to content

Produkt  · 6 min read

Datentypen und Formate in der Beobachtungsforschung

Datenformate für verschiedene Sensormodalitäten und andere Datenquellen in der Beobachtungsforschung verstehen.

Datenformate für verschiedene Sensormodalitäten und andere Datenquellen in der Beobachtungsforschung verstehen.

Datentypen und Formate: Das Rohmaterial der Beobachtungsforschung

Die vielfältigen Sensoren und Modalitäten, die in einem Beobachtungsforschungslabor zum Einsatz kommen, generieren eine Vielzahl von Datentypen, die jeweils ihre eigenen Merkmale und optimalen Speicherformate aufweisen. Das Verständnis dieser Formate ist für eine effiziente Datenverwaltung, -verarbeitung und -analyse von entscheidender Bedeutung. Die Wahl des Formats wirkt sich auf die Dateigröße, die Einfachheit der Analyse und die Kompatibilität mit verschiedenen Analysewerkzeugen aus.

Videodaten (mp4): Visuelle Aufzeichnungen von Verhalten

Videodaten, die in der Regel in Formaten wie MP4 gespeichert werden, bilden die primäre visuelle Aufzeichnung beobachteter Verhaltensweisen. MP4 (MPEG-4 Part 14) ist ein weit verbreitetes Containerformat, das Video-, Audio- und andere Daten speichern kann. Seine Beliebtheit beruht auf seiner Effizienz bei der Komprimierung, die relativ kleine Dateigrößen bei gleichzeitig guter Bildqualität ermöglicht. Allerdings können selbst komprimierte Videodateien sehr groß sein, insbesondere bei hohen Auflösungen und Bildraten, was eine erhebliche Speicherkapazität erfordert. Wichtige Überlegungen zu Videodaten sind:

  • Auflösung: Die Anzahl der Pixel (z. B. 1920 x 1080 für Full HD) hat direkten Einfluss auf die Bilddetails und die Dateigröße.
  • Bildfrequenz (fps): Die Anzahl der Bilder pro Sekunde (z. B. 25 fps, 30 fps, 60 fps oder 120 fps) bestimmt die zeitliche Auflösung eines Videos und ist somit entscheidend für die Erfassung schneller Bewegungen. In europäischen Ländern ist eine Bildrate von 25 Bildern pro Sekunde (PAL-Format) Standard, in den USA und asiatischen Ländern ist das NTSC-Format mit 30 Bildern pro Sekunde üblich.
  • Komprimierungscodec: Der zur Komprimierung des Videos verwendete Algorithmus (z. B. H.264, H.265) beeinflusst die Dateigröße und die Kompatibilität bei der Wiedergabe.
  • Metadaten: In die Videodatei eingebettete Informationen wie Aufnahmedatum, Uhrzeit, Kameraeinstellungen und synchronisierte Ereignismarkierungen. Diese sind nicht im Bild eingeblendet, sondern können aus einer Videodatei ausgelesen werden.

Audiodaten (mp3, wav): Die Klanglandschaft der Interaktion

Audiodaten, die oft zusammen mit Videos oder unabhängig davon aufgenommen werden, liefern den akustischen Kontext einer Beobachtungsstudie. Gängige Formate sind MP3 und WAV.

  • WAV (Waveform Audio File Format): Ein Standard für unkomprimierte Audiodaten, der eine hohe Klangtreue bietet, aber zu sehr großen Dateien führt. WAV-Dateien eignen sich ideal für Anwendungen, bei denen die Audioqualität im Vordergrund steht und eine anschließende detaillierte Analyse (z. B. Sprachanalyse, akustische Ereigniserkennung) erforderlich ist.
  • MP3 (MPEG-1 Audio Layer 3): Ein beliebtes komprimiertes Audioformat, das die Dateigröße erheblich reduziert, indem es einige für das menschliche Ohr nicht wahrnehmbare Audioinformationen verwirft. MP3 ist effizient für die Speicherung und Weitergabe und in der Regel ausreichend für Textanalysen.

Audiodaten sind für die Analyse von verbaler Kommunikation, Lautäußerungen und Umgebungsgeräuschen von entscheidender Bedeutung und liefern ergänzende Informationen zu visuellen Beobachtungen.

CSV, EDF, HDF5: Für Strukturierte numerische Datenströme, Ereignisprotokolle und Anmerkungen

Rohdaten von biophysikalischen Sensoren, Eye-Trackern und anderen digitalen Sensoren werden in der Regel in strukturierten Formaten gespeichert, die den programmatischen Zugriff und die Analyse erleichtern. Zu den gängigen Formaten gehören CSV, EDF und HDF5.

  • CSV (Comma Separated Values): Ein einfaches Textformat, bei dem die Datenwerte durch Kommas (oder andere Trennzeichen wie Tabulatoren) voneinander getrennt sind. CSV-Dateien sind sehr gut lesbar und universell kompatibel mit fast allen Datenanalyseprogrammen und Programmiersprachen. Dank ihrer Einfachheit und weit verbreiteten Kompatibilität eignen sie sich hervorragend zum Exportieren von codierten Verhaltensweisen aus Videoanalysesoftware, zum Speichern von Versuchsparametern oder zum Protokollieren von Systemereignissen. Jede Zeile steht in der Regel für ein Ereignis oder einen Datenpunkt, wobei die Spalten verschiedene Attribute darstellen (z. B. Zeitstempel, Ereignistyp, Dauer, Teilnehmer-ID). Sie eignen sich für relativ kleine bis mittelgroße Datensätze, können jedoch bei sehr großen, komplexen oder hierarchischen Daten ineffizient werden.

  • TSV (Tab Separated Values): Obwohl sich die Bezeichnung CSV etabliert hat, sind CSV-Dateien oft problembehaftet, da unklar ist, welches Trennzeichen verwendet wird.

    • In Ländern, in denen Zahlen mit Dezimalstellen durch einen Punkt getrennt werden, wird üblicherweise das Komma als Trennzeichen verwendet. So können in CSV-Dateien problemlos Dezimalzahlen gespeichert werden, ohne dass die Trennung durcheinandergebracht wird (Probleme entstehen, wenn hier auch Tausendertrennzeichen gespeichert werden, was zur Korruption der Dateistruktur führt, denn das Tausendertrennzeichen ist in diesen Ländern oft ein „,“).
    • In Ländern, die Dezimalstellen mit einem Komma trennen, wird in CSV-Dateien als Datentrenner ein Semikolon verwendet. Unglücklicherweise werden auch solche Dateien CSV genannt, was regelmäßig zu Verwirrung und technischen Problemen führt.
    • Deshalb empfiehlt es sich, als Trennzeichen “TAB” zu verwenden und die Datei mit der Endung ”.TSV” (Tab Separated Values) zu kennzeichnen.

CSV: Komma, Semikolon oder Tabulator?

Das Trennzeichen in CSV Dateien ist:
Komma ”,”: In Ländern, die Dezimalzahlen mit ”.” trennen (z.B.: 123.456).
Semikolon ”;”: In Ländern, die Dezimalzahlen mit ”,” trennen (z.B.: 123,456).
Sinnvoll ist es deshalb im internationalen Forschungskontext, als Trennzeichen das Tabulatorzeichen (Character Code 9) zu verwenden.

  • EDF (European Data Format): Ein Standarddateiformat für physiologische Zeitreihendaten, das insbesondere in der EEG- und Polysomnographie verbreitet ist. EDF-Dateien dienen zur Speicherung mehrkanaliger physiologischer Aufzeichnungen mit präzisen Zeitinformationen und Metadaten. Sie sind robust und werden von spezialisierter Software zur Analyse physiologischer Daten weitgehend unterstützt.

  • HDF5 (Hierarchical Data Format 5): Ein leistungsstarkes und flexibles Dateiformat, das für die Speicherung und Organisation großer Mengen heterogener Daten entwickelt wurde. HDF5 kann numerische Datensätze, Bilder und andere Datentypen in einer hierarchischen Struktur speichern und eignet sich daher ideal für komplexe multimodale Datensätze. Es unterstützt Komprimierung und parallele E/A und wird aufgrund seiner Effizienz und Skalierbarkeit häufig in der wissenschaftlichen Datenverarbeitung eingesetzt.

Proprietäre Binärformate: Gerätespezifische Daten

Viele spezialisierte Forschungsinstrumente (z. B. einige Eye-Tracker, High-End-EEG-Systeme) speichern ihre Rohdaten in proprietären Binärformaten. Diese Formate sind für das jeweilige Gerät und dessen Software optimiert, bieten oft eine hohe Effizienz und bewahren einzigartige Datenmerkmale. Allerdings erfordern sie in der Regel die Software des Herstellers oder spezielle SDKs (Software Development Kits) zum Lesen und Verarbeiten, was die Interoperabilität und langfristige Zugänglichkeit einschränken kann. Forschende müssen diese proprietären Formate häufig in offenere, standardisierte Formate konvertieren, um sie umfassender analysieren und weitergeben zu können.

Ereignisprotokolle: Der Zeitplan des Experiments

Ereignisprotokolle sind für die Rekonstruktion des Zeitplans eines Experiments von entscheidender Bedeutung. Dabei handelt es sich in der Regel die Aufzeichnung einzelner Ereignisse, deren Zeitstempel und zugehörige Metadaten. Zu den Ereignissen können Stimuluspräsentationen, Antworten der Teilnehmer, Systemfehler oder manuelle Anmerkungen von Forschenden gehören. Gut strukturierte Ereignisprotokolle sind unerlässlich für die Synchronisierung verschiedener Datenströme, die Segmentierung von Daten in Versuche oder Bedingungen und die Durchführung ereignisbezogener Analysen. Sie dienen als definitive Aufzeichnung dessen, was während einer Versuchssitzung passiert ist, und bieten zeitliche Ankerpunkte für alle anderen Datenmodalitäten. Idealerweise liegen die Ereignisprotokolle nicht handschriftlich, sondern als digitale Dateien vor. Diese können dann als Text- oder CSV-/TSV-Dateien weiterverarbeitet werden.

Mangold Beobachtungslabore

Entdecken Sie schlüsselfertige Lösungen für wissenschaftliche Audio/Video-Beobachtungsstudien.

Mangold Observation Lab Render