Logo

Suche in DATA AFFAIRS

ArtikelDatendokumentation und Metadaten

Datendokumentation und Metadaten

Übersicht

In diesem Artikel wird die Beschreibung von empirischen Daten mittels Dokumentationsdateien und Metadaten für die Archivierung erläutert. Dafür werden wichtige Elemente einer erfolgreichen Dokumentation genannt, methodisch erklärt und mit Beispielen untermauert.

Definition

Die Dokumentation von Forschungsdaten dient der ausführlichen Beschreibung der Daten mit dem Ziel, das diese auffindbar und damit weitergenutzt werden können.

Metadaten sind strukturierte Informationen über Ressourcen – z. B. Bücher, Dokumente, Sammlungsobjekte oder (archivierte) Forschungsdaten – und dienen deren einheitlicher Beschreibung. Sie ermöglichen das Suchen und Finden dieser Ressourcen und damit auch deren Nachnutzung. Was und wie mit welchen Metadaten beschrieben wird, hängt von der Fachdisziplin sowie ggf. den Vorgaben von Forschungsfördereinrichtungen und Archiven/Repositorien ab.

Metadatenstandards dienen einer strukturierten Beschreibung von Ressourcen, indem sie standardisierte Beschreibungsfelder zur Verfügung stellen, z. B. für Fotografien: Aufnahmeort, Aufnahmedatum, Fotograf*in, Erhaltungszustand etc.. Diese Standards gewährleisten die Verknüpfung und den Austausch der Metadaten zwischen verschiedenen Anwendungen, z. B. Katalogen oder Suchportalen, und unterstützen damit die InteroperabilitätUnter Interoperabilität bezeichnet man die Fähigkeit eines Systems mit anderen Systemen nahtlos zusammenzuarbeiten. Innerhalb interoperabler Systeme können Daten automatisiert mit anderen Datensätzen kombiniert und ausgetauscht werden. Somit werden Daten auf vereinfachte und beschleunigte Weise maschinell lesbar, interpretierbar und vergleichbar. Interoperabilität stellt eines der Hauptkriterien der FAIR-Prinzipien dar (Forschungsdaten.info, 2023). Weiterlesen.

Einführung

Sollen Forschungsdaten für eine ArchivierungArchivierung meint das Aufbewahren und Zugänglichmachen von Forschungsdaten und -materialien. Das Ziel der Archivierung ist es, den Zugang zu Forschungsdaten über einen längeren Zeitraum hinweg zu ermöglichen. So können zum einen archivierte Forschungsdaten durch Dritte für eigene Forschungsfragen als Sekundärdaten nachgenutzt werden. Zum anderen bleiben Forschungsverläufe so nachprüfbar und nachvollziehbar. Daneben gibt es auch die Langzeitarchivierung (LZA), welche die langfristige Nutzbarkeit über einen nicht definierten Zeitraum hinweg sicherstellen soll. Die LZA zielt auf Erhalt der Authentizität, Integrität, Zugänglichkeit und Verständlichkeit von Daten ab. Weiterlesen und NachnutzungEine Nachnutzung, oftmals auch Sekundärnutzung genannt, befragt bereits erhobene und veröffentlichte Forschungsdatensätze erneut mit dem Ziel, andere Erkenntnisse, möglicherweise aus einer neuen oder unterschiedlichen Perspektive, zu erhalten. Die Aufbereitung von Forschungsdaten für eine Nachnutzung erfordert einen erheblich höheren Anonymisierungs-, Aufbereitungs- und Dokumentationsaufwand als die bloße Archivierung im Sinne von Datenspeicherung. Weiterlesen freigegeben werden, so ist eine sorgfältige und detaillierte Datendokumentation unverzichtbar. Dabei gilt es, den Kontext der Datenerhebung und -auswertung so zu erläutern und zu beschreiben, dass Nachnutzende z. B. die Entstehung von Forschungsmaterial nachvollziehen, es angemessen interpretieren und sinnvoll auswerten können. Die zentrale Frage lautet: Wie können Forschungsprozesse für Dritte verständlich und nachvollziehbar und die während eines Forschungsprozesses entstandenen Forschungsdaten für Dritte interpretierbar und nachnutzbar gemacht werden?

In der Sozial- und Kulturanthropologie gehört eine sorgfältige und transparente Dokumentation des Forschungskontextes und der genauen Umstände der Datenerhebung zur alltäglichen Forschungspraxis. Diese sogenannte Datentransparenz ist erforderlich, um Daten intersubjektiv überprüfbar zu machen, d. h. den Leser*innen einer Ethnografie oder den Nachnutzer*innen von Forschungsdaten zu ermöglichen, Erkenntniswege im Feld nachzuvollziehen.

Bei der Aufbereitung von Forschungsdaten für die Speicherung/Archivierung und Nachnutzung in Repositorien und Datenzentren kommt dieser Form der Datendokumentation, d. h. der systematischen Beschreibung des Forschungskontextes und der verwandten Methoden, eine besondere Bedeutung zu.

Wenn wir im Folgenden von Datendokumentation sprechen, beziehen wir uns also nicht auf die Sicherung und Niederschrift von Informationen (in Form von Notizen, Forschungsprotokollen, Tagebüchern, Fotografien, Tonaufnahmen etc.) im Feld (diese werden im Artikel Aufzeichnungsstrategien thematisiert), sondern auf eine standardisierte, digitale Form der Datenbeschreibung (sog. MetadatenMetadaten sind Beschreibungen von Forschungsdaten (Daten über Daten) und geben inhaltliche und strukturierte Informationen zum Forschungskontext, dem methodischen und analytischen Verfahren, sowie über das jeweilige Forschungsteam, das die Daten generiert. Sie lassen sich unterscheiden in bibliographische, administrative, prozessuale und deskriptive Metadaten und werden beispielsweise in Form von Templates, ReadMe-Dateien oder Data Curation Profiles verfasst. Metadaten werden begleitend zu den Forschungsdaten selbst publiziert und gelten insbesondere in Online-Repositorien und Forschungsdatenzentren als unverzichtbar für das Nachvollziehen und Verstehen von Datensätzen durch Dritte. Auch erleichtern Metadaten die Auffindbarkeit und Maschinenlesbarkeit von Daten und sind somit Teil der FAIR-Prinzipien und der guten wissenschaftlichen Praxis. Weiterlesen) und andere Arten der Datenkontextualisierung, die in Bezug zur Archivierung und Nachnutzung stehen.

Metadaten beschreiben in strukturierter Art und Weise die eigentlichen Forschungsdaten und können z. B. inhaltliche, fachspezifische sowie technisch-formale Angaben zur Datenerhebung beinhalten. Sie ermöglichen einen ersten groben Überblick über das archivierte Material. Meist sind es Archive, RepositorienEin Repositorium bildet einen Ort der Aufbewahrung wissenschaftlicher Dokumente. In Online-Repositorien werden Publikationen digital gespeichert, verwaltet und mit persistenten Identifikatoren versehen. Die Katalogisierung vereinfacht die Suche und Nutzung von Publikationen und Autor*innen. In den meisten Fällen sind Dokumente in Online-Repositorien uneingeschränkt und offen zugänglich (Open Access). Weiterlesen oder Forschungsdatenzentren, die allgemeine Vorgaben in Bezug auf Inhalt und Format der Metadaten festlegen, an denen man sich bei der Beschreibung orientieren kann. Diese inkludieren Schemata und Kernelemente zur Beschreibung der Daten und zielen insbesondere auf die Auffindbarkeit und Lesbarkeit der Metainformationen für Menschen und Maschinen ab.

Dabei wird empfohlen, ein kontrolliertesUnter einem kontrollierten Vokabular versteht man Vorgaben bzw. Definitionen von Begriffen und Regeln, die in Wortlisten oder strukturierten Thesauri zusammengefasst sind. Sie sind eine Art Lexikon oder Enzyklopädie für fachspezifische Begriffsdefinitionen, die dazu dienen, eine einheitliche wissenschaftliche Praxis zu fördern und Forschungen interoperabel und intersubjektiv nachvollziehbar zu machen. In den Sozialwissenschaften ist insbesondere der 'European Language Social Science Thesaurus' (ELSST) relevant siehe: https://elsst.cessda.eu. Weiterlesen und einheitliches Begriffsvokabular zu verwenden, zu dem die NormdatenNormdaten bilden Identifikationen und standardisierte normierte Datensätze in Form von eindeutigen Nummern, anhand derer Personen, Werke, Institutionen, Forschungsförderer, Körperschaften oder Schlagwörter eindeutig beschrieben und zuordenbar werden. Eine fälschliche oder doppelte Zuordnung entfällt durch diese normierten Daten. Insbesondere in Katalogen und Datenbanken können durch Normdaten Informationen zu bestimmten Entitäten vereinfacht herausgefunden werden, wodurch eine digitale Vernetzung und Auffindbarkeit zwischen Projekten stattfinden kann. Weiterlesen zählen, die bei der Katalogisierung und Verschlagwortung in Online-Archiven und Repositorien der eindeutigen Identifizierung von Personen, Orten, Werken u. ä. dienen1 Mehr zu Normdaten siehe Video: https://www.youtube.com/watch?v=VsP7b7B-W_Q.

Für eine ausführlichere Beschreibung und/oder zur besseren Nachvollziehbarkeit der Forschungsdaten können Kontextmaterialien bzw. -dokumente bereitgestellt werden, die Einblicke in den Forschungshintergrund gewähren. Aus diesen können zahlreiche Kontextinformationen gebündelt entnommen werden, was das Verständnis von Daten in ihrer Nachnutzung erhöht.

Motivation

Sollen Forschungsdaten archiviert und zur Nachnutzung zur Verfügung gestellt werden, ist eine gute Datendokumentation unerlässlich. Als Teil der guten wissenschaftlichen PraxisDie gute wissenschaftliche Praxis (GWP) bildet einen standardisierten Kodex, der als Regelwerk in den Leitlinien der Deutschen Forschungsgemeinschaft (DFG) verankert ist. Die Leitlinien verweisen auf die ethische Verpflichtung jedes/jeder Forschenden, verantwortungsvoll, ehrlich und respektvoll vorzugehen, auch um das allgemeine Vertrauen in Forschung und Wissenschaft zu stärken. Sie können als Orientierung im Rahmen wissenschaftlicher Arbeitsprozesse geltend gemacht werden. Weiterlesen dient sie auch der Qualitätssicherung von Daten und sollte den FAIR-PrinzipienDie FAIR-Prinzipien wurden 2016 erstmals von der FORCE 11-Community (The Future of Research Communication and e-Scholarship) entwickelt. FORCE11 ist eine Gemeinschaft von Wissenschaftlern, Bibliothekaren, Archivaren, Verlegern und Forschungsförderern, die durch den effektiven Einsatz von Informationstechnologie einen Wandel in der modernen wissenschaftlichen Kommunikation herbeiführen und so eine verbesserte Wissenserstellung und -weitergabe unterstützen will. Das primäre Ziel liegt in der transparenten und offenen Darlegung wissenschaftlicher Erkenntnisprozesse. Demnach sollten Daten online findable (auffindbar), accessible (zugänglich), interoperable (kompatibel) und reusable (wiederverwendbar) abgelegt und strukturiert sein. Ziel ist es, Daten langfristig aufzubewahren und im Sinne der Open Science und des Data Sharing für eine Nachnutzung durch Dritte bereitzustellen. Genaue Definitionen der FORCE11 selbst können auf der Website nachgelesen werden siehe: https://force11.org/info/the-fair-data-principles/. Die FAIR-Prinzipien berücksichtigen ethische Aspekte der Weitergabe von Daten in sozialwissenschaftlichen Kontexten nicht hinreichend, weshalb sie um die CARE-Prinzipien ergänzt wurden. Weiterlesen entsprechen. Sie ist für die NachnutzungEine Nachnutzung, oftmals auch Sekundärnutzung genannt, befragt bereits erhobene und veröffentlichte Forschungsdatensätze erneut mit dem Ziel, andere Erkenntnisse, möglicherweise aus einer neuen oder unterschiedlichen Perspektive, zu erhalten. Die Aufbereitung von Forschungsdaten für eine Nachnutzung erfordert einen erheblich höheren Anonymisierungs-, Aufbereitungs- und Dokumentationsaufwand als die bloße Archivierung im Sinne von Datenspeicherung. Weiterlesen relevant, da sie Miss- und Fehlinterpretationen bestenfalls verhindert, und die Suche nach passenden Daten begünstigt und vereinfacht (Huber, 2019, p. 14).

Ein Datenbericht kann zudem als Grundlage für eine eigene Methodenpublikation gehandhabt werden. Die Arbeit im Forschungsprojekt wird somit auch jenseits einer Artikelpublikation sichtbar und auch zitierfähig.

Außerdem hat die sorgfältige Datendokumentation vorteilhafte Auswirkungen auf die Ordnung und Arbeitsorganisation des/der Forscher*in selbst, auch unabhängig von einer Archivierung/Nachnutzung. In jedem Falle gilt, dass die Datendokumentation begleitend zum Forschungsprozess erfolgen sollte, um aufwändige, nachträgliche Rekonstruktionen zu vermeiden (RatSWD, 2023, p. 25).

Methoden

Arten der Datendokumentation von Anne Voigt mit CoCoMaterial, 2023, lizenziert unter CC BY-SA 4.0

Quelle: Arten der Datendokumentationen, Anne Voigt mit CoCoMaterial, 2023, lizenziert unter CC BY-SA 4.0

Metadaten und Metadatenstandards

Metadaten beschreiben (Forschungs-)Daten. Sie geben strukturierte Informationen zum Forschungskontext, den verwendeten Methoden- sowie Analyseverfahren, zum Forschungsteam, den bereit gestellten Datensätzen und vieles mehr. I. d. R. lassen sie sich unterscheiden in:

  1. Bibliographische Metadaten (wie Titel, Autor und thematische Eingrenzung des Themas)
  2. Administrative Metadaten (wie Dateiformat, Zugriffsrechte und Lizenzen)
  3. Prozessmetadaten (wie verwendete Methoden bei der Erhebung von Daten)
  4. Deskriptive Metadaten (wie zusätzliche Informationen zu Inhalt und Entstehung der Daten (Forschungsdaten.info, 2023d)

Die unterschiedlichen Metadaten können zum einen in vorstrukturierten Templates wie für ReadMe-DateienReadMe-Dateien im Kontext von Systemen oder Projektenenthalten Informationen zum jeweiligen System, Projekt o. ä., damit die Nutzenden sich zurechtfinden. Weiterlesen zusammengefasst und publiziert werden. Zum anderen geben Archive, Repositorien oder Forschungsdatenzentren meist bei Datenarchivierung bereits eine Struktur der Metadaten in auszufüllenden Formularen vor2 Siehe z. B. Qualiservice: https://www.qualiservice.org/en/the-helpdesk.html#downloads.

Für die Sozialwissenschaften haben sich die disziplinspezifischen Metadatenstandards 1) „Data Documentation Initiative“ (DDI)3 https://ddialliance.org/ und das 2) „dara Metadatenschema“4 https://www.da-ra.de/downloads#version-3-0 etabliert, die in digitale Datenbanken integriert und zum freien Download verfügbar sind. Diese Metadatenstandards sind bis dato insbesondere auf quantitative Forschungsdaten ausgerichtet und für qualitative Forschungsdaten, wie sie zum großen Teil in der sozial- und kulturanthropologischen Forschung (vgl. Artikel Daten in der ethnografischen Forschung) erzeugt werden, eher unpassend. Für die empirisch-ethnografische Forschung ist daher eine ergänzende Datendokumentation mittels Datenberichten/Studienreports und Kontextmaterialien unerlässlich.  

ReadMe-Dateien

ReadMe-Dateien sind einfache Text- oder TEI-xml-Dateien, die in den Formaten .txt, .md oder .xml abgespeichert werden und zentrale Metadaten in kompakter und strukturierter Form umfassen. Hier können Informationen festgehalten werden wie: der Projektname, die beteiligten Personen, die Förderung, sowie Benennungen, Ordnerstrukturen oder Abkürzungen. Zum anderen können Änderungen und Versionierungen von Daten gekennzeichnet und aufgenommen werden. ReadMe-Dateien können eigenständig publiziert werden. Sie dienen der praktischen Übersicht, sind i. d. R. maschinenlesbar und können so aussehen:

Beispiele

Documentation of research project XYZ
Creator(s):
Research context and hypotheses (reason(s) for data analysis):
Creation date of file(s):
Data collection/creation method(s):
Used Software (incl. version and add-ons), tools or devices:
Data (file names (incl. version), content, methods for data cleansing, language of data):
Softwarecode (file names (incl. version), content, programming language):
Additional documentation files (e.g. codebook, lab notebook, questionnaire):
Information on access and terms of use (license)
Notes:

Datenberichte und Studienreports

Metadaten allein reichen für die Dokumentation von qualitativen Forschungsdaten meist nicht aus. Eine Methode der Datendokumentation bildet der Daten- oder Methodenbericht, bzw. Kontextbogen oder ein Studienreport, wie er von Qualiservice empfohlen wird. Hier kann der/die Verfasser*in in freier Textform oder stichpunktartig Kontexte, Verknüpfungen und Zusatzinformationen darstellen sowie Änderungen etc. vermerken. Der Bericht sollte dabei (ähnlich wie die Templates der Metadaten) die Institution und Personen, die Forschungsfrage, die Vorarbeiten und die Konzepte des Themas beinhalten. Ebenso sollten Methoden genannt und weitere Schritte der Datenaufarbeitung und -analyse (wie Transkription, Auswertungsverfahren, Interpretation und Perspektive des/der Forscher*in) dargelegt werden. Ferner können Bezüge zu weiteren Kontextinformationen und Nachnutzungspotentialen hergestellt werden. Es empfiehlt sich, den Bericht mit wesentlichen Informationen, Vermerken und Beschreibungen kurz und knapp zu halten, und ihn als praktische und detaillierte Zusammenfassung der Forschung zu handhaben. Als Übersicht und Resümee der Forschung ist der Bericht eine vorteilhafte Orientierungsstütze für sowohl Forschende selbst, als auch für das eventuelle Forschungsteam und kann als eigenständige Publikation verwendet werden (RatSWD, 2023, p. 27).  

Kontextdokumente und -materialien

Für qualitative Forschungsdaten bzw. in ethnografischen Forschungen erhobene Daten und deren Archivierungs- und Nachnutzungsszenarien eignet sich die Bereitstellung von Kontextmaterialien zur Datendokumentation. Unter Materialien werden hier unterschiedliche Artefakte verstanden, wie schriftliche Dokumente, Bilder, Videos aber auch Gegenstände profaner alltäglicher, sakraler oder künstlerischer Herkunft, die von dem/der Ethnograf*in nicht generiert, sondern gesammelt wurden und die zur Kontextualisierung herangezogen und gemäß der Fragestellung analysiert werden können (vgl. Artikel Daten in der ethnografischen Forschung).

Für die Datendokumentation kann dieses Verständnis um Kontextdokumente, die bei der Forschung „anfallen“, erweitert werden: Fragebögen, Interview-Leitfäden, systematische Beobachtungsprotokolle sowie weitere verwandte Erhebungsinstrumente, Feld- und Methodenberichte, die jeweils benutzten Transkriptionsregeln, Anonymisierungsmaßnahmen und Auswertungsprogramme etc. Derartige Kontextdokumente fungieren als Datendokumentation und führen zu einem besseren Verständnis der Forschung und der Forschungsergebnisse.

Für die Archivierung gilt es im Vorfeld, die Dokumente und Materialien einer überlegten Kuration und Sortierung nach Arten (wie Interviewdaten, SurveysAls Survey (dt. Umfrage, Erhebung) werden in den Sozialwissenschaften standardisierte, quantitative Überblicksstudien bezeichnet, die Aufschluss über bestimmte Personengruppen oder Beobachtungseinheiten geben sollen wie z. B. Haushalte, Familienstrukturen, Altersgruppen (Jugend, Rentner, Erwerbstätige etc.), oder auch einzelne Unternehmen und Organisationen. Survey-Daten werden meist mittels Befragung (in Form von Fragebögen oder direkten strukturierten Befragungen) erhoben. Sie bilden statistische Mikrodaten, die es ermöglichen, Zusammenhänge und Merkmale bis auf die Ebene des Individuums zu untersuchen. Surveys gehören zu den Standardverfahren der quantitativen Sozialforschung, werden aber auch in der Sozial- und Kulturanthropologie eingesetzt, um Überblicksinformationen über bestimmte soziale Parameter zu erhalten wie z. B. Haushaltszusammensetzungen, ökonomische Verhältnisse oder Altersstrukturen einer BevölkerungEine Übersicht über bedeutende sozialwissenschaftliche Surveys in Bezug auf Deutschland und die entsprechenden Datenbanken bietet Gesis (Leibniz-Institut für Sozialwissenschaften): https://auffinden-zitieren-dokumentieren.de/auffinden/b-erhebungsdaten/.. Weiterlesen, Beobachtungsdaten oder mediale Daten usw.) zu unterwerfen, d. h. zu überlegen, welche der eigenen Forschungsdaten sich für eine Archivierung und Nachnutzung eignen und welche nicht. Diese Entscheidung ist eng an ethische und datenschutzrechtlicheDatenschutz beinhaltet Maßnahmen gegen ein unrechtmäßiges Erheben, Speichern, Teilen und Nachnutzen von personenbezogenen Daten. Der Datenschutz stützt sich auf das Recht der Selbstbestimmung von Individuen in Bezug auf den Umgang mit ihren Daten und ist in der Datenschutz-Grundverordnung (DSGVO), dem Bundesdatenschutzgesetz und in den entsprechenden Gesetzen der Bundesländer verankert. Ein Verstoß gegen datenschutzrechtliche Vorschriften kann strafrechtliche Konsequenzen nach sich ziehen. Weiterlesen Aspekte gekoppelt. Sind die Auswahlkriterien geklärt, kann eine genaue Herleitung und Aufzählung der verwendeten Materialien und Dokumente sowie verwendeter „Werkzeuge“ und „Instrumente“ der Forschung erfolgen. Dadurch wird der Forschungskontext, die Perspektive des/der Forscher*in sowie Methode, Thema, Fragestellung etc. nachvollzieh- und interpretierbar.

Diskussion

Offengebliebene Fragen zur Datendokumentation werden in den Artikeln Archivierung und Nachnutzung kritisch diskutiert.

Endnoten

Literatur und Quellenangaben

Zitierweise

Heldt, C., Röttger-Rössler, B. & Voigt, A. (2023). Datendokumentation und Metadaten. In Data Affairs. Datenmanagement in der ethnografischen Forschung. SFB 1171 & Center für Digitale Systeme, Freie Universität Berlin. https://data-affairs.affective-societies.de/artikel/datendokumentation-und-metadaten/