Logo

Suche in DATA AFFAIRS

ArtikelArchivierung

Archivierung

Übersicht

In diesem Artikel geht es um die Archivierung von Forschungsdaten, d. h. um Aspekte, die für eine langfristige, digitale Aufbewahrung und die dafür notwendige Datenaufbereitung zu beachten sind. Die Perspektive liegt auf der des „Datengebens“. Da die Archivierung von Daten die Voraussetzung für ihre wissenschaftliche Nachnutzung (in Forschung und Lehre) bildet, sollten beide Artikel als miteinander verbunden verstanden werden. Im Artikel zur Nachnutzung liegt der Fokus auf dem „Datennehmen“.

Definition

Unter Archivierung wird die kontrollierte, sichere, langfristige Aufbewahrung von Dokumenten und Daten in analogen oder digitalen Speicherorten (Archiven, Repositorien) verstanden, um sie für weitere (wissenschaftliche) Nachnutzungen zur Verfügung zu stellen.

Einführung

Mit dem Begriff Archiv (lat. archivum „Aktenschrank“) verbinden viele vermutlich das Bild staubiger Kellerräume, in denen sich endlose Reihen mit Regalen voller Akten aneinanderreihen. Denkt man an die vielen Behörden, deren Amtsgeschäfte das Dokumentieren und Aufbewahren von administrativen Vorgängen erfordern (Versicherungen, Kranken- und Rentenkassen, Meldeämter etc.), so ist dieses Bild sicherlich zutreffend, auch wenn hier zunehmend auf DigitalisierungDigitale Daten werden durch Digitalisierung hergestellt, indem analoge Materialien in Formate überführt werden, die sich für eine elektronische Speicherung auf digitalen Datenträgern eignen. Digitale Daten haben den Vorteil, dass sie effizient und fehlerfrei vervielfacht, geteilt und maschinell verarbeitet werden können. Weiterlesen umgestellt wird. Doch neben Amtsarchiven gibt es eine unüberschaubare Vielzahl weiterer Archive, die sich sowohl in staatlicher als auch in privater Trägerschaft befinden können. Als Gedächtnisinstitutionen kommt ihnen – ebenso wie Museen, Bibliotheken und Dokumentationszentren – zum Teil eine große gesellschaftliche Bedeutung zu. Eine Sonderform bilden wissenschaftliche Sammlungen verschiedener Disziplinen, die primär zu Forschungszwecken unterhalten werden. Einen Einblick in die Vielgestaltigkeit dieser Sammlungen vermittelt das Portal Wissenschaftliche Sammlungen. Von besonderem Interesse sind hier die diversen ethnologischen Sammlungen, die sich zum Beispiel an den Universitäten in Göttingen, Frankfurt, Mainz, Tübingen, Marburg, Hannover u. a. befinden und sowohl Artefakte als auch Ton-, Bild-, Film- und Schriftdokumente umfassen1 siehe: https://portal.wissenschaftliche-sammlungen.de.

Die Forderung der Open-Science-BewegungDie Open-Science-Bewegung plädiert seit den frühen 2000er Jahren für eine offene und transparente Wissenschaft, in der alle Schritte des wissenschaftlichen Erkenntnisprozesses offen online zugänglich gemacht werden. So sollen nicht nur Endergebnisse von Forschungen wie Monographien oder Artikel öffentlich geteilt werden, sondern auch verwendete Materialien, die den Entstehungsprozess begleiteten wie: Labortagebücher, Forschungsdaten, verwendete Software, Forschungsberichte usw. Dadurch soll eine Partizipation an Wissenschaft und Erkenntnissen gefördert und interessierte Öffentlichkeiten angesprochen werden. Kreativität, Innovation und neue Kollaborationen sollen gefördert, Erkenntnisse auf ihre Qualität, Richtigkeit und Authentizität hin überprüft werden, was eine Demokratisierung von Forschung bezwecken soll. Zur Open Science zählen u. a. Open Access und Open Data, die Infrastrukturen des Teilens von Zwischenergebnissen von Forschungen bilden. Weiterlesen, Forschungsdaten soweit wie möglich für wissenschaftliche NachnutzungenEine Nachnutzung, oftmals auch Sekundärnutzung genannt, befragt bereits erhobene und veröffentlichte Forschungsdatensätze erneut mit dem Ziel, andere Erkenntnisse, möglicherweise aus einer neuen oder unterschiedlichen Perspektive, zu erhalten. Die Aufbereitung von Forschungsdaten für eine Nachnutzung erfordert einen erheblich höheren Anonymisierungs-, Aufbereitungs- und Dokumentationsaufwand als die bloße Archivierung im Sinne von Datenspeicherung. Weiterlesen als auch für interessierte Öffentlichkeiten zur Verfügung zu stellen, knüpft also an eine lange Tradition des Aufbereitens und Speicherns von Dokumenten und Objekten für Forschungs- aber auch für öffentliche Informationszwecke an. So ermöglichen die meisten wissenschaftlichen Sammlungen interessierten Personen Zugang zu ihren Archiven oder stellen auch Teile ihrer Sammlungen öffentlich aus.

In diesem Artikel geht es ausschließlich um die Zugänglichmachung von digitalen und digitalisierten Daten in institutionalisierten Archiven oder RepositorienEin Repositorium bildet einen Ort der Aufbewahrung wissenschaftlicher Dokumente. In Online-Repositorien werden Publikationen digital gespeichert, verwaltet und mit persistenten Identifikatoren versehen. Die Katalogisierung vereinfacht die Suche und Nutzung von Publikationen und Autor*innen. In den meisten Fällen sind Dokumente in Online-Repositorien uneingeschränkt und offen zugänglich (Open Access). Weiterlesen2Das bedeutet nicht zwangsläufig, dass das Material frei ins Internet gestellt wird, sondern dass der Zugang kontrolliert bzw. beschränkt werden kann oder auch muss., und nicht um die individuelle Archivierung und Aufbewahrung von Daten und Materialien der Forschenden in digitalen Ordnern oder analogen Kisten und Kästen. Das eigentliche Ziel der Archivierung von Forschungsdaten ist i. d. R., deren Nachnutzung (vgl. Artikel Nachnutzung) zu ermöglichen. Eine wichtige Rolle hierbei spielt die DatendokumentationForschungsdaten bilden nicht nur die Basis wissenschaftlicher Veröffentlichungen der jeweiligen Forscher*innen, sondern werden in vielen Fällen anderen zugänglich gemacht. Dies setzt voraus, dass Forschungsdaten verständlich dokumentiert sind. Unverzichtbar wird dies, wenn eine Datenpublikation beabsichtigt ist. Eine zentrale Rolle für das Finden, Durchsuchen und Nutzen von Forschungsdaten spielen Metadaten, also Daten, die strukturierte Informationen über andere Daten enthalten. In verschiedenen Wissenschaftskreisen haben sich für die Dokumentation in Form von Metadaten sogenannte Metadatenstandards etabliert, die Konventionen für die Beschreibung und Dokumentation von Forschungsdaten über Metadaten festlegen. Weiterlesen in Form von MetadatenMetadaten sind Beschreibungen von Forschungsdaten (Daten über Daten) und geben inhaltliche und strukturierte Informationen zum Forschungskontext, dem methodischen und analytischen Verfahren, sowie über das jeweilige Forschungsteam, das die Daten generiert. Sie lassen sich unterscheiden in bibliographische, administrative, prozessuale und deskriptive Metadaten und werden beispielsweise in Form von Templates, ReadMe-Dateien oder Data Curation Profiles verfasst. Metadaten werden begleitend zu den Forschungsdaten selbst publiziert und gelten insbesondere in Online-Repositorien und Forschungsdatenzentren als unverzichtbar für das Nachvollziehen und Verstehen von Datensätzen durch Dritte. Auch erleichtern Metadaten die Auffindbarkeit und Maschinenlesbarkeit von Daten und sind somit Teil der FAIR-Prinzipien und der guten wissenschaftlichen Praxis. Weiterlesen, mithilfe derer die Daten von Dritten gefunden werden können und nachvollziehbar und verständlich werden (vgl. Artikel Datendokumentation und Metadaten).

Motivation

Als Motivator für eine ArchivierungArchivierung meint das Aufbewahren und Zugänglichmachen von Forschungsdaten und -materialien. Das Ziel der Archivierung ist es, den Zugang zu Forschungsdaten über einen längeren Zeitraum hinweg zu ermöglichen. So können zum einen archivierte Forschungsdaten durch Dritte für eigene Forschungsfragen als Sekundärdaten nachgenutzt werden. Zum anderen bleiben Forschungsverläufe so nachprüfbar und nachvollziehbar. Daneben gibt es auch die Langzeitarchivierung (LZA), welche die langfristige Nutzbarkeit über einen nicht definierten Zeitraum hinweg sicherstellen soll. Die LZA zielt auf Erhalt der Authentizität, Integrität, Zugänglichkeit und Verständlichkeit von Daten ab. Weiterlesen der eigenen Forschungsdaten'Forschungsdaten sind (digitale) Daten, die während wissenschaftlicher Tätigkeit (z. B. durch Messungen, Befragungen, Beobachtungen, Experimente, Quellenarbeit) entstehen. Sie bilden eine Grundlage wissenschaftlicher Arbeit und dokumentieren deren Ergebnisse. Daraus ergibt sich ein disziplin- und projektspezifisches Verständnis von Forschungsdaten (siehe ethnografische Forschungsdaten) mit unterschiedlichen Anforderungen an die Aufbereitung, Verarbeitung und Verwaltung der Daten: dem sogenannten Forschungsdatenmanagement (FDM)' (Forschungsdaten.info, 2023). Weiterlesen können institutionelle Faktoren und persönliche Anforderungen geltend gemacht werden: So liegt eine Archivierung in vielen Fällen im Interesse der FördererFörderinstitutionen sind all jene Einrichtungen, die wissenschaftliche Forschung finanziell fördern, also Stiftungen, Vereine oder andere Organisationen. Die meisten dieser Einrichtungen im internationalen Raum haben dabei Richtlinien für das Forschungsdatenmanagement (FDM) von Forschungsprojekten eingeführt, d. h. eine mögliche finanzielle Förderung ist an Bedingungen und Forderungen zum Umgang mit Forschungsdaten geknüpft. Zu den bekanntesten Förderinstitutionen im deutschsprachigen Raum gehören das Bundesministerium für Bildung und Forschung (BMBF) selbst, die Bildungs- und Wissenschaftsministerien der Bundesländer, die Deutsche Forschungsgemeinschaft (DFG), die Volkswagenstiftung oder der Österreichische Wissenschaftsfonds (FWF) sowie der Schweizer Nationalfonds (SNF). Weiterlesen und Institutionen, welche die jeweilige Forschung finanziell ermöglichen. Der Zugang zu archivierten Daten erlaubt es Dritten, Folgeforschungen unter einer neuen Fragestellung oder Vergleichsstudien vorzunehmen, woraus zudem neue Forschungsperspektiven resultieren können. Auch können bereits bestehende Daten z. B. als Beispielmaterialien in der Lehre – etwa in der Methodenausbildung – verwendet werden. Viele Wissenschaftler*innen sehen sich auch persönlich in der Verantwortung, ihre Daten zu archivieren, da diese historische Bedeutsamkeit erlangen könnten, in dem sie lokale Lebensformen dokumentieren, die oftmals nicht mehr in derselben Form existieren wie zum Zeitpunkt der Forschung.

Methoden

Archivierung von Anne Voigt mit CoCoMaterial, 2023, lizenziert unter CC BY-SA 4.0

Quelle: Archivierung, Anne Voigt mit CoCoMaterial, 2023, lizenziert unter CC BY-SA 4.0

Datenauswahl

Grundsätzlich geht es niemals darum, komplette Materialkorpora einer Forschung für die Archivierung freizugeben, vielmehr gilt es, darüber nachzudenken, was man teilen kann (DGSKA, 2015).

Eine Schwierigkeit auf dem Weg zur ArchivierungArchivierung meint das Aufbewahren und Zugänglichmachen von Forschungsdaten und -materialien. Das Ziel der Archivierung ist es, den Zugang zu Forschungsdaten über einen längeren Zeitraum hinweg zu ermöglichen. So können zum einen archivierte Forschungsdaten durch Dritte für eigene Forschungsfragen als Sekundärdaten nachgenutzt werden. Zum anderen bleiben Forschungsverläufe so nachprüfbar und nachvollziehbar. Daneben gibt es auch die Langzeitarchivierung (LZA), welche die langfristige Nutzbarkeit über einen nicht definierten Zeitraum hinweg sicherstellen soll. Die LZA zielt auf Erhalt der Authentizität, Integrität, Zugänglichkeit und Verständlichkeit von Daten ab. Weiterlesen von ethnografischen Daten ist deren sensibler Inhalt, denn Sozial- und Kulturanthropolog*innen erheben oft Daten zu sensiblen Themen, deren Archivierung in öffentlichen RepositorienEin Repositorium bildet einen Ort der Aufbewahrung wissenschaftlicher Dokumente. In Online-Repositorien werden Publikationen digital gespeichert, verwaltet und mit persistenten Identifikatoren versehen. Die Katalogisierung vereinfacht die Suche und Nutzung von Publikationen und Autor*innen. In den meisten Fällen sind Dokumente in Online-Repositorien uneingeschränkt und offen zugänglich (Open Access). Weiterlesen mit unkalkulierbaren (politischen) Gefahren oder Konsequenzen für die Forschungsteilnehmenden einhergehen kann. Diese Daten müssen in besonderem Maße geschützt und forschungsethisch behandelt werden (vgl. Artikel Datenschutz). Auch ist es erforderlich, eine informierte Einwilligung der Forschungsteilnehmenden zu einer Archivierung von personenbezogenen DatenPersonenbezogene Daten sind: 'alle Informationen, die sich auf eine identifizierte oder identifizierbare natürliche Person (betroffene Person) beziehen; als identifizierbar wird eine natürliche Person angesehen, die direkt oder indirekt, insbesondere mittels Zuordnung zu einer Kennung wie einem Namen, zu einer Kennnummer, zu Standortdaten, zu einer Online-Kennung oder zu einem oder mehreren besonderen Merkmalen, die Ausdruck der physischen, physiologischen, genetischen, psychischen, wirtschaftlichen, kulturellen oder sozialen Identität dieser Person sind, identifiziert werden kann;...' (EU-DSGVO Artikel 4 Nr. 1, 2016; BDSG §46 Abs. 1, 2018; BlnDSG §31, 2020). Weiterlesen einzuholen, was sich in der Praxis allerdings oft als äußerst schwierig erweist (vgl. Artikel informierte Einwilligung und Anonymisierung). 

Eine weitere Herausforderung kann die Verwicklung der forschenden Person in ihr Material darstellen, denn dieses enthält oft Elemente und Bezüge zur forschenden Person selbst. Bei einer Archivierung für eine mögliche NachnutzungEine Nachnutzung, oftmals auch Sekundärnutzung genannt, befragt bereits erhobene und veröffentlichte Forschungsdatensätze erneut mit dem Ziel, andere Erkenntnisse, möglicherweise aus einer neuen oder unterschiedlichen Perspektive, zu erhalten. Die Aufbereitung von Forschungsdaten für eine Nachnutzung erfordert einen erheblich höheren Anonymisierungs-, Aufbereitungs- und Dokumentationsaufwand als die bloße Archivierung im Sinne von Datenspeicherung. Weiterlesen dieser Daten geben die Forschenden dann etwas über ihre Persönlichkeit, Erfahrung und Positionalität im Feld an unbekannte Dritte weiter, was mit dem Schutz ihrer eigenen Persönlichkeitsrechte kollidieren könnte. Es sei denn, sie befreien die Daten zuvor mit erheblichem Zeitaufwand von allen persönlichen Elementen, was allerdings zu einer deutlichen Dekontextualisierung führen würde.

Hier wird deutlich, dass jeweils sorgfältig abgewogen werden muss, ob und unter welchen Bedingungen eine Archivierung und Nachnutzung durch Dritte ermöglicht werden kann, um sowohl den Schutz der Gesprächspartner*innen als auch der Forschenden selbst zu gewährleisten. Die diesbezüglich zentrale Frage lautet, für welche potentiellen Nachnutzenden und für welche Zwecke die Forschenden welche ihrer Daten in welcher Form aufbereiten wollen (Behrends et al., 2022, p. 17).

Handelt es sich dabei z. B. um:

  • akademische Öffentlichkeiten und Fachkollegien in Deutschland oder im Land der Forschung oder im internationalen Raum, die sich aus wissenschaftlicher Perspektive für Daten interessieren?
  • staatliche Forschungsbehörden oder lokale Organisationen, die Zugang zu den Daten wünschen, möglicherweise aber ganz andere Interessen (wirtschaftliche, politische) an den Daten hegen als die Forschenden?
  • ein nicht-wissenschaftliches Publikum, das Interesse an dem Thema der Forschung haben könnte oder dessen Interesse geweckt werden soll, um dieses jenseits des akademischen Diskurses greif- und sichtbar zu machen, was ganz im Sinne der Open Science'Der Begriff Open Science bündelt … Strategien und Verfahren, die allesamt darauf abzielen, ... alle Bestandteile des wissenschaftlichen Prozesses über das Internet offen zugänglich und nachnutzbar zu machen. Damit sollen Wissenschaft, Gesellschaft und Wirtschaft neue Möglichkeiten im Umgang mit wissenschaftlichen Erkenntnissen eröffnet werden' (AG Open Science, 2014). Weiterlesen ist?

Die Entscheidung, wem welche Daten und Materialien unter welchen Bedingungen zugänglich gemacht werden können, sollte den Forscher*innen stets selbst überlassen werden, gerade weil diese persönlich in ihr jeweiliges Feld involviert und in soziale Beziehungen eingebunden sind. Die Frage des Teilens von Daten ist somit häufig an affektive Bindungen und Loyalitäten gekoppelt und nicht immer einfach zu entscheiden:

"Imagine, for example, an anthropologist, who investigates land right conflicts and therefore talks to the plantation owners - some of whom use illegal methods to expand their lands - and to local nongovernmental organizations (NGOs) that try to fight them, as well as to the ancestral owners of the land who have been cultivating it for generations, but who, in turn, also distrust the NGOs. Probably the anthropologist will be little inclined to share his or her information with the plantation owners, but possibly with the NGOs whose political commitment and mission he or she supports. The decision to share data with the NGO activists might on the other hand violate the trust of the ancestral land users, with whom the anthropologist feels particularly connected. But besides this, can anthropologists ever be sure to see through the motivations of their various interaction partners?"

(Rizzolli & Röttger-Rössler, 2024, p. 286)

Dieses Zitat zeigt, dass die Forderung, Daten mit lokalen Forschungsteilnehmenden zu teilen, einfach klingt, aber oft extrem schwer umzusetzen und ethisch herausfordernd ist: So ist die Gruppe der Forschungsteilnehmenden weder einfach zu definieren, noch ist sie homogen.

Archive, Repositorien und Forschungsdatenzentren (FDZ)

Archive und RepositorienEin Repositorium bildet einen Ort der Aufbewahrung wissenschaftlicher Dokumente. In Online-Repositorien werden Publikationen digital gespeichert, verwaltet und mit persistenten Identifikatoren versehen. Die Katalogisierung vereinfacht die Suche und Nutzung von Publikationen und Autor*innen. In den meisten Fällen sind Dokumente in Online-Repositorien uneingeschränkt und offen zugänglich (Open Access). Weiterlesen für qualitative Daten, welche die genannten Aspekte in ihrer infrastrukturellen Organisation berücksichtigen und in denen geschultes Personal mit Erfahrung in qualitativer bzw. ethnografischer Sozialforschung qualifizierte und fachspezifische Beratungsangebote leisten kann, sind in Deutschland noch Mangelware. Es bedarf einer angemessenen Infrastruktur zur Archivierung und Bereitstellung von qualitativen Daten, die sowohl den Schutz der Daten durch sichere, zuverlässige und nachhaltige IT‐Infrastruktur gewährleistet und – soweit möglich – den Zugang zum Datenmaterial unter kontrollierten und idealerweise im Austausch mit Primärforschenden festgelegten Bedingungen (z. B. On‑Site‑Nutzung) ermöglicht (Imeri, 2017; Imeri et al., 2018; Eberhard, 2018; Eberhard, 2020).

Einen nach diesem Muster funktionierenden und ausschließlich für qualitative Forschungsdaten zuständigen Datenservice bildet das Forschungsdatenzentrum „QualiserviceDas Forschungsdatenzentrum Qualiservice stellt qualitative sozialwissenschaftliche Daten für die wissenschaftliche Nachnutzung zur Verfügung. Vom Rat für Sozial- und Wirtschaftswissenschaften (RatSWD) 2019 akkreditiert, basiert es auf dessen Qualitätssicherungskriterien. Neben der (Nach-)Nutzung von Daten gibt es für Forschende die Möglichkeit, ihre Forschungsdaten zu teilen und zu organisieren.  Dabei steht das Team von Qualiservice beratend zur Seite. Qualiservice bekennt sich zu den DFG-Richtlinien zur Sicherung guter wissenschaftlicher Praxis und berücksichtigt darüber hinaus die FAIR Guiding Principles for Scientific Data Management and Stewardship sowie die OECD Principles and Guidelines for Access to Research Data from Public FundingMehr Informationen unter: https://www.qualiservice.org/de/. Weiterlesen“ an der Universität Bremen. Qualiservice steht Forscher*innen in allen Phasen des Forschungsprozesses beratend und unterstützend zur Seite. Das Forschungsdatenzentrum ist aber vor allem spezialisiert auf die Archivierung qualitativer und insbesondere auch ethnografischer Forschungsmaterialien mit sensiblen Inhalten, wie z. B. Beobachtungsprotokolle, Feldnotizen, Interviews, Fotos oder Audiodaten sowie audiovisuelle oder internetbasierte Daten, und stellt Möglichkeiten zur Archivierung und wissenschaftlichen NachnutzungEine Nachnutzung, oftmals auch Sekundärnutzung genannt, befragt bereits erhobene und veröffentlichte Forschungsdatensätze erneut mit dem Ziel, andere Erkenntnisse, möglicherweise aus einer neuen oder unterschiedlichen Perspektive, zu erhalten. Die Aufbereitung von Forschungsdaten für eine Nachnutzung erfordert einen erheblich höheren Anonymisierungs-, Aufbereitungs- und Dokumentationsaufwand als die bloße Archivierung im Sinne von Datenspeicherung. Weiterlesen von qualitativen Daten bereit. Forschende legen fest, wann und unter welchen Bedingungen Nachnutzungen möglich sind3 Qualiservice bietet dafür verschiedene Optionen an: Beispiele sind ein zeitliches Embargo (also eine Sperrfrist) oder der Ausschluss bestimmter Nutzungszwecke wie etwa die Verwendung des Materials in der Lehre. Bei besonders sensiblen Daten kann festgelegt werden, dass diese nur vor Ort in Bremen eingesehen werden dürfen..

Vergabe von Lizenzen und persistenten Identifikatoren

In Forschungsdatenzentren wie Qualiservice können Datengebende mithilfe einer Lizenz bzw. entsprechenden Vereinbarungen zur Datennutzung entscheiden, wie auf welche Forschungsdaten zugegriffen werden darf und wie die Nutzungsrechte gestaltet werden. Die Nutzungsbedingungen hängen u. a. davon ab, ob personenbezogene und sensible Daten verarbeitet wurden und für diese eine Genehmigung eingeholt wurde. Denn die Weiterverwendung, also z. B. eine Nachnutzung für Forschungs- oder Lehrzwecke via Qualiservice muss in Form einer informierten EinwilligungInformierte Einwilligung (informed consent) meint die Zustimmung der Forschungsteilnehmenden zur Teilnahme an einem Forschungsvorhaben auf der Basis umfangreicher und verständlicher Informationen. Die Ausgestaltung einer informierten Einwilligung muss dabei sowohl ethische Grundsätze als auch datenschutzrechtliche Anforderungen adressieren. Weiterlesen bei den betroffenen Personen erfragt und genehmigt werden.

International weit verbreitet sind vor allem bei wissenschaftlichen Artikeln die Creative-Commons-LizenzenCreative-Commons-Lizenzen sind von der Non-Profit-Organisation Creative Commons vorgefertigte Lizenzverträge, mit denen die Urheberrechtsinhabenden der Öffentlichkeit die Nutzungsrechte am eigenen kreativen Werk einräumen können. Sobald ein unter CC-Lizenz stehendes Werk im Sinne des Lizenzvertrages von Dritten genutzt wird, kommt der Vertrag zustande (TUM, 2023, p. 5). Weiterlesen (Creative Commons, 2023b). Die Creative-Commons-Organisation bietet derzeit sechs vorgefertigte, standardisierte LizenzverträgeIn einem Lizenzvertrag oder über eine offene Lizenz legen die Rechteinhabenden fest, wie und unter welchen Bedingungen das eigene urheberrechtlich geschützte Werk durch Dritte verwendet und oder verwertet werden darf. Weiterlesen, mit denen die UrheberrechtsinhabendenDas Urheberrecht (UrhG) schützt bestimmte geistige Schöpfungen (Werke) und Leistungen. Unter Werke fallen Sprachwerke, Lichtbild-, Film- und Musikwerke sowie Darstellungen wissenschaftlicher oder technischer Art, wie Zeichnungen, Pläne, Karten, Skizzen, Tabellen und plastische Darstellungen (§2 UrhG). Die künstlerischen, wissenschaftlichen Leistungen von Personen oder die getätigte Investition gelten dagegen als schützenswerte Leistungen (Leistungsschutzrecht). Der*die Urheber*in ist berechtigt, das Werk zu veröffentlichen und zu verwerten. Weiterlesen Nutzungsrechte am eigenen Werk einräumen können. Für wissenschaftliche Textpublikation hat sich bereits die CC‑BY‑Lizenz durchgesetzt und wird von der DFG empfohlen (DFG, 2014). Diese Lizenzen sind dank des standardisierten Baukastenprinzips auch ohne juristisches Wissen leicht nachvollziehbar.

Die zu archivierenden Forschungsdaten und Dokumentationen sollten außerdem mit sogenannten persistenten IdentifikatorenEin Persistent Identifier (PID) (auf Deutsch: dauerhafter Identifikator) ist ein dauerhafter, digitaler Code, der einer digitalen Ressource wie z. B. einem Datensatz, einem wissenschaftlichen Artikel oder einer anderen Veröffentlichung direkt zugeordnet ist und diese damit permanent identifizier- und auffindbar macht. Im Gegensatz zu anderen seriellen Identifikatoren (bspw. URL-Adressen) verweist ein Persistent Identifier auf das Objekt selbst und nicht auf seinen Standort im Internet. Ändert sich der Standort eines mit einem Persistent Identifier assoziierten digitalen Objekts, so bleibt der Identifikator derselbe. Es muss lediglich in der Identifikator-Datenbank der URL-Standort geändert oder ergänzt werden. So wird sichergestellt, dass ein Datensatz dauerhaft auffindbar, abrufbar und zitierbar bleibt (Forschungdaten.info, 2023). Weiterlesen (PID) versehen werden, welche die dauerhafte Auffindbarkeit und Referenzierbarkeit der Daten gewährleisten. Ein PID ist ein langlebiger Verweis auf eine digitale Ressource wie z. B. einen Datensatz, wobei auf das Objekt selbst und nicht auf den URL-Standort verwiesen wird. Ändert sich der Standort eines mit einem Persistent Identifier assoziierten digitalen Objekts, so bleibt der Identifikator trotzdem derselbe (Forschungdaten.info, 2023). Mittlerweile sehr weit verbreitete persistente Identifikatoren sind der DOIDie Abkürzung DOI steht für Digital Object Identifier und ist ein eindeutiger und dauerhafter (persistenter) Identifikator für digitale Objekte, z. B. für Artikel und Beiträge in wissenschaftlichen Veröffentlichungen aber auch Veröffentlichungen von Vorträgen und Lehrmaterialien. Ein DOI muss initial in der zentralen Datenbank, der International DOI Foundation, registriert werden siehe: https://www.doi.org/. Weiterlesen und die ORCIDAls Beispiel für eine Normdatei zur eindeutigen Identifizierung von Personen gilt die sogenannte ORCID. Die Open Research and Contributor-ID (ORCID) ist ein international anerkannter persistenter Identifikator, mit dessen Hilfe Forschende eindeutig identifiziert werden können. Die ID kann dauerhaft sowie institutionsunabhängig von Forschenden für ihre wissenschaftlichen Veröffentlichungen verwendet werden. Sie besteht aus 16 Ziffern, die in vier Viererblöcken dargestellt sind (z.B. 0000-0002-2792-2625). Die ORCID-ID ist als Identifizierungsnummer bei zahlreichen Verlagen, Universitäten und wissenschaftsnahen Einrichtungen etabliert und wird in den Workflow z. B. bei der Begutachtung von Zeitschriftenartikeln integriert Eine ORCID kann unter https://orcid.org/ kostenfrei erstellt werden.. Weiterlesen. DOI steht für Digital Object Identifier und verweist auf digitale Objekte, wie z. B. Artikel und Beiträge in wissenschaftlichen Veröffentlichungen aber auch Veröffentlichungen von Vorträgen und Lehrmaterialien. Mit einer Open Researcher and Contributor ID (ORCID) können die forschenden Personen und Autor*innen digital referenziert und eindeutig identifiziert werden.

Für eine Archivierung geeignete Datenformate

Die Leitlinien der guten wissenschaftlichen Praxis sehen mindestens 10 Jahre Aufbewahrungsfrist vor (GWP Leitlinie 17, 2022). Neben der Sicherstellung der Interpretierbarkeit der Daten durch eine begleitende Dokumentation sowie Metadaten (vgl. Artikel Datendokumentation), ist es gemäß den FAIR-PrinzipienDie FAIR-Prinzipien wurden 2016 erstmals von der FORCE 11-Community (The Future of Research Communication and e-Scholarship) entwickelt. FORCE11 ist eine Gemeinschaft von Wissenschaftlern, Bibliothekaren, Archivaren, Verlegern und Forschungsförderern, die durch den effektiven Einsatz von Informationstechnologie einen Wandel in der modernen wissenschaftlichen Kommunikation herbeiführen und so eine verbesserte Wissenserstellung und -weitergabe unterstützen will. Das primäre Ziel liegt in der transparenten und offenen Darlegung wissenschaftlicher Erkenntnisprozesse. Demnach sollten Daten online findable (auffindbar), accessible (zugänglich), interoperable (kompatibel) und reusable (wiederverwendbar) abgelegt und strukturiert sein. Ziel ist es, Daten langfristig aufzubewahren und im Sinne der Open Science und des Data Sharing für eine Nachnutzung durch Dritte bereitzustellen. Genaue Definitionen der FORCE11 selbst können auf der Website nachgelesen werden siehe: https://force11.org/info/the-fair-data-principles/. Die FAIR-Prinzipien berücksichtigen ethische Aspekte der Weitergabe von Daten in sozialwissenschaftlichen Kontexten nicht hinreichend, weshalb sie um die CARE-Prinzipien ergänzt wurden. Weiterlesen wichtig, auch deren Nutzbarkeit durch geeignete DateiformateDie Begriffe Dateitypen und Dateiformate werden meist synonym verwendet. Es wird zwischen proprietären und offenen Dateiformaten unterschieden. Für proprietäre Formate braucht man meist eine kostenpflichtige Software, da diese von anderen Programmen nicht zu öffnen oder zu lesen sind, wie etwa Powerpoint für .ppt- oder Photoshop für .psd-Dateien. Offene Formate wie .rft oder .png dagegen basieren auf Standards und können von vielen Programmen geöffnet werden. Weiterlesen zu gewährleisten. Für eine ArchivierungArchivierung meint das Aufbewahren und Zugänglichmachen von Forschungsdaten und -materialien. Das Ziel der Archivierung ist es, den Zugang zu Forschungsdaten über einen längeren Zeitraum hinweg zu ermöglichen. So können zum einen archivierte Forschungsdaten durch Dritte für eigene Forschungsfragen als Sekundärdaten nachgenutzt werden. Zum anderen bleiben Forschungsverläufe so nachprüfbar und nachvollziehbar. Daneben gibt es auch die Langzeitarchivierung (LZA), welche die langfristige Nutzbarkeit über einen nicht definierten Zeitraum hinweg sicherstellen soll. Die LZA zielt auf Erhalt der Authentizität, Integrität, Zugänglichkeit und Verständlichkeit von Daten ab. Weiterlesen weniger geeignet sind Formate, die für ihre Verarbeitung eine proprietäreProprietäre Dateiformate sind Dateiformate, die sich nicht oder nur mit Schwierigkeiten von Dritten öffnen bzw. lesen lassen, da sie z. B. lizenzrechtlich oder durch Patente geschützt sind. Meist wird dafür spezielle (kostenpflichtige) Software benötigt (Wikipedia, 2023). Beispiele hierfür sind z. B. das Wordformat .docx oder das Adobe Photoshop-Format .psd. Weiterlesen meist kostenpflichtige Software wie Microsoft Office, MaxQDA oder Photoshop benötigen. Wird mit einer solchen Software in einem Forschungsvorhaben gearbeitet, sollten die Daten für die Archivierung in geeignetere Dateiformate konvertiert werden. Denn zu archivierende Dateien sind im Idealfall „unverschlüsselt, nicht komprimiert, patentfrei und im offenen, dokumentierten Standard erstellt“ (Biernacka et al., 2021). Meist kann eine Konvertierung direkt in der entsprechenden Software beim Speichern oder unter Export vorgenommen werden.

Tabelle: Für eine Archivierung empfohlene Dateiformate (Biernacka et al., 2021):

Dateiformate fürEmpfehlungVermeiden
BilderTIFF, JPEG2000, PNGGIF, JPG
TexteTXT, HTML, RTF, PDF/A, DOCXDOC, PDF
TabellenCSV, TSV, SPSS portable, XLSXXLS, SPSS
MultimediaContainer: MPEG4, MKV
Codec: Theora, Dirac, FLAC
QuickTime, Flash

Diskussion

Wie ersichtlich wurde, bleiben noch einige offene Fragen in Bezug auf die Archivierung von Daten bestehen. So sind außerdem auch Fragen zum UrheberrechtDas Urheberrecht (UrhG) schützt bestimmte geistige Schöpfungen (Werke) und Leistungen. Unter Werke fallen Sprachwerke, Lichtbild-, Film- und Musikwerke sowie Darstellungen wissenschaftlicher oder technischer Art, wie Zeichnungen, Pläne, Karten, Skizzen, Tabellen und plastische Darstellungen (§2 UrhG). Die künstlerischen, wissenschaftlichen Leistungen von Personen oder die getätigte Investition gelten dagegen als schützenswerte Leistungen (Leistungsschutzrecht). Der*die Urheber*in ist berechtigt, das Werk zu veröffentlichen und zu verwerten. Weiterlesen aufgrund juristischer Graubereiche nicht immer einfach rechtssicher zu beantworten (Wünsche et al., 2022, p. 27):

  • Wem gehören Daten, wenn diese meist in Kollaboration und im kommunikativen Austausch gewonnen werden? Wer ist dann als urhebende Person anzusehen? Und wer bestimmt den genauen weiteren Umgang mit den Forschungsdaten?

Auch der Aspekt der Mehrsprachigkeit in Archiven ist ein zentrales und bisher ungelöstes Problem. Denn gerade Sozial- und Kulturanthropolog*innen dokumentieren im Feld oft in mehreren Sprachen, was für die Archivierung- und Nachnutzungsmöglichkeiten enorm herausfordernd ist:

  • In welcher Sprache soll archiviert werden? In der Muttersprache des/der Forschenden? In der Sprache der untersuchten Region (und damit für die Forschungsteilnehmenden), was voraussetzen würde, dass es entsprechende lokale RepositorienEin Repositorium bildet einen Ort der Aufbewahrung wissenschaftlicher Dokumente. In Online-Repositorien werden Publikationen digital gespeichert, verwaltet und mit persistenten Identifikatoren versehen. Die Katalogisierung vereinfacht die Suche und Nutzung von Publikationen und Autor*innen. In den meisten Fällen sind Dokumente in Online-Repositorien uneingeschränkt und offen zugänglich (Open Access). Weiterlesen gibt, oder soll in Englisch als internationaler Wissenschaftssprache archiviert werden? In jedem Fall wäre ein erheblicher Übersetzungsaufwand erforderlich, der mit enormen finanziellen und zeitlichen Kosten verbunden wäre.

Diese Fragen und die zuvor beschriebenen Prozesse bedenkend schließen wir, dass die Entscheidung, ob und welches Material archiviert werden kann, jeder forschenden Person in Rücksprache mit ihren Forschungsteilnehmenden selbst überlassen und nicht förderrelevant sein sollte. Außerdem sollten Vorüberlegungen und ggf. vorbereitende Schritte bereits in das methodische Vorgehen integriert werden und in enger Zusammenarbeit mit Forschungsteilnehmer*innen erfolgen. Zentrale Aspekte, die es zu beachten gilt, sind:

  1. die Aufbereitung und Auswahl von Daten für eine Archivierung und mögliche Nachnutzung und
  2. die Fragestellung, welche Öffentlichkeit adressiert werden soll.

Idealerweise sollte die Entscheidung für eine Archivierung von Daten in entsprechenden Repositorien bereits vor der empirischen Forschung fallen, so dass dieser Aspekt bereits bei der Datenerhebung berücksichtigt und mit den Forschungsteilnehmenden abgestimmt werden kann und zudem Ressourcen für die Archivierung geplant und mit beantragt werden. Da aber in ethnografischen ForschungenEthnografische Feldforschung bezeichnet die Erhebung empirischer Daten vor Ort, d. h. in konkreten sozialen Lebenswelten, im Gegensatz zu Labor- oder Archivforschung oder standardisierten Fragebogenstudien. Die in der Regel langfristige Teilnahme der Ethnograf*innen am Alltag der untersuchten Gruppe ermöglicht die direkte Beobachtung sozialer Praktiken und Prozesse und damit Aussagen über tatsächliches Verhalten. Bedeutsam ist, dass die Forschenden immer Teil der Situationen im Feld sind und die ihnen zugeschriebene sowie von ihnen eingenommene soziale Position wesentlich Einfluss auf ihre Daten hat, d. h. auf das, was sie erfassen und erkennen können. Weiterlesen nicht im Voraus völlig feststeht, zu welchen Bereichen Daten erhoben werden und inwieweit diese – eingedenk aller datenschutzrechtlichen Bestimmungen und ethischer Aspekte – für eine Archivierung und Nachnutzung geeignet sind, wird sich dies in der Praxis selten realisieren lassen. Vor allem bei sensiblen DatenEinen eigenen Teilbereich innerhalb der personenbezogenen Daten bilden die sog. besonderen Kategorien personenbezogener Daten. Ihre Definition geht auf den EU-DSGVO Artikel 9 Abs. 1, 2016 zurück, der besagt, dass es sich hierbei um Angaben über Weiterlesen muss darauf geachtet werden, inwieweit Datenarchive ethische Aspekte berücksichtigen und einen kontrollierten Zugang zu den Datensätzen garantieren.

Tools


Beispiele von Forschungsdatenzentren aus anderen Disziplinen:

Zu FAIRen Daten

Einfach zu bedienende Tools auf Englisch prüfen die Umsetzung der FAIR-Prinzipien eines Datensatzes und geben Hinweise:

Endnoten

  • 1
  • 2
    Das bedeutet nicht zwangsläufig, dass das Material frei ins Internet gestellt wird, sondern dass der Zugang kontrolliert bzw. beschränkt werden kann oder auch muss.
  • 3
    Qualiservice bietet dafür verschiedene Optionen an: Beispiele sind ein zeitliches Embargo (also eine Sperrfrist) oder der Ausschluss bestimmter Nutzungszwecke wie etwa die Verwendung des Materials in der Lehre. Bei besonders sensiblen Daten kann festgelegt werden, dass diese nur vor Ort in Bremen eingesehen werden dürfen.

Literatur und Quellenangaben

  • Behrends, A.; Knecht, M.; Liebelt, C.; Pauli, J.; Rao, U.; Rizzolli, M.; Röttger-Rössler, B.; Stodulka, T. and Zenker, O. (eds.) (2022).  Zur Teilbarkeit ethnographischer Forschungsdaten. Oder: Wie viel Privatheit braucht ethnographische Forschung? Ein Gedankenaustausch. SFB 1171 ‚Affective Societies‘ Working Paper Nr. 01/22. http://dx.doi.org/10.17169/refubium-35157.2

  • Biernacka, K., Buchholz, P., Danker, S. A., Dolzycka, D., Engelhardt, C., Helbig, K., Jacob, J., Neumann, J., Odebrecht, C., Petersen, B., Slowig, B., Trautwein-Bruns, U., Wiljes, C. & Wuttke, U. (2021). Train-the-Trainer-Konzept zum Thema Forschungsdatenmanagement. (Version 4). Zenodo. https://doi.org/10.5281/zenodo.5773203

  • Creative Commons. (2023b). Licenses List. Creative Commons. https://creativecommons.org/licenses/?lang=de

  • Deutsche Forschungsgemeinschaft (DFG). (2014). Appell zur Nutzung offener Lizenzen in der Wissenschaft. Information für die Wissenschaft Nr. 6. https://www.dfg.de/foerderung/info_wissenschaft/2014/info_wissenschaft_14_68/

  • Deutsche Forschungsgemeinschaft. (DFG, 2022). Leitlinien zur Sicherung guter wissenschaftlicher Praxis. Kodex. https://doi.org/10.5281/zenodo.6472827

  • Deutsche Gesellschaft für Sozial- und Kulturanthropologie. (DGSKA, 2015). Positionspapier zum Umgang mit ethnologischen Forschungsdaten. Forschungsdaten Info. https://forschungsdaten.info/nachrichten/nachricht-anzeige/positionspapier-zum-umgang-mit-ethnologischen-forschungsdaten/

  • Eberhard, I. & Kraus, W. (2018). Der Elefant im Raum. Ethnographisches Forschungsdatenmanagement als Herausforderung für Repositorien. Mitteilungen der Vereinigung Österreichischer Bibliothekarinnen und Bibliothekare, 71(1), 41–52. DOI: 10.31263/voebm.v71i1.2018

  • Eberhard, I. (2020). Der Kontext bestimmt alles: Kontextdaten und Containerobjekte als Lösungsmöglichkeit für den Umgang mit sozialwissenschaftlichen qualitativen Daten. Erfahrungen aus dem Pilotprojekt „Ethnographische Datenarchivierung“ an der Universitätsbibliothek Wien. ABI Technik40(2), 169-176. https://doi.org/10.1515/abitech-2020-2007

  • Forschungsdaten.info. (2023). Glossar. forschungsdaten.info. https://forschungsdaten.info/praxis-kompakt/glossar/

  • Imeri, S. (2017): Open Data? Zum Umgang mit Forschungsdaten in den ethnologischen Fächern. In J. Kratzke & V. Heuveline (Ed.): E-Science-Tage 2017: Forschungsdaten managen (167-178). heiBOOKS. https://doi.org/10.11588/heibooks.285.377

  • Imeri, S., Sterzer, W., Harbeck, M. (2018). Forschungsdatenmanagement in den ethnologischen Fächern. Bericht aus dem Fachinformationsdienst Sozial- und Kulturanthropologie. Zeitschrift für Volkskunde, 114.1 (2018), 71–75.

  • Rizzolli, M.  & Röttger-Rössler, B. (2024). Opening up ethnographic data. When the private becomes public. In Lünenborg, M. & Röttger-Rössler, B. (Eds). Affective Formation of Publics. Places, Networks, and Media (271-291). DOI:10.4324/9781003365426-18

  • Wünsche, S., Soßna, V., Kreitlow, V. & Voigt, P. (2022). Urheberrechte an Forschungsdaten – Typische Unsicherheiten und wie man sie vermindern könnte. Ein Diskussionsimpuls. Bausteine Forschungsdatenmanagement. Empfehlungen und Erfahrungsberichte für die Praxis von Forschungsdatenmanagerinnen und -managern, Nr. 1/2022 (26-42). https://doi.org/10.17192/bfdm.2022.1.8369

Weitere Literatur

  • Bambey, D., Corti, L., Diepenbroek, M., Dunkel, W., Hanekop, H., Hollstein, B., Imeri, S., Knoblauch, H., Kretzer, S., Meier zu Verl, C., Meyer, C., Meyermann, A., Porzelt, M., Rittberger, M., Strübing, J., von Unger, H. & Wilke, R. (2018). Archivierung und Zugang zu Qualitativen Daten. RatSWD Working Paper Nr. 267/201. https://doi.org/10.17620/02671.35

  • Beer, B. & König, A. (Eds.).( 2020). Methoden ethnologischer Feldforschung. Ethnologische Paperbacks. (3rd ed.). Dietrich Reimer Verlag.

  • Corti, L., van den Eynden, V., Bishop, L., Woollard, M. (2019). Managing and sharing research data: A guide to good practice. (2nd ed.). SAGE.

  • Deutsche Gesellschaft für Volkskunde. (dgv, 2019). Positionspapier zur Archivierung, Bereitstellung und Nachnutzung von Forschungsdaten. Deutsche Gesellschaft für Empirische Kulturwissenschaft. https://www.dgekw.de/wp-content/uploads/2019/04/dgv-Positionspapier_FDM.pdf

  • Meyer, C., C. Meier zu Verl. (2018). Probleme der Archivierung und sekundären Nutzung ethnografischer Daten. In Bambey, D. et al. (eds.). Archivierung und Zugang zu Qualitativen Daten. RatSWD Working Paper Series, Nr. 267/201, 80-89. https://doi.org/10.17620/02671.35

  • Stodulka, T. (2014). Feldforschung als Begegnung — Zur pragmatischen Dimension ethnographischer Daten. Sociologus, 64 (2), 179–205.  http://www.jstor.org/stable/43645251

  • forschungsdaten.info. (2023c). Datenspeicherung und die Lebensdauer von Datenträgern. forschungsdaten.info. https://forschungsdaten.info/themen/veroeffentlichen-und-archivieren/formate-erhalten/

Zitierweise

Heldt, C., Röttger-Rössler, B. & Voigt, A. (2023). Archivierung. In Data Affairs. Datenmanagement in der ethnografischen Forschung. SFB 1171 & Center für Digitale Systeme, Freie Universität Berlin. https://data-affairs.affective-societies.de/artikel/archivierung/