Logo

Suche in DATA AFFAIRS

LerneinheitArchivierung

Methoden

Archivierung von Anne Voigt mit CoCoMaterial, 2023, lizenziert unter CC BY-SA 4.0

Quelle: Archivierung, Anne Voigt mit CoCoMaterial, 2023, lizenziert unter CC BY-SA 4.0

Datenauswahl

Grundsätzlich geht es niemals darum, komplette Materialkorpora einer Forschung für die Archivierung freizugeben, vielmehr gilt es, darüber nachzudenken, was man teilen kann (DGSKA, 2015).

Eine Schwierigkeit auf dem Weg zur ArchivierungArchivierung meint das Aufbewahren und Zugänglichmachen von Forschungsdaten und -materialien. Das Ziel der Archivierung ist es, den Zugang zu Forschungsdaten über einen längeren Zeitraum hinweg zu ermöglichen. So können zum einen archivierte Forschungsdaten durch Dritte für eigene Forschungsfragen als Sekundärdaten nachgenutzt werden. Zum anderen bleiben Forschungsverläufe so nachprüfbar und nachvollziehbar. Daneben gibt es auch die Langzeitarchivierung (LZA), welche die langfristige Nutzbarkeit über einen nicht definierten Zeitraum hinweg sicherstellen soll. Die LZA zielt auf Erhalt der Authentizität, Integrität, Zugänglichkeit und Verständlichkeit von Daten ab. Weiterlesen von ethnografischen Daten ist deren sensibler Inhalt, denn Sozial- und Kulturanthropolog*innen erheben oft Daten zu sensiblen Themen, deren Archivierung in öffentlichen RepositorienEin Repositorium bildet einen Ort der Aufbewahrung wissenschaftlicher Dokumente. In Online-Repositorien werden Publikationen digital gespeichert, verwaltet und mit persistenten Identifikatoren versehen. Die Katalogisierung vereinfacht die Suche und Nutzung von Publikationen und Autor*innen. In den meisten Fällen sind Dokumente in Online-Repositorien uneingeschränkt und offen zugänglich (Open Access). Weiterlesen mit unkalkulierbaren (politischen) Gefahren oder Konsequenzen für die Forschungsteilnehmenden einhergehen kann. Diese Daten müssen in besonderem Maße geschützt und forschungsethisch behandelt werden (vgl. Artikel Datenschutz). Auch ist es erforderlich, eine informierte Einwilligung der Forschungsteilnehmenden zu einer Archivierung von personenbezogenen DatenPersonenbezogene Daten sind: 'alle Informationen, die sich auf eine identifizierte oder identifizierbare natürliche Person (betroffene Person) beziehen; als identifizierbar wird eine natürliche Person angesehen, die direkt oder indirekt, insbesondere mittels Zuordnung zu einer Kennung wie einem Namen, zu einer Kennnummer, zu Standortdaten, zu einer Online-Kennung oder zu einem oder mehreren besonderen Merkmalen, die Ausdruck der physischen, physiologischen, genetischen, psychischen, wirtschaftlichen, kulturellen oder sozialen Identität dieser Person sind, identifiziert werden kann;...' (EU-DSGVO Artikel 4 Nr. 1, 2016; BDSG §46 Abs. 1, 2018; BlnDSG §31, 2020). Weiterlesen einzuholen, was sich in der Praxis allerdings oft als äußerst schwierig erweist (vgl. Artikel informierte Einwilligung und Anonymisierung). 

Eine weitere Herausforderung kann die Verwicklung der forschenden Person in ihr Material darstellen, denn dieses enthält oft Elemente und Bezüge zur forschenden Person selbst. Bei einer Archivierung für eine mögliche NachnutzungEine Nachnutzung, oftmals auch Sekundärnutzung genannt, befragt bereits erhobene und veröffentlichte Forschungsdatensätze erneut mit dem Ziel, andere Erkenntnisse, möglicherweise aus einer neuen oder unterschiedlichen Perspektive, zu erhalten. Die Aufbereitung von Forschungsdaten für eine Nachnutzung erfordert einen erheblich höheren Anonymisierungs-, Aufbereitungs- und Dokumentationsaufwand als die bloße Archivierung im Sinne von Datenspeicherung. Weiterlesen dieser Daten geben die Forschenden dann etwas über ihre Persönlichkeit, Erfahrung und Positionalität im Feld an unbekannte Dritte weiter, was mit dem Schutz ihrer eigenen Persönlichkeitsrechte kollidieren könnte. Es sei denn, sie befreien die Daten zuvor mit erheblichem Zeitaufwand von allen persönlichen Elementen, was allerdings zu einer deutlichen Dekontextualisierung führen würde.

Hier wird deutlich, dass jeweils sorgfältig abgewogen werden muss, ob und unter welchen Bedingungen eine Archivierung und Nachnutzung durch Dritte ermöglicht werden kann, um sowohl den Schutz der Gesprächspartner*innen als auch der Forschenden selbst zu gewährleisten. Die diesbezüglich zentrale Frage lautet, für welche potentiellen Nachnutzenden und für welche Zwecke die Forschenden welche ihrer Daten in welcher Form aufbereiten wollen (Behrends et al., 2022, p. 17).

Handelt es sich dabei z. B. um:

  • akademische Öffentlichkeiten und Fachkollegien in Deutschland oder im Land der Forschung oder im internationalen Raum, die sich aus wissenschaftlicher Perspektive für Daten interessieren?
  • staatliche Forschungsbehörden oder lokale Organisationen, die Zugang zu den Daten wünschen, möglicherweise aber ganz andere Interessen (wirtschaftliche, politische) an den Daten hegen als die Forschenden?
  • ein nicht-wissenschaftliches Publikum, das Interesse an dem Thema der Forschung haben könnte oder dessen Interesse geweckt werden soll, um dieses jenseits des akademischen Diskurses greif- und sichtbar zu machen, was ganz im Sinne der Open Science'Der Begriff Open Science bündelt … Strategien und Verfahren, die allesamt darauf abzielen, ... alle Bestandteile des wissenschaftlichen Prozesses über das Internet offen zugänglich und nachnutzbar zu machen. Damit sollen Wissenschaft, Gesellschaft und Wirtschaft neue Möglichkeiten im Umgang mit wissenschaftlichen Erkenntnissen eröffnet werden' (AG Open Science, 2014). Weiterlesen ist?

Die Entscheidung, wem welche Daten und Materialien unter welchen Bedingungen zugänglich gemacht werden können, sollte den Forscher*innen stets selbst überlassen werden, gerade weil diese persönlich in ihr jeweiliges Feld involviert und in soziale Beziehungen eingebunden sind. Die Frage des Teilens von Daten ist somit häufig an affektive Bindungen und Loyalitäten gekoppelt und nicht immer einfach zu entscheiden:

„Imagine, for example, an anthropologist, who investigates land right conflicts and therefore talks to the plantation owners – some of whom use illegal methods to expand their lands – and to local nongovernmental organizations (NGOs) that try to fight them, as well as to the ancestral owners of the land who have been cultivating it for generations, but who, in turn, also distrust the NGOs. Probably the anthropologist will be little inclined to share his or her information with the plantation owners, but possibly with the NGOs whose political commitment and mission he or she supports. The decision to share data with the NGO activists might on the other hand violate the trust of the ancestral land users, with whom the anthropologist feels particularly connected. But besides this, can anthropologists ever be sure to see through the motivations of their various interaction partners?“

(Rizzolli & Röttger-Rössler, 2024, p. 286)

Dieses Zitat zeigt, dass die Forderung, Daten mit lokalen Forschungsteilnehmenden zu teilen, einfach klingt, aber oft extrem schwer umzusetzen und ethisch herausfordernd ist: So ist die Gruppe der Forschungsteilnehmenden weder einfach zu definieren, noch ist sie homogen.

Archive, Repositorien und Forschungsdatenzentren (FDZ)

Archive und RepositorienEin Repositorium bildet einen Ort der Aufbewahrung wissenschaftlicher Dokumente. In Online-Repositorien werden Publikationen digital gespeichert, verwaltet und mit persistenten Identifikatoren versehen. Die Katalogisierung vereinfacht die Suche und Nutzung von Publikationen und Autor*innen. In den meisten Fällen sind Dokumente in Online-Repositorien uneingeschränkt und offen zugänglich (Open Access). Weiterlesen für qualitative Daten, welche die genannten Aspekte in ihrer infrastrukturellen Organisation berücksichtigen und in denen geschultes Personal mit Erfahrung in qualitativer bzw. ethnografischer Sozialforschung qualifizierte und fachspezifische Beratungsangebote leisten kann, sind in Deutschland noch Mangelware. Es bedarf einer angemessenen Infrastruktur zur Archivierung und Bereitstellung von qualitativen Daten, die sowohl den Schutz der Daten durch sichere, zuverlässige und nachhaltige IT‐Infrastruktur gewährleistet und – soweit möglich – den Zugang zum Datenmaterial unter kontrollierten und idealerweise im Austausch mit Primärforschenden festgelegten Bedingungen (z. B. On‑Site‑Nutzung) ermöglicht (Imeri, 2017; Imeri et al., 2018; Eberhard, 2018; Eberhard, 2020).

Einen nach diesem Muster funktionierenden und ausschließlich für qualitative Forschungsdaten zuständigen Datenservice bildet das Forschungsdatenzentrum „QualiserviceDas Forschungsdatenzentrum Qualiservice stellt qualitative sozialwissenschaftliche Daten für die wissenschaftliche Nachnutzung zur Verfügung. Vom Rat für Sozial- und Wirtschaftswissenschaften (RatSWD) 2019 akkreditiert, basiert es auf dessen Qualitätssicherungskriterien. Neben der (Nach-)Nutzung von Daten gibt es für Forschende die Möglichkeit, ihre Forschungsdaten zu teilen und zu organisieren.  Dabei steht das Team von Qualiservice beratend zur Seite. Qualiservice bekennt sich zu den DFG-Richtlinien zur Sicherung guter wissenschaftlicher Praxis und berücksichtigt darüber hinaus die FAIR Guiding Principles for Scientific Data Management and Stewardship sowie die OECD Principles and Guidelines for Access to Research Data from Public FundingMehr Informationen unter: https://www.qualiservice.org/de/. Weiterlesen“ an der Universität Bremen. Qualiservice steht Forscher*innen in allen Phasen des Forschungsprozesses beratend und unterstützend zur Seite. Das Forschungsdatenzentrum ist aber vor allem spezialisiert auf die Archivierung qualitativer und insbesondere auch ethnografischer Forschungsmaterialien mit sensiblen Inhalten, wie z. B. Beobachtungsprotokolle, Feldnotizen, Interviews, Fotos oder Audiodaten sowie audiovisuelle oder internetbasierte Daten, und stellt Möglichkeiten zur Archivierung und wissenschaftlichen NachnutzungEine Nachnutzung, oftmals auch Sekundärnutzung genannt, befragt bereits erhobene und veröffentlichte Forschungsdatensätze erneut mit dem Ziel, andere Erkenntnisse, möglicherweise aus einer neuen oder unterschiedlichen Perspektive, zu erhalten. Die Aufbereitung von Forschungsdaten für eine Nachnutzung erfordert einen erheblich höheren Anonymisierungs-, Aufbereitungs- und Dokumentationsaufwand als die bloße Archivierung im Sinne von Datenspeicherung. Weiterlesen von qualitativen Daten bereit. Forschende legen fest, wann und unter welchen Bedingungen Nachnutzungen möglich sind1 Qualiservice bietet dafür verschiedene Optionen an: Beispiele sind ein zeitliches Embargo (also eine Sperrfrist) oder der Ausschluss bestimmter Nutzungszwecke wie etwa die Verwendung des Materials in der Lehre. Bei besonders sensiblen Daten kann festgelegt werden, dass diese nur vor Ort in Bremen eingesehen werden dürfen..

Vergabe von Lizenzen und persistenten Identifikatoren

In Forschungsdatenzentren wie Qualiservice können Datengebende mithilfe einer Lizenz bzw. entsprechenden Vereinbarungen zur Datennutzung entscheiden, wie auf welche Forschungsdaten zugegriffen werden darf und wie die Nutzungsrechte gestaltet werden. Die Nutzungsbedingungen hängen u. a. davon ab, ob personenbezogene und sensible Daten verarbeitet wurden und für diese eine Genehmigung eingeholt wurde. Denn die Weiterverwendung, also z. B. eine Nachnutzung für Forschungs- oder Lehrzwecke via Qualiservice muss in Form einer informierten EinwilligungInformierte Einwilligung (informed consent) meint die Zustimmung der Forschungsteilnehmenden zur Teilnahme an einem Forschungsvorhaben auf der Basis umfangreicher und verständlicher Informationen. Die Ausgestaltung einer informierten Einwilligung muss dabei sowohl ethische Grundsätze als auch datenschutzrechtliche Anforderungen adressieren. Weiterlesen bei den betroffenen Personen erfragt und genehmigt werden.

International weit verbreitet sind vor allem bei wissenschaftlichen Artikeln die Creative-Commons-LizenzenCreative-Commons-Lizenzen sind von der Non-Profit-Organisation Creative Commons vorgefertigte Lizenzverträge, mit denen die Urheberrechtsinhabenden der Öffentlichkeit die Nutzungsrechte am eigenen kreativen Werk einräumen können. Sobald ein unter CC-Lizenz stehendes Werk im Sinne des Lizenzvertrages von Dritten genutzt wird, kommt der Vertrag zustande (TUM, 2023, p. 5). Weiterlesen (Creative Commons, 2023b). Die Creative-Commons-Organisation bietet derzeit sechs vorgefertigte, standardisierte LizenzverträgeIn einem Lizenzvertrag oder über eine offene Lizenz legen die Rechteinhabenden fest, wie und unter welchen Bedingungen das eigene urheberrechtlich geschützte Werk durch Dritte verwendet und oder verwertet werden darf. Weiterlesen, mit denen die UrheberrechtsinhabendenDas Urheberrecht (UrhG) schützt bestimmte geistige Schöpfungen (Werke) und Leistungen. Unter Werke fallen Sprachwerke, Lichtbild-, Film- und Musikwerke sowie Darstellungen wissenschaftlicher oder technischer Art, wie Zeichnungen, Pläne, Karten, Skizzen, Tabellen und plastische Darstellungen (§2 UrhG). Die künstlerischen, wissenschaftlichen Leistungen von Personen oder die getätigte Investition gelten dagegen als schützenswerte Leistungen (Leistungsschutzrecht). Der*die Urheber*in ist berechtigt, das Werk zu veröffentlichen und zu verwerten. Weiterlesen Nutzungsrechte am eigenen Werk einräumen können. Für wissenschaftliche Textpublikation hat sich bereits die CC‑BY‑Lizenz durchgesetzt und wird von der DFG empfohlen (DFG, 2014). Diese Lizenzen sind dank des standardisierten Baukastenprinzips auch ohne juristisches Wissen leicht nachvollziehbar.

Die zu archivierenden Forschungsdaten und Dokumentationen sollten außerdem mit sogenannten persistenten IdentifikatorenEin Persistent Identifier (PID) (auf Deutsch: dauerhafter Identifikator) ist ein dauerhafter, digitaler Code, der einer digitalen Ressource wie z. B. einem Datensatz, einem wissenschaftlichen Artikel oder einer anderen Veröffentlichung direkt zugeordnet ist und diese damit permanent identifizier- und auffindbar macht. Im Gegensatz zu anderen seriellen Identifikatoren (bspw. URL-Adressen) verweist ein Persistent Identifier auf das Objekt selbst und nicht auf seinen Standort im Internet. Ändert sich der Standort eines mit einem Persistent Identifier assoziierten digitalen Objekts, so bleibt der Identifikator derselbe. Es muss lediglich in der Identifikator-Datenbank der URL-Standort geändert oder ergänzt werden. So wird sichergestellt, dass ein Datensatz dauerhaft auffindbar, abrufbar und zitierbar bleibt (Forschungdaten.info, 2023). Weiterlesen (PID) versehen werden, welche die dauerhafte Auffindbarkeit und Referenzierbarkeit der Daten gewährleisten. Ein PID ist ein langlebiger Verweis auf eine digitale Ressource wie z. B. einen Datensatz, wobei auf das Objekt selbst und nicht auf den URL-Standort verwiesen wird. Ändert sich der Standort eines mit einem Persistent Identifier assoziierten digitalen Objekts, so bleibt der Identifikator trotzdem derselbe (Forschungdaten.info, 2023). Mittlerweile sehr weit verbreitete persistente Identifikatoren sind der DOIDie Abkürzung DOI steht für Digital Object Identifier und ist ein eindeutiger und dauerhafter (persistenter) Identifikator für digitale Objekte, z. B. für Artikel und Beiträge in wissenschaftlichen Veröffentlichungen aber auch Veröffentlichungen von Vorträgen und Lehrmaterialien. Ein DOI muss initial in der zentralen Datenbank, der International DOI Foundation, registriert werden siehe: https://www.doi.org/. Weiterlesen und die ORCIDAls Beispiel für eine Normdatei zur eindeutigen Identifizierung von Personen gilt die sogenannte ORCID. Die Open Research and Contributor-ID (ORCID) ist ein international anerkannter persistenter Identifikator, mit dessen Hilfe Forschende eindeutig identifiziert werden können. Die ID kann dauerhaft sowie institutionsunabhängig von Forschenden für ihre wissenschaftlichen Veröffentlichungen verwendet werden. Sie besteht aus 16 Ziffern, die in vier Viererblöcken dargestellt sind (z.B. 0000-0002-2792-2625). Die ORCID-ID ist als Identifizierungsnummer bei zahlreichen Verlagen, Universitäten und wissenschaftsnahen Einrichtungen etabliert und wird in den Workflow z. B. bei der Begutachtung von Zeitschriftenartikeln integriert Eine ORCID kann unter https://orcid.org/ kostenfrei erstellt werden.. Weiterlesen. DOI steht für Digital Object Identifier und verweist auf digitale Objekte, wie z. B. Artikel und Beiträge in wissenschaftlichen Veröffentlichungen aber auch Veröffentlichungen von Vorträgen und Lehrmaterialien. Mit einer Open Researcher and Contributor ID (ORCID) können die forschenden Personen und Autor*innen digital referenziert und eindeutig identifiziert werden.

Für eine Archivierung geeignete Datenformate

Die Leitlinien der guten wissenschaftlichen Praxis sehen mindestens 10 Jahre Aufbewahrungsfrist vor (GWP Leitlinie 17, 2022). Neben der Sicherstellung der Interpretierbarkeit der Daten durch eine begleitende Dokumentation sowie Metadaten (vgl. Artikel Datendokumentation), ist es gemäß den FAIR-PrinzipienDie FAIR-Prinzipien wurden 2016 erstmals von der FORCE 11-Community (The Future of Research Communication and e-Scholarship) entwickelt. FORCE11 ist eine Gemeinschaft von Wissenschaftlern, Bibliothekaren, Archivaren, Verlegern und Forschungsförderern, die durch den effektiven Einsatz von Informationstechnologie einen Wandel in der modernen wissenschaftlichen Kommunikation herbeiführen und so eine verbesserte Wissenserstellung und -weitergabe unterstützen will. Das primäre Ziel liegt in der transparenten und offenen Darlegung wissenschaftlicher Erkenntnisprozesse. Demnach sollten Daten online findable (auffindbar), accessible (zugänglich), interoperable (kompatibel) und reusable (wiederverwendbar) abgelegt und strukturiert sein. Ziel ist es, Daten langfristig aufzubewahren und im Sinne der Open Science und des Data Sharing für eine Nachnutzung durch Dritte bereitzustellen. Genaue Definitionen der FORCE11 selbst können auf der Website nachgelesen werden siehe: https://force11.org/info/the-fair-data-principles/. Die FAIR-Prinzipien berücksichtigen ethische Aspekte der Weitergabe von Daten in sozialwissenschaftlichen Kontexten nicht hinreichend, weshalb sie um die CARE-Prinzipien ergänzt wurden. Weiterlesen wichtig, auch deren Nutzbarkeit durch geeignete DateiformateDie Begriffe Dateitypen und Dateiformate werden meist synonym verwendet. Es wird zwischen proprietären und offenen Dateiformaten unterschieden. Für proprietäre Formate braucht man meist eine kostenpflichtige Software, da diese von anderen Programmen nicht zu öffnen oder zu lesen sind, wie etwa Powerpoint für .ppt- oder Photoshop für .psd-Dateien. Offene Formate wie .rft oder .png dagegen basieren auf Standards und können von vielen Programmen geöffnet werden. Weiterlesen zu gewährleisten. Für eine ArchivierungArchivierung meint das Aufbewahren und Zugänglichmachen von Forschungsdaten und -materialien. Das Ziel der Archivierung ist es, den Zugang zu Forschungsdaten über einen längeren Zeitraum hinweg zu ermöglichen. So können zum einen archivierte Forschungsdaten durch Dritte für eigene Forschungsfragen als Sekundärdaten nachgenutzt werden. Zum anderen bleiben Forschungsverläufe so nachprüfbar und nachvollziehbar. Daneben gibt es auch die Langzeitarchivierung (LZA), welche die langfristige Nutzbarkeit über einen nicht definierten Zeitraum hinweg sicherstellen soll. Die LZA zielt auf Erhalt der Authentizität, Integrität, Zugänglichkeit und Verständlichkeit von Daten ab. Weiterlesen weniger geeignet sind Formate, die für ihre Verarbeitung eine proprietäreProprietäre Dateiformate sind Dateiformate, die sich nicht oder nur mit Schwierigkeiten von Dritten öffnen bzw. lesen lassen, da sie z. B. lizenzrechtlich oder durch Patente geschützt sind. Meist wird dafür spezielle (kostenpflichtige) Software benötigt (Wikipedia, 2023). Beispiele hierfür sind z. B. das Wordformat .docx oder das Adobe Photoshop-Format .psd. Weiterlesen meist kostenpflichtige Software wie Microsoft Office, MaxQDA oder Photoshop benötigen. Wird mit einer solchen Software in einem Forschungsvorhaben gearbeitet, sollten die Daten für die Archivierung in geeignetere Dateiformate konvertiert werden. Denn zu archivierende Dateien sind im Idealfall „unverschlüsselt, nicht komprimiert, patentfrei und im offenen, dokumentierten Standard erstellt“ (Biernacka et al., 2021). Meist kann eine Konvertierung direkt in der entsprechenden Software beim Speichern oder unter Export vorgenommen werden.

Tabelle: Für eine Archivierung empfohlene Dateiformate (Biernacka et al., 2021):

Dateiformate fürEmpfehlungVermeiden
BilderTIFF, JPEG2000, PNGGIF, JPG
TexteTXT, HTML, RTF, PDF/A, DOCXDOC, PDF
TabellenCSV, TSV, SPSS portable, XLSXXLS, SPSS
MultimediaContainer: MPEG4, MKV
Codec: Theora, Dirac, FLAC
QuickTime, Flash