| CARVIEW |
Was ist das OAIS-Modell?
Das Open Archival Information System (OAIS) ist ein internationaler Standard zur langfristigen Archivierung digitaler Informationen. Es wurde ursprünglich im Rahmen des Consultative Committee for Space Data Systems (CCSDS) – einer internationalen Organisation, die Standards für den Austausch und die Archivierung von Daten aus Raumfahrtmissionen – entwickelt. In der Zwischenzeit ist der Standard aber ein zentraler Bestandteil vieler Forschungsdateninfrastrukturen – auch in der NFDI.
Der Standard ist als ISO 14721 veröffentlicht und beschreibt ein strukturiertes Regelwerk für die Archivierung, das weltweit Anwendung findet.
Die drei Informationspakete: SIP, AIP und DIP
Im Zentrum des OAIS-Modells stehen drei definierte Informationspakete:
- Submission Information Package (SIP): Enthält die Daten, die Forschende einem Archiv übergeben – inklusive Metadaten, Rechteinformationen und technischer Details.
- Archival Information Package (AIP): Wird innerhalb des Archivs verwendet und enthält alle Informationen zur langfristigen Speicherung und Qualitätssicherung.
- Dissemination Information Package (DIP): Dient der Weitergabe archivierter Daten an autorisierte Nutzer:innen – unter Berücksichtigung von Zugriffsrechten und Einschränkungen.
Die drei Pakete im OAIS-Modell unterscheiden sich, wobei die Unterschiede auf den ersten Blick vielleicht nicht sehr augenfällig sind:
| Paket | Funktion | Beispielhafte Inhalte |
|---|---|---|
| SIP (Submission Information Package) | Übergabe der Daten an das Archiv | Interviews, Transkripte, Metadaten, Lizenzinformationen |
| AIP (Archival Information Package) | Langzeitarchivierung und interne Verwaltung | Archivgerechte Formate, Checksummen, Provenienzdaten, technische Metadaten |
| DIP (Dissemination Information Package) | Bereitstellung für Nutzer:innen | Interviews in nutzbarem Format, ggf. anonymisiert oder mit eingeschränktem Zugriff |
Warum unterscheiden sich SIP und AIP?
Das Archiv kann die übergebenen Daten technisch anpassen, z. B. durch Formatkonvertierung oder Ergänzung von Metadaten zur Erhaltung. Das AIP ist somit eine optimierte Version für die Langzeitarchivierung.
Was ist am AIP anders, so dass es im Archiv verwendet werden kann?
Das AIP dient der internen Verwaltung und Qualitätssicherung. Es enthält Informationen, die für die dauerhafte Erhaltung wichtig sind, aber nicht direkt an Nutzer:innen ausgegeben werden.
Wie hilft das OAIS-Modell dabei, für Transparenz für Forschende im Archivierungsprozess zu sorgen?
Das OAIS-Modell strukturiert den Archivierungsprozess. Forschende erkennen, ob sie gerade Daten übergeben (SIP), ob diese archiviert werden (AIP) oder ob sie Daten abrufen (DIP). Das schafft Transparenz und klare Rollenverteilung.
OAIS als Grundlage für Zertifizierungen
Das OAIS-Modell ist nicht nur ein technisches Framework, sondern auch eine Referenz für die Zertifizierung von Archiven und Repositorien. Bei der Zertifizierung von Archiven, zum Beispiel gemäß DIN 31644 mit dem nestor Zertifikat oder nach CoreTrustSeal, können die Dokumente sich auf das OAIS-Modell beziehen und dienen so als Bewertungsgrundlage für vertrauenswürdige digitale Langzeitarchive.
Anwendung im Forschungsdatenmanagement
In der Praxis hilft OAIS dabei, klare Rollen und Schnittstellen zu definieren. Forschende wissen, an welcher Stelle im Archivierungsprozess sie sich befinden, und können ihre Daten systematisch übergeben, speichern und weitergeben.
Besonders in der NFDI – etwa im Konsortium Text+ – wird OAIS eingesetzt, um eine konsistente und zuverlässige Aufbewahrung von Forschungsdaten zu gewährleisten.
Ziel der Serie
Die Beiträge sollen aufzeigen, dass Standards nicht nur technische Vorgaben sind, sondern strategische Werkzeuge für gute wissenschaftliche Praxis. Die Serie richtet sich an Forschende, Infrastrukturbetreibende und alle, die sich für nachhaltiges Forschungsdatenmanagement interessieren.
Alle Themen
- Warum Standards im Forschungsdatenmanagement unverzichtbar sind
- Das OAIS-Modell für digitale Archivierung
- Persistente Identifikatoren (PIDs)
- Metadatenstandards für Sprachressourcen
- Standards für die Annotation textueller Daten
- Wie Standards die Zusammenarbeit in der Forschung verbessern
Weiterführende Literatur
Für eine Vertiefung und ausführlichere Angaben zu weiterführender Literatur mit den Themen dieser Blogserie empfehle ich folgende Buchkapitel, die soeben im Open Access erschienen sind:
- Trippel, Thorsten. 2025. Metadata for research data. In Piotr Bański, Ulrich Heid & Laura Herzberg (Hrsg.), Harmonising language data: Standards for linguistic resources. de Gruyter. DOI: 10.1515/9783112208212-011
- Pisetta, Ines & Thorsten Trippel. 2025. Standards and practices for long-term digital archiving. In Piotr Bański, Ulrich Heid & Laura Herzberg (Hrsg.), Harmonising language data: Standards for linguistic resources. de Gruyter. DOI: 10.1515/9783112208212-009

#08: Niedersächsische Staats- und Universitätsbibliothek Göttingen

Bildquelle: Martin Liebetruth, SUB Göttingen
Die Niedersächsische Staats- und Universitätsbibliothek (SUB) in Göttingen zählt mit ihrem umfangreichen Bestand von rund zehn Millionen Medieneinheiten (Stand: 2024) zu den größten Bibliotheken Deutschlands und deckt auf vielen Ebenen ein umfangreiches Aufgabenspektrum ab. Vor allem die Abteilungen Forschung und Entwicklung (FE) sowie Elektronisches Publizieren (EPU) engagieren sich seit Mitte der 2000er aktiv im Ausbau national und weltweit nutzbarer Forschungsinfrastrukturen.
Einige ausgewählte Forschungsinfrastrukturbeteiligungen der SUB
Die disziplinär weit gefächerte Grid-Initiative, auf die – im Namen erkennbar – TextGrid seinen Ursprung zurückführt, ist wohl die am längsten in Göttingen betriebene geisteswissenschaftliche Forschungsinfrastruktur. Mit dem TextGrid Repository als Forschungsdatenrepository für XML-TEI-basierte Daten aus geisteswissenschaftlichen Kontexten betreibt die SUB Göttingen seit nunmehr 20 Jahren einen breit genutzten und immer wieder weiterentwickelten Dienst. Zuletzt wurde mit dem Fluffy Publication Workflow der Datenimport für Forschende technologisch aufgefrischt. Durch Modularisierung/Paketisierung wurde die Datenpublikation zukunftssicher gemacht und vor allem anwendungsfreundlicher gestaltet.

Bildquelle: Stefan Buddenbohm, SUB Göttingen
In der „Ahnenreihe“ unbedingt zu nennen ist auch DARIAH-DE. Das Akronym DARIAH steht für ‘Digital Research Infrastructure for the Arts and Humanities’ und ist heute, nach über 15 Jahren Entwicklung, eine weit aufgespannte europäische Infrastrukturcommunity mit über 20 Partnerländern. Die SUB Göttingen prägte mit DARIAH-DE den Nukleus des Ganzen und trägt bis heute als aktiver Partner in der Community zu diesem Erfolg bei. Die in DARIAH-DE praktizierte interdisziplinäre Zusammenarbeit hat nicht zuletzt den Grundstein für die Bildung des European Research Infrastructure Consortium (DARIAH ERIC) bzw. für auch DARIAH-EU als Dachorganisation des ERIC, gelegt. Zuletzt war die SUB Göttingen Gastgeberin des DARIAH Annual Event 2025 mit 300 Forschenden aus den europäischen Partnerländern.

Bildquelle: Martin Liebetruth, SUB Göttingen
Mit dem Verein für geistes- und kulturwissenschaftliche Forschungsinfrastrukturen e.V. (GKFI) besteht heute ein nationaler, institutioneller Rahmen, in dem die Dienste und Angebote von DARIAH-DE nicht nur für den DARIAH ERIC verfügbar gemacht werden, sondern vor allem der Community der geistes- und kulturwissenschaftlich Forschenden. Im GKFI sind auch Partner organisiert, die mit CLARIN eine sprachwissenschaftliche Forschungsinfrastruktur aufbauten und die nun schon seit einigen Jahren mit DARIAH eng zusammenarbeitet. Das Kooperationsprojekt dafür hieß CLARIAH-DE.
Zahlreiche Editionsprojekte sowie der Service Digitale Editionen haben ihre Heimat an der SUB. Rund um Editionen ist in Göttingen ein kleines Ökosystem aus Forschungsvorhaben und publizierten digitalen Editionen entstanden.
Einige weitere europäische Förderkontexte sind das FP7-Programm (u.a. OAPEN), Horizon2020 (DESIR, Humanities at Scale) bis hin zur European Open Science Cloud (EOSC) (SSHOC). So ist aus einem EOSC-Projekt im Social Sciences and Humanities Cluster der SSH Open Marketplace, kurz SSHOMP, hervorgegangen – eine Communityplattform für Ressourcen rund um geistes- und sozialwissenschaftliches Forschen und Lehren mit mittlerweile über 6000 Einträgen zu Diensten, Werkzeugen, Software, Training Materials und Workflows.
Eine nahezu vollständige Übersicht aller Projekte, an denen die SUB sich beteiligt hat, befindet sich auf der SUB-Webseite. Ein erheblicher Anteil wurde in der Abteilung Forschung und Entwicklung, kurz FE, vorangetrieben. FE vertritt die SUB in Text+ und koordiniert ihre Aktivitäten.
Die SUB bzw. der Standort Göttingen in der NFDI
Eine wichtige Rolle für den Forschungsstandort Göttingen spielt aktuell die Nationale Forschungsdateninfrastruktur (NFDI). Göttinger Forschungseinrichtungen sind an 18 von 26 Konsortien sowie dem Basisdiensteverbund Base4NFDI beteiligt. Die Vision der NFDI ist es, Daten als gemeinsames Gut für exzellente Forschung zugänglich zu machen. Die SUB koordiniert am Campus die Vernetzung der ganz unterschiedlichen wissenschaftlichen Einrichtungen auf dem Campus innerhalb dieser disziplinär breit auffächernden Konsortien und treibt die Vision des Göttinger NFDI-Standortes voran.
| NFDI-Konsortium | Beteiligte Einrichtungen am Campus |
|---|---|
| Base4NFDI | Universität/SUB |
| DAPHNE4NFDI | Universität |
| FAIRagro | Universität/VZG |
| FAIRmat | Universität |
| KonsortSWD | SOFI |
| NFDI4Biodiversity | GWDG, Universität/SUB |
| NFDI4BIOIMAGE | HAWK, Universität |
| NFDI4Chem | Universität |
| NFDI4Culture | Universität/SUB |
| NFDI4Earth | Universität/SUB |
| NFDI4Energy | SOFI |
| NFDI4Health | Universität/Universitätsmedizin |
| NFDI4Ing | GWDG |
| NFDI4Memory | Akademie, Universität/SUB, VZG |
| NFDI4Microbiota | Universität |
| NFDI4Objects | Universität, VZG |
| NFDIxCS | GWDG |
| PUNCH4NFDI | Universität |
| Text+ | Akademie, GWDG, Universität/SUB |
Bei acht Konsortien tragen Göttinger Einrichtungen in (co-)antragsstellender Rolle zum Erfolg der NFDI bei.
Die SUB in Text+
Text+ reiht sich in der SUB in eine lange Reihe von Forschungsinfrastrukturprojekten für geisteswissenschaftliche Zielgruppen ein. Eingangs wurden bereits DARIAH-DE und SSHOC genannt, darüber hinaus gibt es zahlreiche weitere Vorhaben, die eine stabile Basis an Expertise und Angeboten formen, die Text+ nutzen kann.
Eine besondere Rolle für die Göttinger Arbeit in Text+ spielt die Partnerschaft zwischen SUB und GWDG. Die Kombination aus Informationsinfrastruktureinrichtung und Rechenzentrum ermöglicht es, sich in einer sonst kaum möglichen Breite und Tiefe in Text+ einzubringen. Konkret können das bspw. Ressourcen des Rechenzentrums sein, für die die SUB als “Broker” im Projektkontext fungiert. So nutzt Text+ bspw. die technische Basis des universitätsweiten Helpdesk-/Ticketingsystems GOTRS, NextCloud, AcademicID, GitLab oder auch KI-Ressourcen, die die GWDG als nationales Hochleistungsrechenzentrum bereitstellt, aber in der Spezifität nicht für Text+ anbieten könnte ohne die Zusammenarbeit mit der SUB.
Im NFDI-Konsortium Text+ fungiert die SUB als Daten- und Kompetenzzentrum und bringt ihre jahrzehntelange Erfahrung in die Bereitstellung von geistes- und kulturwissenschaftlichen Forschungsdaten ein. Sie ist Teil der Datendomänen Collections und Editionen, übernimmt aber vor allem die Führungsrolle in der Task Area Infrastruktur/Betrieb. In der zweiten Förderphase von Text+ wird die SUB die Rolle der Applicant Institution übernehmen und das Projekt koordinieren.
Praktische Arbeit als Infrastruktur-Leader
Als leitender Partner im Bereich Infrastruktur/Betrieb von Text+ ist die SUB federführend für die Bereitstellung einer FAIR-konformen Plattform für generische und fachspezifische Dienste verantwortlich, dem Text+ Portal. Dies schließt die wichtige Aufgabe ein, die existierenden und in Entwicklung befindlichen Daten- und Diensteportfolios der verschiedenen Datendomänen miteinander zu verknüpfen. Ziel ist es, die Auffindbarkeit, Zugänglichkeit, Interoperabilität und Nachnutzbarkeit von text- und sprachbasierten Forschungsdaten sicherzustellen. Ein visueller Ausdruck dieser Arbeit – natürlich nicht SUB-exklusiv – ist mit der Text+ Architektur vorhanden, die einen Kohärenzanspruch der Infrastruktur an die breite Angebotspalette vertritt. Text+ als förderierte und ortsverteilte Forschungsdateninfrastruktur mit über 40 aktiven Partnereinrichtungen zu entwickeln, stellt für die Infrastruktureinrichtungen im Konsortium eine nicht immer leichte Herausforderung dar.
Zusammen mit der GWDG, dem Rechenzentrum der Universität Göttingen und der Max-Planck-Gesellschaft, ist die SUB für die Bereitstellung der Arbeitsumgebung des Konsortiums verantwortlich. Viele der im Projekt genutzten Dienste sind Angebote des Göttingen Campus, die entweder direkt genutzt werden können, wie bspw. die Chatumgebung Matrix, oder die in einer speziell für Text+ gebrandeten Version, wie bspw. die Text+ NextCloud, erscheinen. Ein für die Nutzerinnen und Nutzer komfortable User Experience wird durch die Anbindung dieser Dienste an die AcademicID erzielt, dem SSO-Service, den die GWDG bereitstellt.
Über diese Projektkollaborationswerkzeuge hinaus ist das Text+ Portal, welches in HUGO realisiert wird, abhängig vom Göttinger Beitrag in Text+. Die von der GWDG bereitgestellte GitLab-Instanz wird nicht nur für das Portal genutzt, sondern dient als Entwicklungsumgebung für viele andere Arbeiten und Angebote in Text+.
Die Rolle der SUB als Enabler, Provider und Broker wichtiger Infrastrukturkomponenten und Dienste geht über die bloße Bereitstellung (u.a. Kosten für Energie, Computing, Storage und Lizenzen) mit erheblichem Committment hinsichtlich Schulung und Support einher. Diese Aufwände, also eine reibungslos funktionierende und hochverfügbare Infrastruktur sowie die zeitnahe und effiziente Bereitstellung von Support und Wissenstransfer, sind die “ermöglichenden Beiträge”, die in der Regel nicht in der Auslage eines Projektes zu besichtigen sind (sprich Publikationen oder Branding von Ressourcen), sondern deren Vorhandensein meistens erst dann auffällt, wenn etwas einmal nicht funktioniert.
Repositorien und Datenmanagement
In Kooperation mit der eResearch Alliance sowie der GWDG übernimmt die SUB Göttingen eine zentrale Funktion bei der Bereitstellung und Verwaltung von Forschungsdaten. Dadurch wird Text+ der Zugang zu text- und sprachbasierten Forschungsdaten der drei folgenden Repositorien ermöglicht:
- TextGrid Repository (TG-rep): Ein digitales Langzeitarchiv zur Erhaltung forschungsrelevanter textueller Daten, inklusive der Digitalen Bibliothek mit Werken vom Beginn des Buchdrucks bis zum frühen 20. Jahrhundert.
- DARIAH-DE Repository (DH-rep): Ein digitales Repositorium mit dem Schwerpunkt auf Forschungsdaten aus den Geistes- und Kulturwissenschaften.
- GRO.data: Das universelle, disziplinunabhängige Datenrepositorium für Veröffentlichungen vom Göttingen Campus.
Zusätzlich komplettiert die SUB ihr Portfolio durch eine umfassende Forschungsdatenmanagement (FDM)-Beratung sowie einen Data Depositing-Dienst für generische Forschungsdaten.
Highlights der bereitgestellten Dienste
Über die Repositorien hinaus stellt die SUB der Text+ Community zahlreiche nützliche Werkzeuge zur Verfügung, unter anderem:
- Research Data Management Organizer (RDMO): Ein Tool zur dynamischen Erstellung und Verwaltung von Datenmanagementplänen.
- European Literary Text Collection (ELTeC): Eine ausgewählte Sammlung literarischer Korpora in 15 europäischen Sprachen, bereitgestellt im TextGrid Repository.
- Modes of Narration and Attribution Pipeline (MONAPipe): Werkzeuge zur Verarbeitung natürlicher Sprache für Deutsch, implementiert in Python/spaCy.
Die Arbeit der SUB sorgt so dafür, dass Text+ nicht nur Daten sammelt, sondern diese auch nachhaltig und technisch fundiert archiviert und nutzbar macht.
Die SUB in Text+ auf einen Blick
| Kriterium | Details |
|---|---|
| Institution | Niedersächsische Staats- und Universitätsbibliothek Göttingen (SUB) |
| Rolle in Text+ | Daten-/Kompetenzzentrum, Leitung der Task Area Infrastruktur/Betrieb |
| Datendomänen | Beteiligt in den Task Areas Infrastruktur/Betrieb, Editionen, Collections |
| Schwerpunkte | Infrastrukturkohärenz, Portfoliomanagement, Bereitstellung der Projektwerkzeuge, Archivierung, Langzeitverfügbarkeit, FDM-Beratung, Betrieb zentraler Repositorien |
| Repositorien | TextGrid Repository (TG-rep), DARIAH-DE Repository (DH-rep), GRO.data |
| Wichtige Dienste | GitLab, GOTRS, NextCloud, AcademicCloud, HedgeDoc Pads, RDMO, ELTeC, MONAPipe |
| Support | Kontaktpunkte für TextGrid Repository, DARIAH-DE Repository und GRO.data oder der Text+ Helpdesk |
| Personal | 13 Kolleg:innen aus unterschiedlichen Abteilungen, Förderung: 300 Personenmonate/5 Jahre, erhebliche Eigenmittel |
On November 7th, 2025, we kicked off the first event in a mini-series about the Digital Services Act (DSA) within the NFDI lecture and discussion series Show & Tell – Social‑Media Data in Research Practice. And what an informative first session that was! Jakob Ohme, Senior Researcher and Research Group Lead at the Weizenbaum Institute, talked to the nearly 50 participants about the history and state of researcher access to digital platform data, EU regulations, how the Digital Services Act (DSA) changes the landscape, and what issues and challenges will affect platform research in the future. Since Jakob and his colleagues from the DSA 40 Collaboratory were among the pioneers to engage with the chances and challenges that the DSA holds for researcher data access, his presentation was both remarkably broad in scope and profound in depth.

The idea behind the mini-series is to discuss the new situation that researchers find themselves in with the DSA, as it gives researchers the legal right to platform data, acknowledging the special status online platform data have for democracy and society.
How we got here
To highlight the paradigmatic shift that the DSA brings, Jakob referenced Mimizuka et al. (2025) who divide access to platform data into four distinct phases: the Pre-API age at the emergence of social media platforms, when structured data access was not yet on the minds of researchers of platforms; the Voluntary-API era, heralded in by Twitter’s first Application Programming Interface (API) in 2009, which many now see as the “golden age” of platform data access; the Post-API age (Freelon 2018), that saw the closure of most APIs and data access becoming more tighly guarded around 2020; and now what Mimizuka et al. (2025) call the Post-Post-API age. This new era of data access is the direct and indirect consequence of the DSA, which not only grants researchers access to data under defined circumstances, but is also likely the reason why platforms like TikTok, Facebook, Instagram, Reddit and X have created new access points to their data for researchers since 2023 – as flawed as it might be in many cases.
How we get social media data these days
An interesting development is also that due to the lack of data access in the Post-API age, researchers have spent some efforts on developing new data collection strategies, which we can still employ today. As described in more detail by Ohme et al. (2024), authorized API data access can now be replaced or complemented by data donations and web tracking – or unauthorized access through web scraping, but that is a different story. For those unaware, data donation studies became feasible because another EU law, the General Data Protection Regulation (GDPR), requires platforms to make the data they hold about users accessible to said users. Researchers had the idea to simply ask the users to request this data from online platforms – and then donate this data for research. Web tracking similarly follows a user-centric approach by logging which websites or platforms consenting participants visited so that researchers can then analyze the captured browsing histories.
The two new kids on the block: DSA Art 40(12) and Art 40(4)

This trinity of authorized data access (APIs, data donations and tracking) is now extended by access requests for public data through DSA Art 40(12) and since October 2025 also by requests based on DSA Art 40(4) which enables access to non-public data on content, users and functioning of platforms (e.g., content moderation governance and exposure numbers). Jakob said that instead of just regulating platforms to, for example, counteract the harm social media can cause, lawmakers decided that we first need to know and understand how the platforms behave and how they cause harm or could be used to society’s advantage. Research on these topics should then be used to implement regulations that actually benefit us all.
In more general terms, the DSA rests on two pillars (also see Husovec 2023): the DSA describes more immediate mechanisms for content moderation, which set out the obligations of companies that provide digital services (e.g., legal contact points, measures against abuse, appeal systems and transparency measures for terms, moderation and advertisement); and the second pillar, risk management, which comprises rules to protect minors and consumers through product design, but also providing more transparency on how people use Very large online platforms (VLOPs) and Very large online search engines (VLOSEs) – jointly referred to as VLOPSEs. The idea behind the additional transparency requirements is that platforms that are used by such vast numbers of citizens, the definition speaks of more than 45 million average active monthly users, can facilitate threats for entire democracies, including the European Union itself – for example through mass-size misinformation campaigns spreading unmitigated through VLOPSEs. Researchers are assigned the role of identifying and monitoring these risks, which is where the enhanced data access for researchers through the DSA comes into play.
Specifically, DSA Art 40(4) and 40(12) provide that vetted researchers (the vetted part applies only to 40(4)) should get access to data of VLOPSEs for the “sole purpose” (again 40(12) is less specific by dropping the “sole” part) “of conducting research that contributes to the detection, identification and understanding of systemic risks in the Union […] and to the assessment of the adequacy, efficiency and impacts of the risk mitigation measures”. In other words, the DSA is a route to access data from VLOPSEs for those researchers who are first vetted (in case of 40(4)) and want to conduct research on systemic risks and/or mitigation measures for them (Art 34(1) defines such risks in more detail). A continuously updated list of designated VLOPSEs is kept by the European Commission and contains social media platforms and search engine providers such as Google, but also e-commerce platforms like Amazon and even pornography websites. Currently, the only VLOP based in Germany is the e-commerce platform Zalando. Researchers can apply for data access under Article 40(4) either via the DSC in their country of residence (the DSC of the Member state) or via the DSC in the country where the platform is based (the DSC of establishment). As Ireland hosts many of the most well-known VLOPSEs, the Irish Media Commission, Coimisiún na Meán, will probably handle most of these requests. The DSCs assess the application and decide whether it constitutes a “reasoned request”, in which case the platforms have to provide the requested data unless they would reveal trade secrets.
The requirements for eligibility for public data are less strict and apply to most researchers at universities and other public institutions within and outside of the EU – which makes sense – although the technical requirements for data security and confidentiality might be somewhat challenging, and the requirement of conducting research on systemic risks in the EU still applies. Article 40(12) requests are handled directly by the platforms. And given the rocky track record of platforms in the past, Jakob expects that this might lead to an absurd situation where non-public data might be accessible more easily, as the vetting process is conducted by a regulator as intermediary between researchers and platforms, rather than the platforms themselves. But only time will tell – and the data on successful and unsuccessful access attempts that Jakob and his colleagues at the DSA 40 Data Access Collaboratory collect via their access track at soscisurvey.de/DSA40applications. If you want to apply for access, the DSA 40 Data Access Collaboratory also provides a helpful collection of links on its website. If you are considering submitting an access request under Article 40(4), it is necessary to think strategically, not least since a successful request obliges researchers to actually carry out and publish the requested research. Besides the DSA 40 Collaboratory, the Center for User Rights has also started to prepare some help, for example an online tool to guide requesters.
In sum, the access to online data through DSA 40 marks the beginning of a new era of the study of online data. Whether it will be a successful time depends on policymakers, platforms, and researchers. Jakob and his colleagues at the Weizenbaum Institute and the DSA 40 Data Access Collaboratory want to do their best in adding to this success. Some of their current thinking, and a much more detailed picture of the current situation and future avenues can be found on their website and current publications, like the recently published Weizenbaum Policy Paper (Seiling et al. 2025).
Takeaways from the Q&A
The Q&A session raised several practical concerns that researchers will face when working with DSA data access. One recurring theme was the challenge of data replication and archiving. As Jakob explained, highly personal and identifiable data obtained through Article 40(4) cannot be fully shared for replication purposes, similar to existing issues with data donations. The solution, for now until the law is hopefully adapted, lies in better documentation practices – researchers should meticulously document their data requests so others can request the same data from Digital Service Coordinators (DSCs) for replication or follow-up studies. While editors are becoming more alert to these constraints, aggregated data can be shared, even if raw data cannot. In the future, we hope that policies change to allow data archival and secondary research on already requested datasets.
Another critical issue discussed was data access modalities for Article 40(4) requests. Unfortunately, the Delegated Act remains rather vague on technical implementation. The DSCs have the authority to mandate access modalities, which could range from secure processing environments (clean rooms) to direct data transfers. One approach could be that researchers should be as specific as possible in their applications, and where possible should make use of ISO 27001-certified secure processing environments available at their institutions. This specificity might make it harder for platforms to insist on using only their own secure rooms, though it may trigger amendment processes. The Center for User Rights’ tool can help researchers navigate the technical and organizational requirements for their applications.
When asked which access route – Article 40(12) or 40(4) – might prove more impactful, Jakob painted an ideal scenario: Article 40(12) access to public data should become the standard practice for platform research, used constantly and improving over time. Many research questions can be answered with public data alone. Article 40(4) requests for non-public data, by contrast, should be reserved for large, well-funded, carefully designed projects addressing systemic risks – not for “nitty-gritty” individual research projects. Keeping 40(4) requests to a manageable volume increases the likelihood of platform compliance and DSC responsiveness.
The funding conundrum emerged as a significant practical barrier. Jakob described it as a “catch-22 situation”: researchers need funding to conduct meaningful 40(4) research, but funders are hesitant to approve projects without guaranteed data access. Meanwhile, researchers shouldn’t apply for data access without secured funding to actually use the data. The ideal solution would be parallel processes where researchers apply for funding and data access simultaneously, with one conditioning the other. While the European Research Council (ERC) may be more understanding of this scenario, other funders like the DFG are not yet prepared for this uncertainty. This creates particular challenges for PhD students working within fixed timelines.
Finally, an interesting alternative approach was raised: instead of relying on APIs with their inherent rate limits and control mechanisms, why not whitelist IP addresses of vetted institutions and allow direct scraping? Jakob noted that some 40(12) access requests have already been used to obtain platform permission for scraping, which can be more efficient than APIs for certain research projects (as evidenced by TikTok research). The DSA doesn’t automatically legalize scraping, but it does provide a formal point of contact with platforms – a significant improvement over sending requests to generic email addresses that may never receive responses.
Next Session
The next talk of the mini-series on the DSA (organized by Katrin Weller, Yannik Peters, and Johannes B. Gruber from GESIS) will be on Friday Jan 16, 2026, 2:00pm CET: Julian Jaursch from the German DSC (Bundesnetzagentur / Federal Network Agency) will cover more details on DSA data access application processes. Sign up here: https://events.gwdg.de/event/1259/
Thank you
Finally, we want to thank Philippe Genêt (DNB@Text+) and the Working Group on Social Media Data in the NFDI for giving us a venue for the mini-series on the DSA. And we especially thank Jakob Ohme for providing us with such a great introductory session!
References
Freelon, Deen. 2018. “Computational Research in the Post-API Age.” Political Communication 35 (4): 665–68. https://doi.org/10.1080/10584609.2018.1477506.
Husovec, Martin. 2023. “Rising Above Liability: The Digital Services Act as a Blueprint for the Second Generation of Global Internet Rules.” SSRN Electronic Journal. https://doi.org/10.2139/ssrn.4598426.
Mimizuka, Kayo, Megan A Brown, Kai-Cheng Yang, and Josephine Lukito. 2025. “Post-Post-API Age: Studying Digital Platforms in Scant Data Access Times.” arXiv. https://doi.org/10.48550/ARXIV.2505.09877.
Ohme, Jakob, Theo Araujo, Laura Boeschoten, Deen Freelon, Nilam Ram, Byron B. Reeves, and Thomas N. Robinson. 2024. “Digital Trace Data Collection for Social Media Effects Research: APIs, Data Donation, and (Screen) Tracking.” Communication Methods and Measures 18 (2): 124–41. https://doi.org/10.1080/19312458.2023.2181319.
Gruber, Johannes B., Yannik Peters, Katrin Weller. 2025. “Jakob Ohme’s Social-Media-Data Show & Tell: Brave New Data Access World. What the Digital Services Act (DSA) Means for Researcher Access to Digital Platforms”. https://textplus.hypotheses.org/?p=15885
]]>
