Was passiert, wenn Digital History auf Human-Centered AI trifft? Historiker*innen und KI-Forschende haben im Rahmen eines Austauschtreffens über die Chancen und Grenzen digitaler Methoden, Mensch-Maschine-Interaktion und algorithmische Entscheidungen diskutiert. Die Gespräche eröffneten unerwartete Perspektiven und erörterten Fragen, die das Verhältnis von Mensch und Maschine für die Beteiligten in ein neues Licht rückten.
Dieser Blogpost ist die stark gekürzte Fassung eines Essays, der zuletzt als CeUS Working Paper beim Center for Uncertainty Studies (CeUS) der Universität Bielefeld veröffentlicht worden ist.1 Alle Referenzen zu den im vorliegenden Text aufgeführten Informationen sind im Working Paper aufgeführt.
Technologischer Wandel führt zu Reaktionen der Selbstvergewisserung
Was bedeutet es, dass ChatGPT und Co. inzwischen Teil akademischer Forschungspraxis geworden sind und oft sogar für das Schreiben von Fachtexten eingebunden werden? Etwas Grundlegendes hat sich verschoben, denn zwischen Tastatur und Gehirn gibt es plötzlich eine weitere Instanz, die zwar von Menschen instruiert wird, aber dennoch mit einer relativen ‚Eigenständigkeit‘ Sätze vorschlägt, Argumente glättet, Ideen anbietet oder Analyseergebnisse liefert. Diese Entwicklung – egal wie man zu ihr steht – zwingt uns, über unser tradiertes und zukünftiges Verständnis von Autor:innenschaft, Kreativität und Innovationsverantwortlichkeit in der wissenschaflichen Praxis nachzudenken. Wo genau endet Unterstützung durch Technologie und wo beginnt Delegation an die Technologie? Große Sprachmodelle (LLMs), die auch den bekannten KI-Chatbots zugrunde liegen, können selbstverständlich nicht als verantwortlich gelten für generierte Inhalte; aber welche genauen Rollen wir ihnen und uns in Zukunft anvertrauen wollen, ist Gegenstand einer lebendigen Diskussion geworden.
Dies sind keine rein technologischen Fragen. Mehr noch berühren sie unser Selbstverständnis als Forschende. Wie jede technologische Zäsur löst auch das Aufkommen digitaler Methoden – aktuell vor allem LLMs – Reaktionen der Selbstvergewisserung aus. Neu ist jedoch die Geschwindigkeit, mit der KI-Werkzeuge inzwischen in alle möglichen Bereiche wissenschaftlicher Arbeit hineinwirken. Für die Geisteswissenschaften ist dies besonders herausfordernd, weil hier die hermeneutische Konstitution von Bedeutung im Mittelpunkt der Erkenntnisgenese steht – dafür gibt es methodische Qualitätsstandards, aber letztendlich entspringt geisteswissenschaftliches Wissen kontingenten Interpretationen. Welche Rolle kann KI hierbei spielen?
Es geht nicht um Technologie, sondern um Aneignungsstrategien
Wie bei jeder gewissenhaften Methodenkritik sollte es auch in Bezug auf KI-Tools nicht primär darum gehen, was die Technologie per se kann, sondern wofür sie dienen soll – auch wenn dafür eine fundierte Auseinandersetzung mit Funktionsweisen, Potenzialen und Risiken der Technologie essenziell ist. Schaut man auf den gegenwärtigen Diskurs, so scheint es zwei Pole eines Spektrums an möglichen Einsatzweisen für KI zu geben: Automatisierung und Ausweitung.
Unter ‚Automatisierung‘ kann die Delegation von Aufgaben zusammengefasst werden. Hier geht es um die maschinelle Ersetzung menschlicher Arbeit. Unter ‚Ausweitung‘ dagegen ist die gezielte Stärkung menschlicher Fähigkeiten gemeint: Technologie als Werkzeug, das unsere Fähigkeiten anreichert, Erkenntnisse zu produzieren und zu kommunizieren. Gerade in den Geisteswissenschaften scheint mir die zweite Perspektive die produktivere zu sein. Denn nur hier wird wissenschaftliche Expertise, Kontextwissen und die eigentliche Innovationsleistung, Zusammenhänge zu deuten, mit maschineller Datenverarbeitung, Mustererkennung, und strukturellen Analyse komplementär zusammengebracht. Digitale Werkzeuge können uns helfen, die Erzeugung neuen Wissens transparenter und reflektierter zu gestalten, aber sie nehmen uns nicht die dabei zentralen Entscheidungen im Forschungsprozess ab. Erst recht können sie nicht geisteswissenschaftliche Sinnerzeugung übernehmen.
Die Digital Humanities beschäftigen sich seit Jahrzehnten mit dieser Spannung, auch Abseits von KI. Verfahren des Text Mining, Geographical Information Systems (GIS) oder Netzwerkanalysen haben neue Wege eröffnet, große Textmengen auf semantische Muster hin zu untersuchen. Doch die Resultate solcher auf statistischen Analysen beruhenden und Muster visualisierenden Verfahren sind nie ‚objektiv‘, sondern interpretationsbedürftig. In diesem Sinn sind digitale Methoden keine Bedrohung für hermeneutische Ansätze. Sie verschieben vielmehr die Aufmerksamkeit von der reinen Textlektüre hin zur dynamischen Wechselwirkung zwischen detailliertem Interpretieren bestimmter Texte und dem Überblick über große Datenstrukturen. Franco Moretti prägte dafür die Begriffe close reading und distant reading – eine Unterscheidung, die längst in Konzepten wie blended oder scalable reading zusammengebracht worden sind und sich auch auf andere Datentypen als Textdaten bezieht. In der Praxis bedeutet das: Forschende „zoomen“ zwischen unterschiedlichen Ebenen der Analyse hin und her, was nicht nur neue Muster sichtbar macht, sondern auch die eigene Perspektive für die Interpretation schärft. Hier geht es um die konstruktive Aneignung technologischer Potenziale, nicht um eine Essenzialisierung von Technologie.
Epistemische Aufgaben zu verfolgen ist charakteristisch auch für die Geschichte einer weiteren digitalen Technologie: Hypertext. Hiermit wird allgemein die Erweiterung traditioneller Textformate durch flexibel verknüpfte Informationseinheiten bezeichnet, was früh mit der Ausweitung menschlicher Fähigkeiten in Verbindung gebracht wurde. Im Folgenden geht es mir allerdings weniger um einen technologischen Vergleich zwischen KI und Hypertext oder um eine Kontinuitätsgeschichte. Vielmehr eignet sich die Konzeptgeschichte von Hypertext als Vergleichsgröße, um noch genauer über die Einsatzmöglichkeiten von KI im Sinne einer Ausweitung menschlicher Fähigkeiten zu reflektieren.
Ausweitung durch digitale Technologie: Das Beispiel Hypertext
1945 beschrieb der US-amerikanische Ingenieur Vannevar Bush in seinem berühmten Essay As We May Think das Konzept des Memex (kurz für „memory extender“). Dabei handelt es sich um eine Art prä-digitale Wissensbank, mit der auf Mikrofilm gespeicherte massenhafte Informationen flexibel durchstöbert, individuell per Assoziation verknüpft und die dadurch entstehenden Navigationspfade geteilt werden sollten. Diese Idee entwickelte Buch in scharfer Abgrenzung zum gedruckten Text als bisherigem Leitmedium für die Speicherung und Kommunikation von Wissen: Bücher und andere Drucktextformate würden einzelne Informationen zwar in gewissem Rahmen mehreren Kontexten zuordnen können – in Form von Fußnoten, Indizes, etc. Aber letztlich folge die gedruckte Informationsorganisation immer einer starren Hierarchisierung, da sie materiell fest auf Papierseiten eingeschrieben ist. Memex sollte diese Einschränkungen durch Flexibilisierung überwinden, wurde aber nie gebaut. Der Entwurf stellt jedoch den Beginn einer Konzeptgeschichte dar, die auf die Ausweitung menschlicher Geistesleistungen – Bei Bush: unserer Gedächtnisfähigkeiten – abzielt.
Darauf aufbauend entwickelte Douglas Engelbart in den 1960er Jahren das oN-Line System (NLS). Hierbei handelt es sich um das erste technisch in die Tat umgesetzte Hypetertextsystem: Ein Computerarbeitsplatz visualisierte komplexe Probleme mit ihren wesentlichen Elementen ähnlich einer Concept Map auf Bildschirmen. Alle Elemente konnten dabei interaktiv bearbeitet werden. Dieses analytische Tool sollte es ermöglichen, Problemlösungsstrategien zu entwickeln, wie es allen im Kopf nicht leistbar wäre. In diesem Sinn war das NLS als Ausweitung des menschlichen Intellekts gedacht.
Theodor Nelson, ein weiterer zentraler Hypertextpionier, erfand fast zeitgleich den den Begriff ‚Hypertext’. Damit ist bis heute allgemein die nicht-lineare Verlinkung einzelner Informationen gemeint, die Benutzer:innen Wahlmöglichkeiten zur weitreichend autonomen Navigation entlang dieser Verknüpfungen überlässt. Für Nelson ist Hypertext eine Ausweitung menschlichen Denkens und Darstellens durch Verknüpfungen, denn für ihn wird auf diese Weise ein wesentliches Missverhältnis beseitigt: Komplexe Gedanken müssten klassischerweise in eine (eher) lineare Schriftform gebracht werden, ehe Leser:innen sie bei der Lektüre wieder delinearisieren müssten. In diesem Prozess fielen aber wesentliche Querbezüge und Kontextinformationen dem Linearisierungsprozess zum Opfer. Stattdessen solle Wissen direkt non-linear aufgezeichnet und zugänglich gemacht werden – eine Idee, die heute im WWW, Semantic Web, in Datenbanksystemen oder digitalen Notizsystemen (‚digitale Zettelkästen‘/‘Second Brains‘) fortlebt.
In dieser Genealogie von Bush über Engelbart bis Nelson lässt sich der Rote Faden einer Ausweitung des Menschen durch Technologie erkennen, die keine Automatisierung oder Ersetzung des Menschen zum Ziel hat. An dieser Konzeptgeschichte anknüpfend können auch KI-gestützte Werkzeuge ähnlich verstanden werden, wobei es natürlich immer auf ihre konkreten Anwendungsgebiete ankommt. Als ein zentrales Anwendungsbeispiel kann das Schreiben wissenschaftlicher Publikationen gelten, für das ich zunächst eine theoretische Einordnung anbieten möchte – um etwas genauer zu skizzieren, in welcher Weise hier von einer ‚Ausweitung‘ gesprochen werden kann. Daran können sodann konkrete praktische Umsetzungsformen ansetzen.
Piktogramm, erstellt mithilfe von DALL-E und manueller Gestaltung.
Selbstreflexion mithilfe von Maschinen: Beobachtung zweiter Ordnung
In diesem Kontext bietet sich ein fundamentaler Begriff der Kybernetik an: Beobachtung zweiter Ordnung. 1974 hatte der Physiker und Kybernetiker Heinz von Foerster damit im Sinn, dass wir nicht nur Phänomene in der Welt beobachten bzw. erforschen, sondern diese Beobachtungsprozesse selbst ebenfalls reflektieren müssten. Nur so würde die Konstitution der Endergebnisse im Forschungsprozess wirklich nachvollziehbar werden. Dieser Gedanke ist insbesondere für alle möglichen Spielarten des Konstruktivismus verfolgt worden –aber auch jenseits davon ist die beobachtende Selbstbeobachtung ein instruktives Mittel, Wissensangebote in ihrer Genese transparent und nachvollziehbar werden zu lassen.
Diese Art der Selbstbeobachtung ist meiner Meinung nach besonders instruktiv für den Einsatz von KI, insbesondere beim Schreiben wissenschaftlicher Texte. Schließlich gilt es hier, nicht nur Sachinhalte wie etwa historische Ereignisse und Prozesse zu beschreiben, sondern auch unsere methodischen Entscheidungen zu reflektieren: Welche Quellen berücksichtige ich? In welche Forschungsrichtung verorte ich mein Projekt? Welche Erklärmuster und Narrative baue ich auf, welche blende ich aus? KI-gestützte Tools können uns bei der Klärung dieser Fragen unterstützen, indem sie uns auf blinde Flecken hinweisen, alternative Lesarten vorschlagen oder die argumentative Struktur eines Textes in einer Tiefe sichtbar machen, die uns trotz Austausch mit Peers und eigener Reflexion nicht immer vollumfänglich bewusst sind. Diese Art der digital gestützten Selbstbeobachtung nimmt uns nicht die Arbeit ab, sondern erweitert produktiv etablierte Formen des Feedbacks und der Transparenzschaffung.
Vier Beispiele aus der Praxis
Wie kann so eine Beobachtung zweiter Ordnung konkret aussehen? Ich nenne hier als (nicht erschöpfende, aber das Potenzial unterstreichende) Beispiele vier Bereiche:
Literaturrecherche und Zitationsarbeit. KI-Suchmaschinen helfen, relevante Literatur zu identifizieren, auch jenseits bekannter Kataloge. Neben diesem heuristischen Potenzial kann ich aber auch überprüfen, ob es in den bisherigen Ergebnissen meines Bibliographierens noch Assymetrien gibt – etwa durch Überrepresentation von Forschung bestimmter Weltregionen oder durch zu starke Einbeziehung spezifischer Denkschulen. Auch die Nichtberücksichtigung von Beiträgen in anderen Sprachen kann überprüft werden. So lassen sich blinde Flecken abbauen und ein diverseres Forschungsfeld erschließen.
Textvergleich und Quellenanalyse LLMs können bis zu einem gewissen Grad inhaltliche und mehr noch strukturelle Unterschiede und Gemeinsamkeiten zwischen Texten erkennen. Dies kann sich auf Forschungsliteratur oder Quellenmaterial beziehen. Wenn ich meine eigenen diesbezüglichen Beobachtungen in einen ‚Dialog‘ mit einem KI-Chatbot eingebe, mögen mir ergänzende Hinweise angeboten werden. Entscheidend sollte dabei sein, dass eine solche KI-gestützte Evaluation nicht einfach fertige Ergebnisse liefert, sondern neue Fragen anregt: Sie macht auf Aspekte aufmerksam, denen ich selbst hermeneutisch nachgehen muss.
Schreib- und Übersetzungshilfen KI-Tools können es erleichtern, Anfänge für Forschungstexte zu finden, was wie andere Formen der Erstellung von Textentwürfen schon viel diskutiert worden ist. Doch darüber hinaus ist die Prüfung meiner eigenen Textentwürfe auf sprachliche Kohärenz, stilistische Varianten oder adäquate Übersetzungen in andere Sprachen ein echter Mehrwert. Auch hier bleibt der Mensch Autor:in, da es allein um Selbstüberprüfung, Anregungen und Inspiration geht, nicht um Delegation.
Reflexion eigener Denkmuster Schließlich kann KI genutzt werden, um Denkmuster zu hinterfragen, die unsere Forschungen und das Verfassen von Publikationen prägen. Indem wir KI-Tools bitten, unsere Argumentation aus unterschiedlichen theoretischen Perspektiven zu lesen – etwa aus Sicht einer feministischen Theorie oder einer postkolonialen Kritik –, entsteht eine Feedbackschleife, die zur intellektuellen Selbstprüfung anregen kann.
All diese Anwendungen teilen eine gemeinsame Idee: Die Maschine dient als Spiegel für uns selbst. Dies ist, was wir in Form von Kolloquien, Gesprächen mit Kolleg:innen und mithilfe des Peer Review schon lange tun – und zweifelsfrei auch wesentlich zielgerichteter, weil durch akademische Expertise untermauert, tun können. KI-Tools stellen mit Sicherheit keinen Ersatz dafür da. Kritisch und konstruktiv eingesetzt können sie allerdings eine nützliche Ergänzung sein, da sie uns bei jedem Schritt unserer Denk- und Schreibprozesse rund um die Uhr zur Verfügung stehen. Diese Perspektive steht im Geist des Human-centered Computing und stärkt die Rolle des Menschen als ‚human/expert in the loop‘, womit allgemein die zentrale lenkende Rolle des Menschen für die gezielte Generierung von KI-Ergebnissen beschrieben wird. Schließlich sollten Instruktionen bzw. Prompts für die KI nicht ‚irgendwie‘ sondern im Sinne eines zielgerichteten Prompt Engineering gestaltet werden.
Evolution statt Revolution
Dass große Sprachmodelle unsere wissenschaftlichen Praktiken verändern, steht außer Frage. Doch obwohl ihnen aus technologischer Sicht ein revolutionäer Charakter zugesprochen werden kann, halte ich für unsere Gebrauchsweisen bzw. Aneigungsstrategien dieser Technolgogie die Evolution für den treffenderen Ausdruck.
Schreiben, Lesen, Vergleichen, Deuten – all das sind forschungskulturell gewachsene Tätigkeiten, die sich durch technologische Entwicklungen auch in den Geisteswissenschaften immer wieder im Detail verändert haben. Das digitale Zeitalter fügt diesen Tätigkeiten neue Ressourcen (Stichwort: massenhaft verfügbare Forschungsdaten) und Werkzeuge hinzu; aber es verändert nicht ihren epistemischen Kern. Die kreative, interpretierende – genuin neue Erkenntnisse schaffende – Arbeit bleibt menschlich. Sie kann nicht künstlich ersetzt werden, zumindest nicht nach aktuellem und absehbarem Stand der Technik.
Eine wichtige Herausforderung liegt vor diesem Hintergrund darin, die neuen Werkzeuge verantwortungsvoll und kritisch in unsere Forschungskulturen einzubetten. Zum kritischen Umgang gehören etwa ein Bewusstsein über Herausforderungen digitaler Quellenkritik, ein Wissen über grundlegende Funktionsweisen der stochastischen Berechnungen, mithilfe derer KI-Tools Inhalte generieren, oder auch die kritische Reflexion von Biases in den LLM-Trainingsdaten. Wenn wir auf diese Weise Aneignungsstrategien für KI-Tools anstreben und sie als Selbstbeobachtungwerkzeuge im Erkenntnisprozess begreifen, können sie einer Ausweitung unseres intellektuellen Horizonts dienen. Unsere Denk- und Schreibprozesse können transparenter und kritischer vorangetrieben werden. Meines Erachtens liegt hierin ein großes Innovationspotenzial für die Geisteswissenschaften.
Informationen zum Autor
Christian Wachter ist wissenschaftlicher Mitarbeiter am Arbeitsbereich Digital History und am Center for Uncertainty Studies der Universität Bielefeld. Zu seinen Forschungsschwerpunkten zählen Theorie und Methoden der Digital Humanities, Geschichtstheorie und politische Kulturgeschichte des frühen 20. Jahrhunderts. Nach seiner Promotion zum Thema Hypertext als historiografisches Medium arbeitet er in einem aktuellen Projekt an digitalen Zeitungsanalysen zur Erforschung politischer Diskurse in der Weimarer Republik. ORCID: 0000-0003-2937-0868.
Wachter, Christian. 2025. Automation or Augmentation? A Humanistic Perspective on Digitization and AI. Vol. 8. Center for Uncertainty Studies Working Papers. Bielefeld: Universität Bielefeld. https://doi.org/10.4119/unibi/3011765. ↩︎
Vor wenigen Jahren war Handwritten Text Recognition (HTR) noch ein Nischenthema in der digitalen Geschichtswissenschaft. Inzwischen gehört sie zum methodischen Repertoire vieler Projekte und das nicht nur, weil sie die ressourcenintensive Arbeit des Transkribierens erleichtert, sondern auch, weil sie neue Perspektiven und Zugänge zu historischen Quellen eröffnet. Der zunehmende Einsatz von KI-gestützter Texterkennung verändert, wie Forschende auf digitalisierte Bestände blicken, und stellt auch Fragen danach, welche Rolle technische Infrastrukturen und Tools in historischen Arbeitsprozessen spielen sollten. Im Zentrum der gegenwärtigen HTR-Landschaft stehen insbesondere zwei Plattformen, die sich in den letzten Jahren als dominante Eckpfeiler der Gemeinschaft etablierten: Transkribus und eScriptorium. Beide verfolgen das gleiche Ziel und bieten ähnliche Werkzeuge dazu, unterscheiden sich aber grundlegend von ihrem Aufbau bis in die zugrunde liegenden Modellarchitekturen. Diese Unterschiede sind prägend dafür, wie Projekte in der Digital History mit maschineller Transkription arbeiten können und nicht zuletzt auch wie sie ihre Daten verstehen und deuten können.
Transkribus
Transkribus, welches ursprünglich an der Universität Innsbruck entwickelt wurde und heute vom Unternehmen READ-Coop betrieben wird, bietet eine vollständig integrierte, webbasierte Umgebung. Modelltraining, Layoutanalyse und Transkription sowie Daten- und Gemeinschaftsmanagement sind in einem einzigen Hub vereint. Für viele Forschende erleichtert dieser Ansatz den Einstieg erheblich, denn die Oberfläche ist zumeist intuitiv, zahlreiche Basismodelle stehen zur Verfügung und die Plattform übernimmt die gesamte Verwaltung der Infrastruktur von der Datenhaltung bis zur Verarbeitung. Besonders bei modernen Handschriften liefert Transkribus stabile Ergebnisse und vor allem die deutschen Modelle überzeugen mit ihrer Qualität. Das zugrunde liegende Modellformat PyLaia ist bewährt und effizient, mittlerweile aber etwas veraltet und stößt bei komplexeren Schrifttypen und heterogenen Datensätzen an seine Grenzen. Hinzu kommt, dass der Service ausschließlich über die Server der READ-Coop betrieben werden kann, was zwar Speicherplatz spart und den technischen Aufwand der Nutzenden reduziert, aber Fragen zum Datenschutz und zur langfristigen Verfügbarkeit aufwirft. Das Preismodell, das auf einem Credit- und einem Premium-Account-System basiert, hat sich in den letzten Jahren deutlich ausgeweitet, sodass einige Kernfunktionen wie etwa der Export in verschiedenen Formaten oder das Verwenden größerer Modelle zusätzliche Kosten verursachen. Für kleinere oder öffentlich finanzierte Projekte kann all dies zu spürbaren Hürden werden.
eScriptorium hingegen, welches an der Université PSL entwickelt und weiterhin angepasst wird, verfolgt einen anderen Ansatz. Die Plattform ist vollständig Open Source und verwendet mit Kraken eine leistungsfähigere Modellarchitektur, die besonders für komplexe Layouts und weniger stark strukturierte Datensätze wie bei vormodernen Texten geeignet ist. Im Gegensatz zu Transkribus ist eScriptorium dezentral organisiert, so kann die Software auf eigenen Servern laufen oder auch lokal betrieben werden, wodurch Projekte die volle Kontrolle über ihre Datenspeicherung und -nutzung behalten. Diese Offenheit bedeutet leider, dass die Einrichtung des Services technisches Wissen erfordert, wenn man sich und sein Projekt nicht an bestehende Instanzen angliedern möchte, denn eine funktionierende Instanz muss installiert, konfiguriert und konstant gewartet werden. Dies ist insbesondere wichtig, da eScriptorium noch in der Entwicklung ist und deswegen Probleme und Bugs auftreten können, welche die Arbeitsprozesse behindern. Die Gemeinschaft rund um eScriptorium ist sehr aktiv, wenn auch über verschiedene Plattformen verteilt, auf denen Modelle und Datensätze geteilt werden. Besonders relevant sind HuggingFace für die Bereitstellung von Modellen und HTR-United für die Sammlung und Dokumentation von Datensätzen.
In der praktischen Arbeit überzeugt eScriptorium vor allem dann, wenn Projekte langfristig und forschungsnah mit HTR arbeiten wollen. Gleichzeitig bringt die dezentrale Struktur aber auch immer Herausforderungen mit sich, etwa in der Stabilität einzelner Versionen, der Zugänglichkeit der Dokumentation oder dem Austausch mit anderen Forschenden. Beide Plattformen unterstützen derzeit noch nicht das neue TrOCR-Format, das auf Transformer-Architekturen basiert und in Tests besonders hohe Genauigkeit zeigt. Eine Integration dieses Formats in eScriptorium wird allerdings im Rahmen des FLOW-Projekts, das sich in Lübeck, Bern und Bielefeld mit flexiblen, nachhaltigen Workflows in der Digital History beschäftigt, geplant. Die bald mögliche Integration zeigt zugleich, dass sich der Bereich der HTR konstant und rasant entwickelt, aber auch, wie wichtig offene Strukturen für bestimmte Entwicklungen und Anpassungen in ihm sind.
HTR als epistemisches Instrument
Welche Plattform sich für ein konkretes Projekt eignet, hängt schlussendlich stark von den Zielsetzungen und Rahmenbedingungen ab. Transkribus bietet eine niedrigschwellige, zentrale Lösung, die sich besonders für Personen, die neu in das Thema einsteigen, und Projekte eignet, die von den großen Communities der Plattform profitieren können. eScriptorium hingegen ist komplexer, aber bietet langfristig mehr Kontrolle, Nachvollziehbarkeit und Anschlussfähigkeit. Die Wahl zwischen beiden Systemen ist damit nicht nur eine technische, sondern auch eine methodische Entscheidung. Sie betrifft die Frage, ob ein Projekt eher auf Komfort und Stabilität setzt oder auf langfristige Nachnutzbarkeit und Anpassbarkeit.
Schon alleine die Entscheidung, KI-gestützte HTR-Systeme zu verwenden, hat Folgen für den gesamten Forschungsprozess. HTR verändert, wie Forschende historische Quellen lesen und verstehen. Statt jedes Wort einzeln zu entziffern und in seinem Kontext zu bewerten, prüfen sie maschinell erzeugte Vorschläge auf ihre Fehler, wobei die tiefere Ebene des Textverständnisses verloren gehen kann. Der Umgang mit Quellen wird damit zugleich fehleranfälliger, algorithmischer und interpretativer. Entscheidungen darüber, welche Modelle wie trainiert werden, welche Datensätze genutzt und welche Plattformen gewählt werden, beeinflussen unmittelbar, welche Texte wo und wie sichtbar gemacht werden und welche nicht. In diesem Sinne ist HTR mehr als ein Werkzeug, sie ist ein epistemisches Instrument, das technische, methodische und historische Dimensionen miteinander verknüpft. Die Entscheidung zwischen Transkribus und eScriptorium ist daher auch eine Wahl zwischen unterschiedlichen Vorstellungen digitaler Forschung in unserem sich durch KI verändernden Verständnis der Geschichtswissenschaft. Beide Plattformen zeigen, dass KI nicht nur neue Werkzeuge für die Forschung bereithält, sondern auch neue Fragen aufwirft, denen wir uns nun stellen müssen.
Künstliche Intelligenz (KI) ist gegenwärtig in aller Munde, ihr Einsatz findet im breiten gesellschaftlichen Diskurs gleichermaßen Anhänger*innen wie Gegner*innen. Letztere zeichnen in ihren Voraussagen über die Entwicklung und Verwendung von KI-Systemen utopische Szenarien von einer ‚übermächtigen Intelligenz‘, die Menschen wie auch Maschinen steuern könne. Aktive Handlungsmöglichkeiten menschlicher Akteur*innen fallen in diesen vereinfachten Vorstellungen jedoch vollkommen aus dem Raster. Dass KI transformiert, ist sicherlich Konsens. Aber was genau verändert sich mit der Verwendung von KI-Systemen? Welche Erwartungen sind damit verknüpft? Wie verschieben sich dabei die Rollen von Forscher*innen und das Selbstverständnis von historisch arbeitenden Disziplinen?
Grund genug für die Mitglieder unseres Arbeitsbereichs im Rahmen des vierten Digital History-Projekttags zu „KI und Geschichtswissenschaft“ am 25.06.2025 genau an die Scharnierstellen ranzuzoomen, an denen Digital Historians mit KI arbeiten und ‚interagieren‘. Hierzu gaben Melvin Wilde und Sophie Spliethoff zwei Impulse.
Melvin Wilde startete mit einem Impuls zum „Deep-Learning bei HTR und Annotationen“. Am Beispiel des FLOW Projekts zeigte er auf, dass die historische Handschriftenerkennung, Annotation und NER-Verfahren durch KI kostenärmer, weil auch zeiteffizienter ist. Die Transkription werde durch den Einsatz von KI deutlich beschleunigt und die Datenaufbereitung durch die automatisierte Zeichenerkennung und Transformation in andere digitale Dateiformate erleichtert. Chat-Interfaces schwächten die Bedeutung von Programmierskills, während Methoden und Datensätze leichter aufgespürt werden könnten, was den Einsatz von KI zu einem demokratisierenden Element von Wissen und Wissensaufbereitung mache. Gleichwohl leidet das explorative Lernen, so Melvin Wilde: Denn so erlesen die Chat-Interfaces einerseits seien, so sehr entfernten sich Digital Historians andererseits von einer direkten Interaktion mit Quellenmaterialien. Die Sorge, sich zu sehr auf die KI-Systeme zu verlassen, stehe dem ebenso entgegen wie die Reproduktion von Bias‘. Was sich daran aufzeigen lässt, ist, dass die neugewonnene Datenverarbeitung zu anderen Möglichkeiten der Quantifizierbarkeit von Daten führt. Ihre Effizienz hinsichtlich Kosten und Zeit hingegen bedarf deshalb umso mehr einer Neubewertung in den digitalen Geisteswissenschaften.
Ein anderes Forschungsbeispiel lieferte Sophie Spliethoff mit einem Impuls zur „Korpusexploration mithilfe von Word Embeddings – A work in Progress“ aus dem SAIL Projekt. Um sich der Frage, inwiefern in vormodernen Reformationsschriften durch den Buchdruck neu aufkommenden Medienformate hinsichtlich ihrer Nutzung reflektiert wurden, automatisiert anzunähern, arbeitete sie jüngst mit Word Embeddings (d. h. der Vektorisierung von Wörtern). Nach einer Explorationsphase unterschiedlicher Modelle, händischen Word Stemmings (d. h. der Zurückführung von Wörtern auf ihren morphologischen Stamm) und darauf aufbauenden computerisierten Visualisierungen zeigte sie auf, dass bereits eine Verbindung zwischen Genres und spezifischen Ausdrucksweisen besteht. Außerdem wurde das Zusammenspiel aus künstlicher und menschlicher Intelligenz bei der Datenverarbeitung und ihrer Modellierung deutlich: Aufgrund der nicht-standardisierten vormodernen Schreibweisen und Textunreinheiten in den transkribierten Quellen verzichtete sie auf ein computerisiertes Stemming, da bestehende Stemmer zu unsauberen Ergebnissen führten. Zwar bestätigte das nicht-computerisierte Word Stemming den Verdacht eines höheren (Zeit-)Aufwands, allerdings führte dies auch zu einer intensiveren Auseinandersetzung mit dem Material und der spezifischen Semantik der Genretexte auf Forscher*innenseite. Die Performanz des Word Stemmings baut folglich die Brücke zwischen dem, was vorher vielleicht bloß ‚ein Gefühl‘ über den Text war, und den vermeintlich ‚fertigen‘ Ergebnissen von KI-Systemen. Eine solche Arbeitsteilung, wie Sophie Spliethoff sie präsentierte, ermöglicht ein besseres Verständnis des Untersuchungsmaterials und macht die Prozesse der Mensch-Maschine-Interaktion transparent(er). Darüber hinaus lassen sich auf diese Weise geschichtswissenschaftliche Überlegungen und Hypothesen bereits unmittelbar in den verschiedenen Stadien der Modellierung überprüfen. Eine weitere Erkenntnis ist, dass die KI nicht zwangsläufig bessere Ergebnisse prodzuziert.
Angesichts des enormen Potentials von KI-Systemen für die Geschichtswissenschaft und der eigenen Praxiserfahrungen unserer Mitarbeiter*innen finden sich unmittelbare Anknüpfungspunkte, die in einer Reflexion der Techniken geschichtswissenschaftlichen Arbeitens münden. Die Impulsvorträge von Melvin Wilde und Sophie Spliethoff eint, dass KI-Systeme angesichts der Erwartungen, die an sie gerichtet werden, in ihrer Leistungsfähigkeit überschätzt werden: Sowohl in Hinsicht auf die Erkennung von Berufen oder Nobilitäten in mittelalterlichen Gerichtstexten als auch von frühneuzeitlichen Genreunterscheidungen können auch Double Checks der Ergebnisse durch einen zweiten Durchlauf von KI-Systemen keine guten Ergebnisse hervorbringen. Die Überprüfung und Nachbesserung durch Digital Historians ist und bleibt unerlässlich. Durch veränderte Repräsentationsformen der historischen Quellen verändert sich zwar der Zugang zum Material und die Auseinandersetzung mit ihrer digitalen Entsprechung. Gleichzeitig findet aber auch eine Intensivierung innerhalb der verschiedenen Arbeitseinheiten, zu verschiedenen Zeitpunkten oder mit seinen digitalen Entsprechungen statt. Welche Folgen haben dann jedoch forschungsorientierte Einsätze von KI-Systemen?
Erstens ist zu klären, mit welchen Fragestellungen, Zielen und Nutzen das KI-System in die eigene Forschungsarbeit einbezogen wird: Was soll die computerisierte Methode leisten, was andere Methoden nicht können? Wie verhält sich der Einsatz von KI zu anderen Methoden in der ‚traditionellen Geschichtswissenschaft‘? Bieten KI-Systeme lediglich eine Zeitersparnis, sodass Arbeitszeit effektiver genutzt werden kann, oder liefert ihr Einsatz heuristischen Mehrwert?
Zweitens ist zu prüfen, inwiefern das Forschungsziel das Training neuer Modelle erfordert oder ob bereits bestehende Modelle nachgenutzt werden können. Wie kann das Post-Processing hinsichtlich bestehender und trainierter Modelle eingebunden werden? Wie können digitale Ressourcen nachhaltig und sparsam eingesetzt werden? Handelt es sich im Projekt, um ein empirisches Projekt oder ein Infrastrukturprojekt mit gänzlich anderer Mission?
Drittens lässt sich dafür plädieren, dass Digital Historians als kritische Stimme gegenüber KI-Systemen und Modellen der Generalisierbarkeit und Effizienzlogik auftreten. Denn es braucht jene, die solche digitalen Methoden kritisieren, reflektieren und einordnen; das sind Kernkompetenzen von Historiker*innen, die sich über das Historische auf das Digitale weiterziehen lassen. Insofern schließt sich die Frage an, welche Kompetenzen von Digital Historians mitgebracht und welche forschungsfördernden Methoden (für den Umgang mit KI) zusätzlich erarbeitet werden sollten, um Kritikfähigkeit zu erreichen.
Das implizite Versprechen einer KI als, lapidar gesprochen, ‚eierlegende Wollmilchsau‘ der Digital History wird gegenwärtig nicht eingelöst. Vielmehr bringt die Reflexion über ihre Verwendung und die Rückkopplung an wissenschaftliche Fragestellungen Digital Historians zurück zu den Wurzeln ihrer Kompetenz. Historische Quellen werden zwar zunehmend multimodal, Prinzipien der hermeneutischen Praktiken der Wissensgenerierung bleiben jedoch bedeutsam und werden insbesondere vor dem Hintergrundrauschen von KI-Versprechen umso wichtiger.
Am 7. Mai 2025 fand der dritte Projekttag des Arbeitsbereichs Digital History zu „Künstliche Intelligenz (KI) und Geschichtswissenschaft“ an der Universität Bielefeld statt und widmete sich gleich zwei Themen: Zunächst hielt Nora Probst vom Institut für Medienkultur und Theater der Universität zu Köln einen Vortrag zum Thema „KI in Theaterarchiven? Maschinelles Lernen in den Theater- und Tanzwissenschaften“. Anschließend sprach Silke Schwandt über die Möglichkeiten, Personen in historischen Texten mittels KI zu identifizieren.
„KI in Theaterarchiven? Maschinelles Lernen in den Theater- und Tanzwissenschaften“
Nach einer kurzen Vorstellung sprach Nora Probst zunächst generell über ihre Forschung und stellte dabei Anwendungsverfahren von Computervisionserfahrungen vor, welche automatisierte Personen-, Gesichts- und Bilderkennung beinhalten. Hierbei betonte sie die kritische Auseinandersetzung mit Technologien und ging auf maschinelles Lernen in den Theaterwissenschaften ein. Sie merkte an, dass die systematische Nutzung von KI in den Theaterwissenschaften noch nicht umfangreich stattfinde, es aber mittlerweile vermehrt Fallbeispiele für ihren Einsatz gebe. Anschließend stellte sie die Theaterwissenschaftliche Sammlung der Universität zu Köln vor. Die inhaltlichen Schwerpunkte ihres Vortrags lagen unter anderem auf dem Theater, seiner Dokumentation und Archivierung sowie verschiedenen Anwendungsgebieten von KI in den Theaterwissenschaften, Methoden der Erschließung von Bildern und audiovisuellen Daten.
Was ist Theater?
Einleitend erklärte Nora Probst das Theater sowohl als Schauplatz, als auch als das, was auf dem Schauplatz geschehe, und führte dazu verschiedene Auffassungen von Theater vor. Essenziell erscheint die Formel A impersonates B while C looks on (Eric Bentley),auf die sich Theateraufführungen herunterbrechen ließen. Dabei betonte sie den Fiktionalitätsvertrag zwischen Spielerinnen und Zuschauerinnen, der jedoch aus künstlerischen Gründen immer wieder verwischt und hinterfragt werde, was zur Metaphorisierung der Bühne führe. Ergänzend dazu ging sie noch auf den Einsatz von Kameras und ähnlichen Aufnahmegeräten im Alltag ein, die potenziell jeden (öffentlichen) Ort zu einer Bühne umfunktionieren können und damit alle Menschen zu Akteur*innen einer imaginativen „Theateraufführung“ machen, die eine Rolle in dieser „Aufführung“ spielen oder zumindest ihre Handlungsweisen unter Beobachtung eines imaginären Publikums verändern.
Als nächstes kam Nora Probst auf die Archivierung von Theater zu sprechen. Hier zeigte sie zunächst auf, wie die Theaterwissenschaftliche Sammlung in Köln aufgebaut ist und welche Bestände sie beinhaltet. In der Sammlung lassen sich beispielsweise Regieanweisungen, Requisiten, Fotografien und audiovisuelle Dokumentationen sowie Briefe und Tagebücher finden – vornehmlich Bild- und Textmaterial zum europäischen Theater vom 16. Jahrhundert bis zur Gegenwart. Besonderes Interesse habe sie selbst an dem Netzwerk aus materiellen und immateriellen Sammlungsgegenständen. Das Augenmerk der Sammlung liege jedoch vor allem auf den Theateraufführungen und ihrer Dokumentation. In diesem Zusammenhang verwies Nora Probst darauf, dass sich theatrale Phänomene aufgrund ihrer Flüchtigkeit kaum sammeln ließen. Diese Leerstelle werde in der Regel durch theatrale Artefakte ersetzt bzw. aufgefüllt, um zumindest ein grobes Verständnis der theatralen Phänomene für die Nachwelt aufrechtzuerhalten. Mit Blick auf die Sammlung sei vor allem die Menge der Born-Digital Objekte, also der Objekte, die in digitaler Form erstellt werden und daher von Anfang an digital vorliegen, also nicht digitalisiert bzw. von einer analogen in eine digitale Form überführt werden müssen, in den letzten Jahren enorm gestiegen. Diesen Anstieg veranschaulichte sie unter anderem mit dem Erwerb einer Sammlung von zahlreichen digitalen Theaterfotografien von Wolfgang Weimer, der sie zum dritten Punkt ihres Vortrags brachte.
Methoden und Herausforderungen der Bilderschließung – Sortieren, Erschließen und Erkennen
In diesem Teil des Vortrags widmete sich Nora Probst ausführlich den Methoden und verschiedensten Herausforderungen der Bilderschließung. So stellte sie exemplarisch den Linked Stage Graph vor: Diese Methode, die 2019 während eines Hackathons entstand1, ermögliche eine gute Vergleichbarkeit unterschiedlicher Bühnenbilder anhand bestimmter Unterscheidungsmerkmale wie der Gestaltung oder Farbgebung der Bühnenbilder und fungiere als Schnittstelle zwischen Subjekt und Objekt. Mithilfe eines TSMI-Algorithmus ließen sich ähnliche Bilder gruppieren und gemeinsam analysieren, was ebenfalls ein Anliegen der danach vorgestellten Exire Fotosoftware sei. Dieses freie Tool helfe bei der Verschlagwortung von Bildern, allerdings ohne Preprocessing und ohne Serververbindungen, also lediglich mit der Rechenleistung des eigenen Computers. Darüber hinaus seien bei der Software noch einige andere Probleme zu beobachten: so sei der Algorithmus sehr unsicher bei der Bewertung von historischen schwarz-weiß Aufnahmen sowie bei hohen Kontrasten in den Bildern. Außerdem machen ihm theatrale Darstellungen Schwierigkeiten, in denen beispielsweise mit Masken oder Verkleidungen gearbeitet werde. Außerdem basiere das Programm auf einer binären Geschlechtererkennung, was neben der problematischen Grundannahme einer binären Geschlechterordnung auch zu Herausforderungen im Kontext von Crossdressing im Theaterkontext, also der Darstellung einer Bühnenrolle durch eine Person anderen Geschlechts, führe. Neben all diesen Unzulänglichkeiten seien übliche Probleme mit KI-basiertem Erkennen zu beobachten, das bei Unsicherheiten lieber rate, was sichtbar sein könne, anstatt es als „unsicher“ zu taggen oder auszulassen. So erkenne das Programm zum Beispiels eine Wassermelone, wo ein Schädel in Fotografien von Theateraufführungen von Shakespeares Hamlet zu sehen sei.
Neben den Fotografien werden in der Theaterwissenschaftlichen Sammlung der Universität zu Köln audiovisuelle Aufnahmen von Aufführungen und Proben archiviert. Diese lägen allerdings zum größten Teil als nicht digitalisierten VHS-Aufnahmen vor, was – so Nora Probst – eine erste große Hürde bei der Erschließung der Sammlung darstelle. Jedoch könne auch hier KI einen entscheidenden Fortschritt bringen und dabei helfen, die Aufnahmen zu annotieren und klassifizieren, um zeitliche Ressourcen effizient einzusetzen. Als Beispiel für solche Anwendungen führte Nora Probst das VIVA-Projekt (Visual Information Retrieval in Video Archives)2 vom deutschen Rundfunkarchiv, der Philipps-Universität Marburg und der Technischen Informationsbibliothek der Leibniz Universität Hannover an. In diesem Projekt wurde KI verwendet, um die filmischen Aufnahmen des Fernseh- und Filmarchivs zu sortieren und verschlagworten. Die Tanzforschung habe sich ebenfalls bereits mit KI-unterstützter Analyse von Tanzposen beschäftigt und diese auf Ähnlichkeiten untersucht. Es scheint auf diesem Gebiet also viel experimentiert zu werden, um (zeitlich) kaum leistbare händische Arbeit zu ersetzen.
Ausblick
Als letztes reflektierte Nora Probst darüber, wie KI im Archiv effizienter eingesetzt werden kann. Deep Learning Modelle könnten eine Option sein, wobei gegenüber diesen eine kritische Auseinandersetzung sinnvoll und notwendig sei. Ground Truth sei trotz des Namens nicht zu 100% zu vertrauen, auch daran arbeiten in der Regel nur Menschen und diese machen Fehler. Sie nannte es in Referenz auf einen Videoessay von Tessa Gengnagel (Universität zu Köln) „The Broken Record of Everything“3 , was sowohl auf den fragilen Zustand von Daten als auch auf die Lücken, die es in einer Archivierung zwangsläufig geben müsse, rekurriere. Somit würden – und effektiv werden – mit nicht-perfekten Daten Modelle trainiert, die dann weitere Daten bearbeiten und so zu noch größeren Lücken führen. Bei der anschließenden, gemeinsamen Diskussion wurden die Standardisierung und Normierung der Informationsaufnahme durch die KI erörtert, bei der die Notwendigkeit dieser Arbeitsschritte reflektiert und hervorgehoben wurde, um Vergleichbarkeit zu schaffen. Dabei wurde betont, dass Prozesse der Kategorisierung verschiedenen Schwierigkeiten unterliegen und man dazu neige, schwierige Kategorien nicht in Betracht zu ziehen, um Ergebnisse nicht durch Zeitmangel zu gefährden. Als Fazit der Diskussion über die grundsätzliche Anwendung von KI wurde festgehalten, dass uns die KI gewissermaßen den Spiegel vorhalte: nämlich unsere Forschung und Arbeit durch eben die Kategorien kritisch zu betrachten, die wir selbst an sie anlegen.
Digitale Methoden zur Named Entity Recognition und Personenidentifikation in englischen Gerichtsprotokollen
Der zweite Vortrag dieses Projekttags basiert auf der Bachelorarbeit von Dana Meyer und zum Teil auf der Dissertation von Silke Schwandt, die den Vortrag auch selbst hielt. Zunächst stellte sie einleitend das der Bachelorarbeit von Dana Meyer zu Grunde liegende FLOW-Projekt vor, dessen Mitglieder sich dem Aufbau von Workflows in den Digitalen Geschichtswissenschaften anhand der Erschließung marginalisierter Handschriften widmen.4 Im Rahmen des Projekts werden angepasste Variationen des BeNASch Annotationsschemas5 verwendet, das einen eigenen Standard in der Annotation von Personen, Organisationen und anderen Entitäten erstellt hat. Silke Schwandt stellte den Workflow der Named Entity Recognition vor, auf dem die Arbeit aufbaut. Dafür wurden zunächst verknüpfte historische Dokumente aus englischen Gerichtsprozessen im Mittelalter gesammelt und mithilfe von Large Language Models (LLMs) verarbeitet, wobei Entitäten und die Beziehungen dieser Entitäten zueinander extrahiert wurden. Anschließend wurden die strukturierten Daten für das LLM in ein JSON-Format gebracht.
Entscheidend sei hier, dass dieser Workflow die Arbeit eines Menschen nicht obsolet mache, sondern als eine Art Anwendung fungiere und anzusehen sei, die zwangsläufig menschlichen Input benötige. Im Speziellen bei der Korpuserstellung sei das menschliche Eingreifen unerlässlich: Hierbei ist beispielsweise die Auswahl der Fälle entscheidend, in denen genügend Informationen über Personen, Orte und Entscheidungen zu finden sein müssen. In ihrer Arbeit hatte Dana Meyer dafür 100 Fälle aus der Berkshire Eyre ausgewählt. Eyres waren eine spezifische Form von Gerichtsprozessen, bei denen Richter im mittelalterlichen England durch das Land gereist sind, um vor Ort das königliche Recht geltend zu machen. Nach der Auswahl der Fälle sei die Auswahl der Prompts entscheidend: Hier müsse festgelegt werden, wie sinnvolle Prompts an das LLM auszusehen haben, um möglichst gut die Personen ‚finden‘ zu können. In diesem Zusammenhang wurde das Basic Prompting mit dem Chain of Thought-Prompting verglichen. Als letzter Punkt sei die Evaluation der Ergebnisse selbstverständlich unerlässlich. So müssen zunächst mögliche Fehler miteinbezogen werden, typischerweise lägen diese in fehlerhafter Orthografie, im Wechsel zwischen den Sprachen, in gewissen Auslassungen und in der Problematik mit nicht oder falsch aufgelösten Abkürzungen.
Für diesen Anwendungsfall haben sich besonders die neuen Modelle von ChatGPT hervorgetan: Am besten habe das GPT-4o-Modell abgeschnitten, während andere LLMs wie LLAMA noch gar keine Möglichkeit bieten, derlei Ergebnisse darzustellen. Weitere Probleme bestünden in dem begrenzten historischem ‚Wissen‘ der LLMs, aber auch in inkonsistenten Ergebnissen und einem möglicherweise zu kleinen Datensatz. Außerdem wies Silke Schwandt auf weitere relevante Aspekte in Bezug auf die Named Entity Recognition als digitale Methode hin: etwa die Entwicklung von Beziehungsdiagrammen, die generelle Feinabstimmung von annotierten Daten, die Einführung von Retrieval Augmented Generation (RAG), um implizite Informationen verarbeiten zu können, und die Implementierung einer dynamischen Abfrage-Pipeline für Echtzeit-Interaktionen. Darüber hinaus stellte sie Personennetzwerke für eine Analyse der Beziehungen anhand von Zugehörigkeiten zu bestimmten Personenkategorien vor.
Das Team der Digital History freut sich, an dieser Stelle bald auch über den vierten Projekttag zum Jahresthema berichten zu können. Wenn Sie mehr über die Digital History Bielefeld erfahren und rechtzeitig über das Erscheinen neuer Beiträge auf diesem Blog informiert werden möchten, folgen Sie uns gerne auf LinkedIn.
Am 22.04. und 23.04.2025 hat der erste <rse-workshop /> für Research Software Engineers (RSEs) des Arbeitsbereichs Digital History der Universität Bielefeld stattgefunden. Dieser bot in einer kleinen Runde die Möglichkeit, sich über die Herausforderungen und Lösungen in der Forschungssoftwareentwicklung auszutauschen. Im Fokus standen praktische Themen wie der Aufbau und Betrieb technischer Infrastruktur, die Auswahl passender Architekturen und Technologien sowie die Implementierung und das Deployment. Die Teilnehmenden hatten die Gelegenheit, ihre eigenen Praxisbeispiele vorzustellen und gemeinsam zu diskutieren. Neben dem fachlichen Austausch wurden auch Pläne für zukünftige Treffen und Formate wie Hackathons entwickelt, um den Dialog und die Zusammenarbeit innerhalb der Community zu stärken.
Die Teilnehmenden
Inga Kirschnick (Wissenschaftliche Mitarbeiterin an der Universität Bielefeld): Research Software Engineer im Teilprojekt INF des SFB 1288 und dem Arbeitsbereich Digital History.
Jonas Widmer (Wissenschaftlicher Mitarbeiter an der Universität Bern): Research Software Engineer im Fachgebiet Digital Humanities bei Prof. Dr. Tobias Hodel. Spezialisiert auf Machine Learning und Natural Language Processing in den Digital Humanities, mit Fokus auf die Aufbereitung und Verarbeitung von Forschungsdaten.
Malte Meister (Technischer Mitarbeiter an der Technischen Universität Darmstadt): Research Software Engineer im Fachgebiet Digital Philology, Neuere deutsche Literaturwissenschaft bei Prof. Dr. Evelyn Gius.
Patrick Jentsch (Technischer Mitarbeiter an der Universität Bielefeld): Technischer Koordinator der Fakultät für Geschichtswissenschaft, Philosophie und Theologie und Research Software Engineer im Arbeitsbereich Digital History.
Unsere Beiträge
Jonas Widmer machte mit seinem Thema “Microservice Architekture (MSA)” den Auftakt und führte uns in die Grundlagen flexibler und skalierbarer Softwarearchitekturen ein. Zunächst wurden grundlegende Konzepte und Unterschiede zwischen monolithischer Architektur und MSA erläutert. Während monolithische Architekturen alles in einer einzigen Anwendung bündeln, ermöglicht MSA die Entwicklung von Anwendungen als Sammlung kleiner, autonomer Dienste. Diese Dienste kommunizieren über standardisierte Schnittstellen und können unabhängig voneinander entwickelt, bereitgestellt und skaliert werden. Dabei ist – nicht nur in den Digital Humanities – der Vorteil, dass verschiedene Beriche von Expert:innen der jeweiligen Domäne bearbeitet werden können, ohne dass die gesamte Anwendung betroffen ist. Als Beispiel hat Jonas Widmer seinen aktuellen Anwendungsfall des Forschungsprojekts “The Flow” vorgestellt, das einen digitalen Workflow für Historiker:innen ohne Vorwissen in Informatik und Programmierung bieten soll. Das Management des Projekts fußt dabei auf GitHub Actions, die eine Automatisierung von Arbeitsabläufen ermöglichen.
Inga Kirschnick stellte im Anschluss ihr Projekt “Web-Plattform Ermelinghoff” vor, das sich mit der Digitalisierung historischer Quellen eines westfälischen Familienarchivs beschäftigt. Das Projekt entsteht in der Zusammenarbeit mit Studierenden aus Seminaren der der Geschichtswissenschaft der Universität Bielefeld. In den Seminaren transkribieren Studierende digitalisierte Briefe und Dokumente des Familienarchivs, die dann (automatisiert) auf einer Web-Plattform veröffentlicht werden. Inga berichtet von konzeptionellen Herausforderungen einer solchen Plattform, die mit Herausforderungen wie der Qualitätssicherung der Transkriptionen und zugehöriger Annotationen und der gleichzeitigen Benutzerfreundlichkeit für unterschiedliche Anwender:innen umgehen muss. Ein Fokus der Vorstellung lag dabei auf der technischen Umsetzung der Plattform und bewährter Tools für die Entwicklung geschichtswissenschaftlicher Webanwendungen. Dazu gehörte unter anderem das Python-Webframework Flask, das nahtlos mit einer Vielzahl an DH-Tools zusammenarbeitet, die ebenfalls in Python geschrieben sind, und durch die Integration von SQLAlchemy eine flexible und einheitliche Nutzung relationaler Datenbanken innerhalb derselben Programmiersprache ermöglicht.
Malte Meister begann mit einer Einführung in die Tools CATMA und GitMA, die für die Annotation und anschließender Analyse von Textkorpora entwickelt wurden. Er präsentierte eine Demo von CATMA, um die Funktionalitäten und Anwendungsmöglichkeiten des Tools zu veranschaulichen. Anschließend stellte er die verschiedenen Komponenten und die Architektur des CATMA-Systems vor, wobei er auf den Umgang mit Legacy-Code zu sprechen kam und auf die Notwendigkeit von Exportfunktionen in Standardformaten wie TEI XML und dem Web Annotation Data Model aufmerksam machte. Er gab ebenfalls einen Einblick in die Support und Community Tools rund um CATMA herum. Zum Abschluss gab er Einblicke in die Server-Infrastruktur und das Virtualisierungs-Cluster des Instituts für Sprach- und Literaturwissenschaft an der TU Darmstadt. Besonderes Interesse galten dabei die genutzten Techniken zur automatischen Backuperstellung.
In meinem Beitrag habe ich eine kurze Einführung in das Container-Orchestrierungstool Docker Swarm und einen Teil der darin enthaltenen Funktionen gegeben. Um eine besseren Einblick in die möglichen Einsatzszenarien zu erhalten, wurde gemeinsam ein skalierbares Anwendungsbeispiel zur Nutzung von Docker Swarm in Verbindung mit Traefik als Reverse Proxy für Webapplikationen bearbeitet. Ausgehend von dem vereinfachten Anwendungsbeispiel habe ich eine Konfiguration in einer produktiv genutzten Infrastruktur gezeigt, welche das vorangegangene Beispiel vertieft und um automatische SSL-Zertifikatsgenerierung ergänzt. Dabei ging ich auf den Betrieb von älterer Software ein, die häufig keine Option zur Integration in Containervirtualisierungsumgebungen vorgesehen hat. Eine Lösung um dieser Herausforderung zu begegnen habe ich anhand von eigenen CI/CD Pipelines in GitLab demonstriert, welche Containerviertualisierungskompatible Docker Images erzeugen.
Raum für Diskussionen
Zwischen den Präsentationen wurden zwei zentrale Diskussionen angestoßen:
Technologie-Talk: Die Teilnehmenden diskutierten über die Vor- und Nachteile verschiedener Techstacks, insbesondere Next.js im Vergleich zu Flask mit Jinja HTML und vanilla CSS/JS. Diese Diskussion bot Einblicke in die unterschiedlichen Ansätze und half, die für die jeweiligen Projekte am besten geeigneten Technologien zu identifizieren.
Vernetzungs-Talk: Ein weiterer wichtiger Aspekt war die Diskussion über zukünftige Vernetzungsmöglichkeiten. Es wurden Ideen für erneute Treffen, Hackathons und Strategien zum Community-Building und -Finding ausgetauscht. Ziel war es, die Zusammenarbeit innerhalb der Community zu stärken und neue Mitglieder zu gewinnen.
Resümee und Ausblick
Der Workshop bot eine Plattform für den Austausch über die vielfältigen Herausforderungen und Lösungen in der Forschungssoftwareentwicklung. Die Teilnehmenden konnten von den praxisnahen Beiträgen profitieren und neue Impulse für ihre eigene Arbeit gewinnen. Die Bedeutung der Zusammenarbeit und des Wissensaustauschs innerhalb der Community wurde besonders hervorgehoben. Es wurden Pläne für regelmäßige Treffen und Formate wie Hackathons entwickelt, um den Dialog und die Zusammenarbeit weiter zu stärken.
Bei zukünftigen Veranstaltungen könnten mehr Teilnehmende eingeladen werden, um die Vielfalt und den Austausch zu fördern. Gleichzeitig wird angestrebt, sich in bereits bestehende größere Communities zu integrieren, um Synergien zu nutzen und die Reichweite der Initiativen zu erhöhen. Diese Maßnahmen sollen dazu beitragen, die Community der Research Software Engineers enger zu vernetzen und neue Ansätze in der Forschungssoftwareentwicklung zu fördern.
From September 3 to 5, 2024, the Digital History Working Group at Bielefeld University welcomed participants to the Digital Academy, dealing with the topic of “Language Models in Digital Humanities Research” this year. During the workshop, they delved into and discussed challenges and opportunities that arise with using language models in the humanities. Three of the participants of this virtual event reflect on the Digital Academy 2024 and share their experiences working with language models in their own research projects.
Towards Operationalizing Linguistic Creativity in Literary and Non-literary Text
by Emilie Sitter
Recently, I have started working in the Collaborative Research Centre for Linguistic Creativity in Communication (CRC 1646) at Bielefeld University. Language models are central to my research project’s core objectives, which are located between the fields of Literary Studies and Computational Linguistics. Therefore, the Digital Academy was a great opportunity to think about and discuss their benefits and dangers. In my project, which is just getting underway, we want to apply methods from digital stylometry and NLP to assess linguistic creativity (on the textual rather than on the content level) in written texts across all genres (especially in German, possibly later in other languages). Many of the perks and pitfalls of language models covered in the 2024 Digital Academy have already been a subject of discussion for us or are sure to become one.
Linguistic Creativity
A computational approach to linguistic creativity requires operationalizing the phenomenon. Runco and Jaeger’s (2012) standard definition of creativity as a combination of originality and effectiveness serves as our starting point. Originality, on the one hand, describes the novelty of an idea: for instance, a text may contain many rhetorical devices that make it very literary or poetic but not automatically creative if they are highly conventionalized. Effectiveness, on the other hand, refers to communicative success: a long string composed of random words might be new and original but not fulfill any communicative purpose.
Our Dataset
We work with spatial descriptions. These are suitable because they refer to concrete spatial conditions and ensure comparability. Currently, we identify the spatial descriptions in our corpus semi-automatically by matching all sentences with a list of keywords that indicate spatial conditions (e. g. “room”, “street”, “forest”). Then, we let human annotators decide whether these sentences really do describe space – a task that should definitely be taken over by LMs in the near future! Our corpus is still in the making, too. What we have worked with so far is the German Korpus der Literarischen Moderne (KOLIMO, Horstmann 2019). In the 2024 Digital Academy, the discussions about building balanced corpora were very insightful and raised my awareness of how carefully corpora should be constructed to avoid bias. The complete KOLIMO is not balanced at all in terms of authors’ genders or years of publication, but its size (around 40,000 German full texts) allows us to draw a smaller sample that is more balanced.
Visualisierung für die Digital Academy 2024 erstellt mit DALL-E, Prompt: “An abstract image of language models in the digital humanities”.
How To Measure Linguistic Creativity?
Linguistic creativity can be approached in many ways. We apply mixed methods to investigate the phenomenon from various perspectives and to compare them. From a large-scale online rating study with human participants rating the originality and success of spatial descriptions, we obtain our “creativity ground-truth”. Moreover, literary experts annotate rhetorical devices in our study items so we can investigate how these might influence the creativity ratings. The main challenges for getting appropriate ratings are to agree on good rating categories and to define clear annotation guidelines – an iterative process that we are currently in the middle of … Our computational models should then be able to predict the humans’ ratings. To this end, we use methods from digital stylometry (as in Weinstein et al. 2022; van Cranenburgh and Bod 2017) and test language models for their suitability.
Language Models In The Research Project
Considering the advantages and disadvantages of both small and larger language models, we want to determine what works best for our purposes (creativity classification and the automatic identification of spatial descriptions). Potential approaches to obtain creativity measures are the models’ perplexity scores (Humpston and Broome 2016) or their attention entropy (Oh and Schuler 2022) as indicators for creative passages. Similarly to our rating study with humans, we will derive (fine-tuned) LLMs’ originality/novelty and success scores using carefully crafted prompts. For the detection of spatial descriptions, we have started some experiments on prompting, too. All these approaches bring their own problems to our project. Among many others, there are reproducibility issues, additional costs for closed-sourced models (I luckily work on a project where these were taken into account right from the start, which, as I learned at the 2024 Digital Academy, is far from a given), and biases in the models and the prompts – for instance, DiStefano, Patterson, and Beaty (2024) found great differences in creativity scoring across models whether they used the term “original” or “novel” in their prompt. However, one statement that particularly stuck in my mind was that of Tobias Hodel, who was interviewed on the Open Space Day: As humanities scholars, we would be ideal for dealing with language models because we have been trained in thinking critically and in reflecting on our output and our data. I am confident that in (digital) humanities projects like ours, we can manage to use LLMs properly and responsibly and use them to better understand a fascinating aspect of human language, namely linguistic creativity.
Acknowledgment
This research has been funded by the Deutsche Forschungsgemeinschaft (DFG, German Research Foundation) – CRC-1646, project number 512393437, project A05.
Biographical Note
Emilie Sitter completed her Master’s Degree in Digital Humanities at the University of Vienna and is part of the Collaborative Research Center (CRC) 1646 on “Linguistic Creativity in Communication” at Bielefeld University since 2024.
References
Cranenburgh, Andreas van, and Rens Bod. 2017. ‘A Data-Oriented Model of Literary Language’. In Proceedings of the 15th Conference of the European Chapter of the Association for Computational Linguistics: Volume 1, Long Papers, 1228–38. Valencia, Spain: Association for Computational Linguistics. https://aclanthology.org/E17-1115.
DiStefano, Paul V., John D. Patterson, and Roger E. Beaty. 2024. ‘Automatic Scoring of Metaphor Creativity with Large Language Models’. Creativity Research Journal. https://doi.org/10.1080/10400419.2024.2326343.
Horstmann, Jan. 2019. ‘KOLIMO: Korpus Der Literarischen Moderne’. forTEXT. Literatur Digital Erforschen. https://fortext.net/ressourcen/textsammlungen/kolimo-korpus-der-literarischen-moderne.
Humpston, Clara S., and Matthew R. Broome. 2016. ‘Perplexity’. In An Experiential Approach to Psychopathology: What Is It like to Suffer from Mental Disorders?, edited by Giovanni Stanghellini and Massimiliano Aragona, 245–64. Cham: Springer International Publishing. https://doi.org/10.1007/978-3-319-29945-7_13.
Oh, Byung-Doh, and William Schuler. 2022. ‘Entropy- and Distance-Based Predictors From GPT-2 Attention Patterns Predict Reading Times Over and Above GPT-2 Surprisal’. arXiv. https://doi.org/10.48550/arXiv.2212.11185.
Runco, Mark A., and Garret J. Jaeger. 2012. ‘The Standard Definition of Creativity’. Creativity Research Journal 24 (1): 92–96. https://doi.org/10.1080/10400419.2012.650092.
Weinstein, Theresa J., Simon Majed Ceh, Christoph Meinel, and Mathias Benedek. 2022. ‘What’s Creative About Sentences? A Computational Approach to Assessing Creativity in a Sentence Generation Task’. Creativity Research Journal 34 (4): 419–30. https://doi.org/10.1080/10400419.2022.2124777.
From September 3 to 5, 2024, the Digital History Working Group at Bielefeld University welcomed participants to the Digital Academy, dealing with the topic of “Language Models in Digital Humanities Research” this year. During the workshop, they delved into and discussed challenges and opportunities that arise with using language models in the humanities. Three of the participants of this virtual event reflect on the Digital Academy 2024 and share their experiences working with language models in their own research projects.
Learning to Think Like the Past. Applicability of LLMs in the Analysis of Historical Sources
by Olga Maksymiuk-Młynarczyk
GenAI in the Humanities – Why Not? The remarkable capabilities of large language models (LLMs) to generate textual and visual content, exemplified by the widely-known ChatGPT (OpenAI 2023), played a significant role in AI being named the Word of the Year 2023 (Collins 2024). Over recent years, innovative NLP and NLU methods have been enthusiastically embraced within the fields of Digital Humanities and Digital History. However, the rapid development of generative AI appears to have gone largely unexamined in our disciplines. While a few studies have begun to theorize the impact of this new technology on the Humanities (Kansteiner 2022) or present preliminary experiments with it (Garcia and Weilbach 2023), the topic remains largely underexplored.
With this reflection in mind, I set out to investigate how the generative capabilities of LLMs can be utilized in historical research. In particular, I aimed to understand how these models could assist us in analyzing large corpora of historical sources. This research ultimately culminated in my master’s thesis, which I was pleased to present during the 2024 Digital Academy hosted by Bielefeld University.
A RAG-Based Solution
First, the study provided a thorough examination of the underlying technological framework, the known limitations of LLMs, and the principles of (digital) historical hermeneutics, aiming to identify potential use cases and associated challenges specific to historical studies. Secondly, the work detailed the findings of a digital case study that employed an LLM-based application with retrieval-augmented generation (RAG) (Lewis et al. 2023) to analyze the first (1779/80) and the twelfth (1830) editions of Johann Friedrich Blumenbach’s Handbuch der Naturgeschichte.
The concept behind RAG is relatively straightforward. Pre-trained word embeddings identify sections of the historical source that are semantically closest to the topic posed in the model’s query. These segments are then “retrieved” from the corpus and incorporated into the prompt, facilitating “augmented generation.” As a result, the model’s responses are informed by specific portions of the historical document, thereby ensuring academic integrity, transparency, and reducing the risk of hallucinations.
Poster with visualization for the Digital Academy 2024; Graphic generated by DALL-E, Prompt: “An abstract image of language models in the digital humanities”.
Prompt Engineering and the Limits of AI
Given the impressive capabilities of LLMs, it is not surprising that the RAG-based model performed analytical and interpretive tasks at nearly human levels. However, the idea was to aim for a near historian level. This challenge required prompt engineering – an artful approach to prompting the model for optimal results (in this case, to emulate a historian’s reasoning), with techniques such as generated knowledge, role-prompting, and last but not least, providing the model with very precise instruction. Overall, the study demonstrated that generative LLMs with RAG and prompt engineering can facilitate historians’ work by conducting small-scale analyses on selected aspects of historical sources. However, this is contingent upon skilled guidance from researchers who possess a deep understanding of both their field and the limitations of AI.
Digital Academy 2024: Exchange and Consolidation
The Digital Academy brought together young researchers from diverse projects, and we discovered that we all faced similar challenges and uncertainties regarding LLMs. My research underscored the crucial roles of data preprocessing, hyperparameter selection, and prompt engineering. The lack of established best practices, restricted access to certain models, high computational demands, and the ambiguous reproducibility of results were common obstacles that we all encountered. Other participants’ contributions made me more aware of further challenges associated with LLMs such as privacy and authorship, which could pose significant concerns depending on the nature of the project. Overall, the Academy provided an invaluable platform for exchanging ideas with fellow Digital Humanists focused on LLMs. It was enriching and inspiring to connect with a remarkable group of emerging researchers, each engaging with LLMs in distinct yet innovative ways
Biographical Note
Olga Maksymiuk-Młynarczyk has completed her Bachelor’s Degree at the University College London and her Master’s Degree at Humboldt University of Berlin, specializing in Digital History. She currently works as a data engineer.
References
“Word of the Year”, Collins. Accessed 11.06.2024. https://www.collinsdictionary.com/woty.
Blumenbach, Johann Friedrich. Handbuch der Naturgeschichte. Vol. 1. Göttingen, 1779. In Deutsches Textarchiv. Accessed on 31.10.2023. https://www.deutschestextarchiv.de/blumenbach_naturgeschichte_1779.
Blumenbach, Johann Friedrich. Handbuch der Naturgeschichte. Vol. 2. Göttingen, 1780. In Deutsches Textarchiv. Accessed on 31.10.2023. https://www.deutschestextarchiv.de/blumenbach_naturgeschichte_1780.
Blumenbach, Johann Friedrich. Handbuch der Naturgeschichte. 12th Edition, Göttingen, 1830. In Deutsches Textarchiv. Accessed on 12.04.2023. https://www.deutschestextarchiv.de/blumenbach_naturgeschichte_1830.
Garcia, Giselle Gonzalez, and Christian Weilbach. “If the Sources Could Talk: Evaluating Large Language Models for Research Assistance in History.” arXiv, October 16, 2023. https://arxiv.org/abs/2310.10808.
Kansteiner, Wulf. “Digital Doping for Historians: Can History, Memory, and Historical Theory Be Rendered Artificially InTELligent?” History and Theory 61, no. 4 (2022): 119–33. https://doi.org/10.1111/hith.12282.
Lewis, Patrick, Ethan Perez, Aleksandra Piktus, Fabio Petroni, Vladimir Karpukhin, Naman Goyal, Heinrich Küttler, et al. “Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks.” arXiv, April 12, 2021. https://arxiv.org/abs/2005.11401.
From September 3 to 5, 2024, the Digital History Working Group at Bielefeld University welcomed participants to the Digital Academy, dealing with the topic of “Language Models in Digital Humanities Research” this year. During the workshop, they delved into and discussed challenges and opportunities that arise with using language models in the humanities. Three of the participants of this virtual event reflect on the Digital Academy 2024 and share their experiences working with language models in their own research projects.
Digital Windows into Post-World War II Italy: Analyzing the “Foggia Occupator” through AI Lens
by Michele Ciletti
As I delved into the yellowed pages of the “Foggia Occupator”, I found myself face-to-face with a fascinating snapshot of post-war Italy. The research I presented during the 2024 Digital Academy focuses on this English newspaper published between 1945 and 1946, during the American occupation of Foggia (Berardi 2022). The publication offers an extraordinary window into a unique historical moment when American forces and Italian citizens navigated a complex period of coexistence in this Southern Italian city.
The story of the “Foggia Occupator” begins in September 1943, when American forces entered a Foggia devastated by bombing raids: as it was a crucial strategic location to coordinate air operations and move supplies into Southern Italy, the city was targeted relentlessly and almost destroyed. As the city surrendered, Italians found themselves living next door to their enemies, who had no intention to cause any more destruction, but only to take control of the local institutions and start living “normal” lives. What makes the occupation particularly interesting is how it was self-documented through this weekly publication: the newspaper, written and distributed by the American soldiers themselves, covered everything from international politics to local baseball games, creating a rich tapestry of daily life in occupied Foggia. Today, we have preserved 22 issues spanning from December 1945 to August 1946 – a precious historical record that had never been systematically analyzed before.
Visualization for the Digital Academy 2024; Graphic generated by DALL-E, Prompt: “An abstract image of language models in the digital humanities”.
My approach to this material leveraged artificial intelligence technologies, particularly Large Language Models (LLMs), to expedite and refine the methodological aspects. After digitizing the newspapers through Optical Character Recognition (OCR) technology, I used LLMs to systematically correct any errors. This approach yielded better results than performing OCR directly through LLMs due to considerations of cost, time requirements, and context length limitations. Additionally, it achieved superior output quality compared to traditional correction methods, primarily due to LLMs’ ability to understand context and respond to precise instructions. The next step involved conducting a detailed content analysis through topic modelling and network analysis, mapping the power dynamics in Foggia and the portrayals of different historical events. Identifying recurring themes and tracing connections that might have escaped traditional historical analysis was the final goal.
The preliminary results painted a vivid picture of life in occupied Foggia: for example, the newspaper extensively covered the momentous political changes of 1946, particularly Italy’s transition from monarchy to republic. Apart from historical events, what truly captured my attention were the stories of everyday interactions between Americans and Italians: while there is something deeply moving about reading accounts of American soldiers dressed as Santa Claus distributing gifts to Italian children, or announcements of marriages between American servicemen and local women, there was no shortage of reports on fights, protests and tensions between the two cohabitating groups.
The feedback I received during the 2024 Digital Academy, coupled with reflections arising from other participants’ works, made me decide to further integrate LLMs into my research, moving beyond simple correction tasks towards a complete analysis. In the next few months, I will be working with LLMs on extracting entities more accurately, implementing Retrieval-Augmented Generation (Lewis et al. 2020) to my article database, enriching metadata and possibly even more.
Looking ahead more broadly, I also intend to work on developing a comprehensive digital edition of the “Foggia Occupator” that will make this historical resource accessible to researchers worldwide. The digital format will allow for interactive exploration of the connections and themes I have identified through my analysis. Additionally, I am designing educational modules that will use this material to help students engage with post-war history through digital storytelling techniques.
Uncovering new layers of meaning in historical documents and making them more accessible to both scholars and the public is, in my view, one of the core objectives Digital Humanities scholars can pursue. The “Foggia Occupator” is more than just a newspaper – it is a testament to a crucial period of cultural exchange and social transformation in post-war Italy. Continuing to unlock its stories through LLMs is an endeavor I am looking forward to, particularly as technological developments expand our analytical capabilities.
As Buchanan (2008) noted in his work on American representations of Italianness during the occupation, these interactions left lasting impressions in various artistic and textual products, but also in the cultural identity of the entire region, with old and new narratives still shaping the collective imaginaries. The “Foggia Occupator” stands as one of the most comprehensive records of this fascinating period, and through digital analysis, we can continue to uncover new insights into crucial chapters of global history.
Biographical Note
Michele Ciletti has completed his Bachelor’s degree in Literature and Digital Culture at the University of Foggia. He currently is in the Master’s programme and works as a research assistant in the field of Digital Humanities.
References
Berardi, Gabriella. “Biblioteca digitale e studi storici locali: il progetto della Magna Capitana di Foggia.” DigItalia 17, no. 1 (2022): 203–212.
Buchanan, Andrew. “‘Good Morning, Pupil!’ American Representations of Italianness and the Occupation of Italy, 1943-1945.” Journal of Contemporary History 43, no. 2 (2008): 217–240. https://doi.org/10.1177/0022009408089030.
Lewis, Patrick, Ethan Perez, Aleksandra Piktus, Fabio Petroni, Vladimir Karpukhin, Naman Goyal, Heinrich Küttler, Mike Lewis, Wen-tau Yih, Tim Rocktäschel, Sebastian Riedel, and Douwe Kiela. “Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks.” Advances in Neural Information Processing Systems 33 (2020): 9459–9474.
Wir alle kennen sie: Romane, Computer- und Brettspiele, Film- und Fernsehproduktionen und natürlich auch die klassischen Publikationsorgane der Geschichtswissenschaften. Sie erreichen unterschiedliche Publika und prägen auf diese Art die Geschichtsbilder in der Gesellschaft. Was zunächst allgegenwärtig und damit normal für uns alle scheint, nämlich das vielerlei Akteur*innen irgendwie Geschichte schreiben, machen, formen, darstellen, ausstellen, visualisieren, hinterfragen usw., wurde auf dem Jubiläumsworkshop anlässlich des 30-jährigen Bestehens des Arbeitskreises Geschichte & Theorie vom 27. bis 29. März 2025 ins inhaltliche Zentrum gerückt. Mit dem Ziel Annahmen über die jeweils ‚anderen‘ Akteur*innen der Geschichts- und Wissensproduktion aufzubrechen und das Verständnis des Geschichtemachens zu vertiefen, richtete sich die Fragestellung ganz grundlegend darauf, wie Geschichte hervorgebracht und erzählt wird.
Hierfür legten die Organisatorinnen einen praxeologisch befüllten Rucksack an Fragestellungen und Ordnungskriterien als point of departure für die Diskussionen bereit, um die unterschiedlichen Beitragenden zu organisieren: Eintauchen, Recherchieren, Skalieren, Arrangieren, Spekulieren, Adressieren und Kollaborieren. Auf diese Weise brachte die klug gewählte Panelorganisation die ganz unterschiedlichen Arbeitswelten von geschichtenden zusammen. Das Verb des geschichtens als performativer Akt ist ein veranstaltungsspezifischer Terminus, um geschichtsproduzierende Akteurinnen und ihr tun losgelöst von ihrer (wissenschaftlichen) Profession semantisch zu greifen. Die Tagungsorganisatorinnen knüpften damit an das theoretische Konzept des Zeitens (Norbert Elias) an. Für sie deutet die Tätigkeit des geschichtens die komplexe Dynamik zwischen verschiedenen Praktiken an, die erst im Zusammenwirken Geschichte hervorbringen. Frank Hillebrandt würde dies wohl wahrscheinlich als Praxisformation bezeichnen.1 Die semantische Einführung geschichtender Akteurinnen machte in ihrer Allgemeinheit von Beginn an Sinn: Teilnehmende kamen aus den Feldern Archäologie, Anthropologie, aus der Belletristik, aus Beratungseinrichtungen für Autor*innen, dem Filmwesen und der Regie, aus den Geschichts- und Literaturwissenschaften, der Kunst, der Kuration von musealen oder künstlerischen Ausstellungen oder der Philosophie.
Sie als geschichtende brachten auf ganz unterschiedliche Art und Weise geschichtswissenschaftliche Inhalte in den geschichtskulturellen Raum ein. Nach kurzen Impulsen (beispielsweise Vorträgen, Filmvorführungen oder Spielsimulationen) eröffnete sich ein Gesprächsangebot, dass sich fernab von historischen Themen, historiographischen Debatten oder hierarchischen Strukturen entspann. Vielmehr konnte über die Praktiken an sich direkt an der Wurzel des eigenen Tuns angesetzt werden, sie waren Dreh- und Angelpunkte für die Diskussionen; Akteurinnen begegneten sich gerade deshalb auf Augenhöhe, sie vermochten dort Nähe zwischen den geschichtenden herzustellen, wo sie zunächst wenig vermutet wurde. So wurde bereits zu Beginn deutlich, dass das Recherchieren eine grundlegende Operation des geschichtens für die Hermeneutik der Geschichtswissenschaft, Filmdisziplin und Service- und Beratungsangebote für Autorinnen von Romanen ist; wie im Übrigen alle weiteren oben genannten Praktiken für alle anderen Felder des geschichtens. Abweichungen wurden erst dann deutlich, wenn sich die Medien und Formate der Geschichtsdarstellungen sowie Zielgruppen voneinander unterschieden. Der praxeologische Zugriff diente metaphorisch gesprochen der Erkenntnis. Ziel war es, das Boot derjenigen, die Geschichte machen, deutlich zu vergrößern. Die Sitzplatzwahl zeigt dabei auf, mit welchen Anliegen, Erwartungen, Zielen und Fragestellungen welche Publika adressiert werden. Dies wurde umso mehr unterstrichen als die Teilnehmerinnen selbst durch das Wahrnehmen von Sequenzen prämierter genauso wie noch im Entstehen befindlicher Filmarbeiten (u.a. Jürgen Ast, Berlin; Regina Schilling, Köln) sowie einer künstlerischen lecture performance von Jagrut Raval (visual artist, Hamburg) mit allen Sinnen zu Adressatinnen wurden.
Während diese wichtige Einsicht die gesamte Tagung überdauerte, so zeichnete sich gleichermaßen ab, dass konsensuale Ergebnisse der Panels auf dieser Basis nur schwer möglich waren. Auch waren sich die Abschlussdiskutant*innen einig darüber, dass die Gleichzeitigkeit der Praktiken künftig noch stärker reflektiert werden müsse und das Spektrum der Praktiken des geschichtens, die sich in diesen hermeneutischen Zirkel historischer Wissensproduktion einreihten, erweitert werden müsse.
Inwiefern KI-Systeme für das Geschichtemachen eine Rolle spielen, wurde in drei Beiträgen auf ganz unterschiedliche Art adressiert: Während im bereits erwähnten Panel zum Recherchieren Christian Götter (Historiker, Braunschweig) den Nutzen von KI als Werkzeug und digitales Recherchemittel für Lehrende wie auch Lernende an Universitäten hervorhob, so thematisierten die Beiträge der Filmemacherinnen Moritz Riesewieck, Cosima Terrasse und Hans Block (Laokoon, alle Berlin) wie auch mein eigener Beitrag zum digitalen Logbuch im Rahmen des Panels über das Adressieren die Möglichkeiten, aber besonders auch die Schattenseiten von KI-Anwendungen in Bezug auf Lebenswelten von Menschen wie z.B. Lernsettings von Schülerinnen. Mein eigener Beitrag betonte angesichts von narrativierenden KI-Systemen und ihrer Nutzung für Lernkontexte die Dringlichkeit, Schüler*innen in ihrer digitalen Methodenkompetenz zu unterstützen.2 Gerade dafür braucht es digitale Bildungsformate, die die Lernenden in den Prozess der (historischen) Wissens- und Sinnbildung hinsichtlich einer Sach-, Urteils- und Methodenkompetenz stärken.
„Wo Du mich findest. Eine immersive Spurensuche“ (2022) und der preisausgezeichnete Dokumentarfilm „Eternal You. Vom Ende der Endlichkeit“ (2024, aktuell verfügbar in der Arte-Mediathek) hingegen betrachtete die Auswirkungen von KI-Systemen auf existenzielle Fragen der Menschheit. Wie umgehen mit dem Verlust eines geliebten Menschen? In der ersten Filmsequenz zeigte das Filmtrio beispielhaft, wie Stimme und Art des Sprechens einer verschwundenen Person in deren Wohnung (auf Basis von Chatverläufen) simuliert wird, um in dialogischer Form mit Dritten die Umstände ihres Verschwindens zu rekonstruieren. Die zweite Filmpräsentation widmete sich dem neuesten Objekt der Begierde der Computerindustrie: die menschliche Sterblichkeit oder besser die vermeintlich digitale Unsterblichkeit von Menschen. Damit suchen die Filmemacherinnen einen Zugang zu den Beweggründen von Sterbenden, Angehörigen und Gründerinnen, die eine digitale Existenz ihrer selbst und von Verstorbenen anstreben, indem das Abschiednehmen durch KI-betriebene Chatsysteme verlängert oder zumindest durch eine fortwährende Kommunikation hinausgezögert wird. Die Stille und Betroffenheit nach den Filmpräsentationen bis zur einsetzenden Diskussion mit Mortiz Riesewieck machte wohl eins deutlich: die Allgegenwärtigkeit von KI-Systemen und Strahlkraft in die unterschiedlichsten Lebensbereiche hinein. Während ich die filmerischen Beiträge sah, habe ich mich gefragt, wie es dazu kommt, dass Menschen ein so großes Vertrauen zu KI aufbauen, ihre eigene Existenz an sie binden und schon fast einer ‚KI-Gläubigkeit‘ verfallen, wie sie auch in den Filmen dargestellt wurde. Viel zu oft wird in den Diskussionen um KI vernachlässigt, dass diese Systeme schlichte Reproduktionen von Daten sind, die jedes Mal erneut Wörter auf Basis von Wahrscheinlichkeiten zu einem Text (oder besser Potpourri) zusammengesetzt werden. Zweifelsohne erlauben Chatbots Interaktionen mit den Modellen in der eigenen Sprache und öffnen auf diese Weise interessierten Nutzer*innen elegant Tür und Tor. Und ja, auch die dahinterliegenden Daten der KI-Systeme erhalten eine neue Repräsentationsart. Was ist aber, wenn diese nicht angemessen analysiert und eingeordnet werden können? Was ist, wenn KI-generierte Ergebnisse, wie in den Beiträgen vielleicht auch sehr drastisch gezeigt, für bare Münze genommen werden und Menschen sich wirklich an KI-betriebenen Co- oder Post-Existenzen klammern?
Das zu ergründen wären Aufgaben für andere Felder: Die Soziologie hätte sicherlich viel Freude sich daran abzuarbeiten. Wofür jedoch die Geschichtswissenschaft eintreten kann – und dies bereits mit Plädoyers aus der Digital History tut – ist, dass die Methodenkompetenzen um solche hinsichtlich einer Data Literacy erweitert werden müssen. Ohne systematisierende hermeneutische und propädeutische Kenntnisse, mit denen die Bedingungen, Ergebnisse und Auswirkungen digitaler Anwendungen und (angesichts der aktuellen Dringlichkeit) von KI-Systemen interpretiert und gedeutet werden können, bleibt es womöglich bei einem naiven Vertrauen in die Heilsversprechen von KI für das Geschichtemachen und womöglich auch weitere Lebensbereiche. Wenn eine Durchdringung der Gesellschaft und Wissenschaft von KI-Systemen unvermeidbar ist, dann braucht es umso mehr ein kritisches Verständnis auf Seiten ihrer Nutzer*innen.
Vgl. für Bedrohung durch KI Richardson-Walden 2024. ↩︎
Literatur
Brandau, Daniel. 2024. „Politische Algorithmen? Intelligenz und historisches Lernen.“ In Historisch-politische Bildung im Diskurs: Perspektiven der Geschichtsdidaktik, hrsg. von Jörg van Norden und Lale Yildirim, 194–214. Wochenschau Geschichte Band 5. Frankfurt/M. Wochenschau.
Fickers, Andreas. 2014. „Der ultimative Klick? Digital Humanities, Online-Archive und die Arbeit des Historikers im digitalen Zeitalter.“ Forum für Politik, Gesellschaft und Kultur in Luxemburg 337. https://orbilu.uni.lu/handle/10993/21285.
Fickers, Andreas. 2020. „Update für die Hermeneutik. Geschichtswissenschaft auf dem Weg zur digitalen Forensik?“. Zeithistorische Forschungen/Studies in Contemporary History 17:157–68. https://doi.org/10.14765/ZZF.DOK-1765.
Hartung, Olaf. 2024. „Historisches Lernen in einer ‚(Geschichts-)Kultur der Digitalität‘?“. In Hartung, Krebs, and Meyer-Hamme 2024, 131-146.
Hartung, Olaf, Alexandra Krebs und Johannes Meyer-Hamme, Hrsg. 2024. Geschichtskulturen im digitalen Wandel? Wochenschau Geschichte. Frankfurt/M. Wochenschau Verlag. https://ebookcentral.proquest.com/lib/kxp/detail.action?docID=31611820.
Mierwald, Marcel. 2024. „Historisches Denken 2.0: Benötigen wir neue (digitale) (Methoden-)Kompetenzen?“. In Hartung, Krebs, and Meyer-Hamme 2024, 147–68.
Richardson-Walden, Victoria-Grace. 2024. „Landecker Digital Memory Lab.“ Zugriff am 29. Januar 2025. https://www.alfredlandecker.org/de/article/launch-landecker-digital-memory-lab.