| Dateiname | Link | Titel | Datum | Autor |
|---|---|---|---|---|
| 2025_11_05_diplomaten.txt | https://netzpolitik.org/2025/drahtbericht-deutsche-diplomaten-fordern-undiplomatisch-chatkontrolle/ | Drahtbericht: Deutsche Diplomaten fordern undiplomatisch Chatkontrolle | 05. November 2025, 18:44 Uhr | Andre Meister |
| 2025_11_28-faq.txt | https://netzpolitik.org/2025/faq-wie-geht-es-weiter-mit-der-chatkontrolle/ | FAQ: Wie geht es weiter mit der Chatkontrolle? | 28. November 2025, 17:10 Uhr | Andre Meister, Anna Biselli, Markus Reuter |
| 2025_10_04_fragen.txt | https://netzpolitik.org/2025/fragen-und-antworten-warum-ist-chatkontrolle-so-gefaehrlich-fuer-uns-alle/ | Fragen und Antworten : Warum ist Chatkontrolle so gefährlich für uns alle? | 04. Oktober 2025, 12:16 Uhr | Markus Reuter |
| … | … | … | … | … |
5 Ein eigenes Korpus erstellen: Quick & Dirty
Im Folgenden gehen wir zunächst den “Quick&Dirty”-Weg, der sich allerdings nur für kleinere Datenmengen anbietet und relativ viel Fleißarbeit mit sich bringt. Hierbei übertragen wir die Daten manuell per Copy&Paste.
Da wir in unsere Analyse Artikel einbeziehen wollen, in denen es um das Thema Chatkontrolle geht, nutzen wir zunächst die Suchfunktion, um entsprechende Artikel zu finden.

Erwartungsgemäß finden wir eine recht stattliche Menge an Ergebnissen. Alle 493 Artikel manuell zu copy&pasten, wäre kaum möglich (automatisiert ist das hingegen kein Problem, dazu mehr im Advanced-Teil). Deshalb beschränken wir uns zunächst auf die ersten 20 Artikel. Je nach Fragestellung kann es aber auch sinnvoll sein, zunächst z.B. anhand der Überschriften nach den einschlägigsten Artikeln zu suchen und darauf aufbauend eine Auswahl zu treffen.
Um mit den Texten korpuslinguistisch weiterarbeiten zu können, ist es sinnvoll, sie zunächst offline zu speichern. Das geht beispielsweise, indem man sie in ein Textdokument kopiert. Ich empfehle, hier mit einem Texteditor wie Notepad++ oder BBEdit zu arbeiten und die Texte im Rohtextformat .txt zu speichern. Grundsätzlich wäre es zwar auch möglich, Texte z.B. in Word zu kopieren und dort damit weiterzuarbeiten, aber das Rohtextformat bringt für die weitere Verarbeitung eine Reihe von Vorteilen mit sich, während Word automatische Formatierungen usw. anwendet, die für die weitere Prozessierung der Daten hinderlich sein können.
Kopieren und einfügen ist denkbar einfach, vor allem, wenn man die entsprechenden Tastenkombinationen kennt: Steuerung + C fürs Kopieren, Steuerung + C fürs Einfügen (bei Mac: Command + C bzw. Command + V). Figure 5.1 zeigt, wie das geht.
Mit Strg+S können wir die Datei dann speichern. Am besten legen wir alle Dateien in einem Ordner ab. Anschließend bietet es sich an, den Text manuell nachzubearbeiten: Wenn wir mit Strg+A alles ausgewählt und in eine Textdatei kopiert haben, ist darin oft auch viel sog. Boilerplate-Text enthalten. Boilerplate-Text ist Text, der auf jeder Seite erscheint - etwa das, was wir in Figure 5.1 nach dem Einfügen in den Texteditor ganz unten sehen:
Unterstützen
Spenden ❤️
Spendenservice
Merch-ShopDie von uns verfassten Inhalte stehen, soweit nicht anders vermerkt, unter der Lizenz Creative Commons BY-NC-SA 4.0.
Zudem ist es im Sinne der Reproduzierbarkeit (d.h. andere Forschende sollen in die Lage versetzt werden, unsere Forschung nachzuvollziehen und zu überprüfen) wichtig, den Prozess der Korpuserstellung möglichst gut zu dokumentieren. Daher ist es sinnvoll, Metadaten zu den einzelnen Texten zu dokumentieren. Das kann beispielsweise in einem eigenen Spreadsheet erfolgen – was auch den Vorteil hat, dass wir dieses Spreadsheet anschließend problemlos veröffentlichen können, auch wenn wir vielleicht die Korpustexte selbst aus urheberrechtlichen Gründen nicht weitergeben sollen. Das Sheet könnte dann etwa so aussehen:
Für unsere Forschungsfrage – welche konzeptuellen Metaphern werden in Zusammenhang mit der Chatkontrolle verwendet? – ist es nun wichtig, die entsprechenden Metaphern im Text zu identifizieren. Konzeptuelle Metaphern sind Übertragungen von einer (oft konkreten) Quelldomäne auf eine (oft abstrakte) Zieldomäne, etwa ZEIT IST RAUM: ein Treffen nach hinten verschieben, Weihnachten naht. Metaphern sind in der Alltagssprache allgegenwärtig. Für die Operationalisierung unserer Forschungsfrage ist es daher wichtig, zunächst zu entscheiden, welche Metaphern wir identifizieren und annotieren möchten. Alle Metaphern in unseren Texten einzubeziehen, wäre wenig zielführend, da wir ja spezifisch herausfinden wollen, wie das Konzept “Chatkontrolle” metaphorisch konzeptualisiert wird (denkbare Konzeptualisierungen wären so etwas wie Einfallstor für staatliche Überwachung oder tickende Zeitbombe einerseits, Schutzwall gegen Kindesmissbrauch andererseits). Daher scheint es sinnvoll, sich auf solche Fälle metaphorischen Sprachgebrauchs zu konzentrieren, bei denen “Chatkontrolle” oder zumindest ein unmittelbar damit verbundenes Konzept die Zieldomäne darstellt.
Die Identifikation von Metaphern ist alles andere als trivial, allerdings kann man sich hier auf umfangreiche schon existierende Forschung stützen. In der Metaphernforschung besonders etabliert zur Identifikation von Metaphern in korpuslinguistischen Kontexten ist das MIPVU-Verfahren, das folgende Schritte vorsieht Steen et al. (2010):
- Read the text to get a general understanding of the meaning
- Determine the lexical units
- a. Establish the contextual meaning of the unit b. Determine if it has a more basic meaning. Does the contextual meaning contrast with the basic meaning but can it be understood in comparison with it?
- If yes, mark the unit as metaphorical.
Wir können das Verfahren nun auf einen Beispieltext anwenden, von dem hier nur ein kurzer Ausschnitt zitiert wird:
„Wir brauchen einen Ansatz, der Grundrechte schützt statt sie auszuhebeln“, sagt Anja Hoffmann, CEP-Datenschutzexpertin und Ko-Autorin des Papiers. Mit dem hat sich das CEP an der EU-Konsultation beteiligt. Ansätze wie Hintertüren, also spezielle Zugänge für Ermittlungsbehörden zu verschlüsselten Inhalten, seien ungeeignet, führt das Papier aus.
Wir sehen, dass das Verb aushebeln hier nicht in der grundlegenderen Bedeutung “mit einem Werkzeug, einem Hebel, in die Höhe bewegen und aus einer Verankerung, einem festen Standort lösen” (DWDS), verwendet wird. Vielmehr wird hier die Chatkontrolle, die nicht explizit erwähnt wird, von der wir aber aus dem weiteren Kontext erschließen können, dass sie gemeint ist, als Werkzeug konzeptualisiert, mit dem Grundrechte, die ihrerseits als physisches (Sicherungs-)Objekt metaphorisch dargestellt werden, teilweise außer Kraft gesetzt oder zumindest gefährdet werden. Auch das Wort Hintertür wird hier offenkundig metaphorisch verwendet und verweist auf die Konzeptualisierung des digitalen Raums als physischen Raum.
Es bietet sich an, die entsprechenden Textausschnitte und die dazugehörigen Annotationen in einem Spreadsheet zu sammeln. Figure 5.2 zeigt beispielhaft, wie die relevanten Textausschnitte aus einem Texteditor in ein Tabellenkalkulationsprogramm wie Microsoft Excel oder LibreOffice Calc kopiert und mit weiteren Annotationen versehen werden können. Die weiteren Annotationen stehen dabei jeweils in einer eigenen Spalte; die am Ende entstehende Tabelle sieht dann so aus:
| Datei | Textstelle | Metapher | metapher-evozierende sprachliche Einheit | Kommentar |
|---|---|---|---|---|
| Q5lyDSrzId-xE4nh | „Wir brauchen einen Ansatz, der Grundrechte schützt statt sie auszuhebeln“ | Grundrechte als physisches Sicherungsobjekt | aushebeln | NA |
| Q5lyDSrzId-xE4nh | „Wir brauchen einen Ansatz, der Grundrechte schützt statt sie auszuhebeln“ | Chatkontrolle als Werkzeug | aushebeln | NA |
| Q5lyDSrzId-xE4nh | Hintertüren | digitaler Raum als physischer Raum | Hintertür | NA |
Das ist natürlich nur eine von vielen Möglichkeiten für eine sinnvolle Herangehensweise. Wie Sie sehen, enthält die Tabelle folgende Informationen:
Datei: Diese Information ist wichtig, damit Sie die Textstelle der Datei zuordnen können, aus der sie ursprünglich stammt – insbesondere dann, wenn Sie ggf. später noch einmal den weiteren Kontext konsultieren müssen.
Textstelle: Die relevante Textstelle (wo relevant, mit Kontext).
Metapher: Die jeweilige Metapher im Format “Zieldomäne als Quelldomäne” (alternativ könnte man auch auf die in der konzeptuellen Metapherntheorie gängige Schreibwiese ZIELDOMÄNE IST QUELLDOMÄNE zurückgreifen)
metapherevozierende sprachliche Einheit: hier wird das Lemma (also die Grundform) der sprachlichen Einheit vermerkt, durch die die Metapher evoziert wird. In den Beispielen hier sind das Verben und Substantive, in einigen Fällen können es aber auch andere, auch größere Einheiten wie idiomatische Wendungen etc. sein
Kommentar: Erfahrungsgemäß ist es oft sinnvoll, eine Kommentarspalte zu haben, in der besondere Beobachtungen, Zweifelsfälle, Unklarheiten etc. vermerkt werden können – insbesondere dann, wenn die Annotation noch “work in progress” ist und noch nicht alle Annotationsentscheidungen final getroffen worden sind, denn dann kann man später noch einmal als unklar markierte Fälle auf Konsistenz überprpüfen.
Wenn man eine ausreichende Zahl an Metaphern findet, kann man auch eine kleine quantitative Auswertung vornehmen – weiterführende Hinweise dazu finden sich z.B. in diesem Tutorial. Zugleich bietet diese Herangehensweise eine gute Möglichkeit, mit der so erstellten, systematisch kuratierten Liste an Metaphern qualitativ weiterzuarbeiten. Schon aus den ganz wenigen Beispielen in der obigen Beispieltabelle lassen sich einige erste Tendenzen entnehmen, etwa dass digitale Freiheitsrechte mit Metaphern aus dem physischen bzw. räumlichen Bereich veranschaulicht werden und die Chatkontrolle als Werkzeug, welches das Eindringen in sonst private Räume ermöglicht.
Das manuelle Erstellen einer Annotationstabelle via Copy & Paste ist natürlich relativ aufwändig. Annotationstools wie wie in der Advanced-Sektion vorgestellten bieten teilweise recht niedrigschwellig die Möglichkeit zur Annotation im Kontext - die einfachste Option für eine solche eher qualitative Datenanalyse ist derzeit wohl OpenQDA, worauf ich weiter unten noch näher eingehe.