5 Ein eigenes Korpus erstellen: Quick & Dirty

Im Folgenden gehen wir zunächst den “Quick&Dirty”-Weg, der sich allerdings nur für kleinere Datenmengen anbietet und relativ viel Fleißarbeit mit sich bringt. Hierbei übertragen wir die Daten manuell per Copy&Paste.

Da wir in unsere Analyse Artikel einbeziehen wollen, in denen es um das Thema Chatkontrolle geht, nutzen wir zunächst die Suchfunktion, um entsprechende Artikel zu finden.

Screenshot der Suchergebnisse für "Chatkontrolle" auf netzpolitik.org — Screenshot der ersten Suchergebnisse für “Chatkontrolle” auf netzpolitik.org

Erwartungsgemäß finden wir eine recht stattliche Menge an Ergebnissen. Alle 493 Artikel manuell zu copy&pasten, wäre kaum möglich (automatisiert ist das hingegen kein Problem, dazu mehr im Advanced-Teil). Deshalb beschränken wir uns zunächst auf die ersten 20 Artikel. Je nach Fragestellung kann es aber auch sinnvoll sein, zunächst z.B. anhand der Überschriften nach den einschlägigsten Artikeln zu suchen und darauf aufbauend eine Auswahl zu treffen.

Um mit den Texten korpuslinguistisch weiterarbeiten zu können, ist es sinnvoll, sie zunächst offline zu speichern. Das geht beispielsweise, indem man sie in ein Textdokument kopiert. Ich empfehle, hier mit einem Texteditor wie Notepad++ oder BBEdit zu arbeiten und die Texte im Rohtextformat .txt zu speichern. Grundsätzlich wäre es zwar auch möglich, Texte z.B. in Word zu kopieren und dort damit weiterzuarbeiten, aber das Rohtextformat bringt für die weitere Verarbeitung eine Reihe von Vorteilen mit sich, während Word automatische Formatierungen usw. anwendet, die für die weitere Prozessierung der Daten hinderlich sein können.

Kopieren und einfügen ist denkbar einfach, vor allem, wenn man die entsprechenden Tastenkombinationen kennt: Steuerung + C fürs Kopieren, Steuerung + C fürs Einfügen (bei Mac: Command + C bzw. Command + V). Figure 5.1 zeigt, wie das geht.

Dieses animierte GIF zeigt, wie man mit Strg+A, Strg+C, Strg+V Text aus einer Website in einen Texteditor kopiert. — Figure 5.1: Text in Texteditor kopieren

Mit Strg+S können wir die Datei dann speichern. Am besten legen wir alle Dateien in einem Ordner ab. Anschließend bietet es sich an, den Text manuell nachzubearbeiten: Wenn wir mit Strg+A alles ausgewählt und in eine Textdatei kopiert haben, ist darin oft auch viel sog. Boilerplate-Text enthalten. Boilerplate-Text ist Text, der auf jeder Seite erscheint - etwa das, was wir in Figure 5.1 nach dem Einfügen in den Texteditor ganz unten sehen:

Unterstützen

Spenden ❤️
Spendenservice
Merch-Shop

Die von uns verfassten Inhalte stehen, soweit nicht anders vermerkt, unter der Lizenz Creative Commons BY-NC-SA 4.0.

Zudem ist es im Sinne der Reproduzierbarkeit (d.h. andere Forschende sollen in die Lage versetzt werden, unsere Forschung nachzuvollziehen und zu überprüfen) wichtig, den Prozess der Korpuserstellung möglichst gut zu dokumentieren. Daher ist es sinnvoll, Metadaten zu den einzelnen Texten zu dokumentieren. Das kann beispielsweise in einem eigenen Spreadsheet erfolgen – was auch den Vorteil hat, dass wir dieses Spreadsheet anschließend problemlos veröffentlichen können, auch wenn wir vielleicht die Korpustexte selbst aus urheberrechtlichen Gründen nicht weitergeben sollen. Das Sheet könnte dann etwa so aussehen:

Dateiname	Link	Titel	Datum	Autor
2025_11_05_diplomaten.txt	https://netzpolitik.org/2025/drahtbericht-deutsche-diplomaten-fordern-undiplomatisch-chatkontrolle/	Drahtbericht: Deutsche Diplomaten fordern undiplomatisch Chatkontrolle	05. November 2025, 18:44 Uhr	Andre Meister
2025_11_28-faq.txt	https://netzpolitik.org/2025/faq-wie-geht-es-weiter-mit-der-chatkontrolle/	FAQ: Wie geht es weiter mit der Chatkontrolle?	28. November 2025, 17:10 Uhr	Andre Meister, Anna Biselli, Markus Reuter
2025_10_04_fragen.txt	https://netzpolitik.org/2025/fragen-und-antworten-warum-ist-chatkontrolle-so-gefaehrlich-fuer-uns-alle/	Fragen und Antworten : Warum ist Chatkontrolle so gefährlich für uns alle?	04. Oktober 2025, 12:16 Uhr	Markus Reuter
…	…	…	…	…

Für unsere Forschungsfrage – welche konzeptuellen Metaphern werden in Zusammenhang mit der Chatkontrolle verwendet? – ist es nun wichtig, die entsprechenden Metaphern im Text zu identifizieren. Konzeptuelle Metaphern sind Übertragungen von einer (oft konkreten) Quelldomäne auf eine (oft abstrakte) Zieldomäne, etwa ZEIT IST RAUM: ein Treffen nach hinten verschieben, Weihnachten naht. Metaphern sind in der Alltagssprache allgegenwärtig. Für die Operationalisierung unserer Forschungsfrage ist es daher wichtig, zunächst zu entscheiden, welche Metaphern wir identifizieren und annotieren möchten. Alle Metaphern in unseren Texten einzubeziehen, wäre wenig zielführend, da wir ja spezifisch herausfinden wollen, wie das Konzept “Chatkontrolle” metaphorisch konzeptualisiert wird (denkbare Konzeptualisierungen wären so etwas wie Einfallstor für staatliche Überwachung oder tickende Zeitbombe einerseits, Schutzwall gegen Kindesmissbrauch andererseits). Daher scheint es sinnvoll, sich auf solche Fälle metaphorischen Sprachgebrauchs zu konzentrieren, bei denen “Chatkontrolle” oder zumindest ein unmittelbar damit verbundenes Konzept die Zieldomäne darstellt.

Die Identifikation von Metaphern ist alles andere als trivial, allerdings kann man sich hier auf umfangreiche schon existierende Forschung stützen. In der Metaphernforschung besonders etabliert zur Identifikation von Metaphern in korpuslinguistischen Kontexten ist das MIPVU-Verfahren, das folgende Schritte vorsieht Steen et al. (2010):

Read the text to get a general understanding of the meaning

Determine the lexical units

a. Establish the contextual meaning of the unit b. Determine if it has a more basic meaning. Does the contextual meaning contrast with the basic meaning but can it be understood in comparison with it?

If yes, mark the unit as metaphorical.

Wir können das Verfahren nun auf einen Beispieltext anwenden, von dem hier nur ein kurzer Ausschnitt zitiert wird:

„Wir brauchen einen Ansatz, der Grundrechte schützt statt sie auszuhebeln“, sagt Anja Hoffmann, CEP-Datenschutzexpertin und Ko-Autorin des Papiers. Mit dem hat sich das CEP an der EU-Konsultation beteiligt. Ansätze wie Hintertüren, also spezielle Zugänge für Ermittlungsbehörden zu verschlüsselten Inhalten, seien ungeeignet, führt das Papier aus.

Wir sehen, dass das Verb aushebeln hier nicht in der grundlegenderen Bedeutung “mit einem Werkzeug, einem Hebel, in die Höhe bewegen und aus einer Verankerung, einem festen Standort lösen” (DWDS), verwendet wird. Vielmehr wird hier die Chatkontrolle, die nicht explizit erwähnt wird, von der wir aber aus dem weiteren Kontext erschließen können, dass sie gemeint ist, als Werkzeug konzeptualisiert, mit dem Grundrechte, die ihrerseits als physisches (Sicherungs-)Objekt metaphorisch dargestellt werden, teilweise außer Kraft gesetzt oder zumindest gefährdet werden. Auch das Wort Hintertür wird hier offenkundig metaphorisch verwendet und verweist auf die Konzeptualisierung des digitalen Raums als physischen Raum.

Dieses animierte GIF zeigt, wie kurze Textausschnitte aus einem Textverarbeitungsprogramm in ein Tabellenkalkulationsprogramm kopiert und dort mit weiteren Informationen versehen werden. Namentlich werden der Dateiname, die jeweils evozierte Metapher und das metaphernevozierende Element annotiert. Die annotierten Elemente sind diejenigen, die im Fließtext genannt sind. — Figure 5.2: Erstellung einer einfachen Annotationstabelle mit den relevanten Textausschnitten

Es bietet sich an, die entsprechenden Textausschnitte und die dazugehörigen Annotationen in einem Spreadsheet zu sammeln. Figure 5.2 zeigt beispielhaft, wie die relevanten Textausschnitte aus einem Texteditor in ein Tabellenkalkulationsprogramm wie Microsoft Excel oder LibreOffice Calc kopiert und mit weiteren Annotationen versehen werden können. Die weiteren Annotationen stehen dabei jeweils in einer eigenen Spalte; die am Ende entstehende Tabelle sieht dann so aus:

Beispieltabelle
Datei	Textstelle	Metapher	metapher-evozierende sprachliche Einheit	Kommentar
Q5lyDSrzId-xE4nh	„Wir brauchen einen Ansatz, der Grundrechte schützt statt sie auszuhebeln“	Grundrechte als physisches Sicherungsobjekt	aushebeln	NA
Q5lyDSrzId-xE4nh	„Wir brauchen einen Ansatz, der Grundrechte schützt statt sie auszuhebeln“	Chatkontrolle als Werkzeug	aushebeln	NA
Q5lyDSrzId-xE4nh	Hintertüren	digitaler Raum als physischer Raum	Hintertür	NA

Das ist natürlich nur eine von vielen Möglichkeiten für eine sinnvolle Herangehensweise. Wie Sie sehen, enthält die Tabelle folgende Informationen:

Datei: Diese Information ist wichtig, damit Sie die Textstelle der Datei zuordnen können, aus der sie ursprünglich stammt – insbesondere dann, wenn Sie ggf. später noch einmal den weiteren Kontext konsultieren müssen.
Textstelle: Die relevante Textstelle (wo relevant, mit Kontext).
Metapher: Die jeweilige Metapher im Format “Zieldomäne als Quelldomäne” (alternativ könnte man auch auf die in der konzeptuellen Metapherntheorie gängige Schreibwiese ZIELDOMÄNE IST QUELLDOMÄNE zurückgreifen)
metapherevozierende sprachliche Einheit: hier wird das Lemma (also die Grundform) der sprachlichen Einheit vermerkt, durch die die Metapher evoziert wird. In den Beispielen hier sind das Verben und Substantive, in einigen Fällen können es aber auch andere, auch größere Einheiten wie idiomatische Wendungen etc. sein
Kommentar: Erfahrungsgemäß ist es oft sinnvoll, eine Kommentarspalte zu haben, in der besondere Beobachtungen, Zweifelsfälle, Unklarheiten etc. vermerkt werden können – insbesondere dann, wenn die Annotation noch “work in progress” ist und noch nicht alle Annotationsentscheidungen final getroffen worden sind, denn dann kann man später noch einmal als unklar markierte Fälle auf Konsistenz überprpüfen.

Wenn man eine ausreichende Zahl an Metaphern findet, kann man auch eine kleine quantitative Auswertung vornehmen – weiterführende Hinweise dazu finden sich z.B. in diesem Tutorial. Zugleich bietet diese Herangehensweise eine gute Möglichkeit, mit der so erstellten, systematisch kuratierten Liste an Metaphern qualitativ weiterzuarbeiten. Schon aus den ganz wenigen Beispielen in der obigen Beispieltabelle lassen sich einige erste Tendenzen entnehmen, etwa dass digitale Freiheitsrechte mit Metaphern aus dem physischen bzw. räumlichen Bereich veranschaulicht werden und die Chatkontrolle als Werkzeug, welches das Eindringen in sonst private Räume ermöglicht.

Das manuelle Erstellen einer Annotationstabelle via Copy & Paste ist natürlich relativ aufwändig. Annotationstools wie wie in der Advanced-Sektion vorgestellten bieten teilweise recht niedrigschwellig die Möglichkeit zur Annotation im Kontext - die einfachste Option für eine solche eher qualitative Datenanalyse ist derzeit wohl OpenQDA, worauf ich weiter unten noch näher eingehe.