Mini-Tutorial: Ein eigenes Korpus erstellen und annotieren

Per Hand oder mit einfachen Tools

Author

Stefan Hartmann

Published

June 14, 2026

1 Einleitung

In der Korpuslinguistik gibt es eine ganze Reihe von Ressourcen, mit denen wir arbeiten können, wenn wir Fragestellungen korpuslinguistisch angehen wollen. So gibt es für viele gut untersuchte Sprachen Referenzkorpora, und es gibt auch einige frei verfügbare Spezialkorpora zum Sprachgebrauch in bestimmten Kontexten. In vielen Fällen müssen wir aber doch eigene Datensätze zusammenstellen, um unsere Forschungsfragen zu beantworten. Deshalb zeigt dieses Tutorial, wie man möglichst effizient und doch systematisch ein eigenes Korpus zusammenstellen und für die weitere Analyse aufbereiten kann. Dabei orientieren wir uns an einem konkreten Beispiel, um nicht nur die handwerklichen Aspekte zu beleuchten, sondern auch aufzuzeigen, wofür die hier vorgestellten Methoden denn letztlich angewendet werden.

Ich werde im folgenden zwei Wege aufzeigen. Der erste – “Quick & dirty” – funktioniert ohne größere Hilfsmittel; man braucht lediglich einen Texteditor wie Notepad++ für Windows oder BBEdit für Mac (Ersteres ist kostenlos und open source; bei Letzterem genügt die – etwas versteckte – kostenlose Variante völlig). Der zweite – “Advanced” – greift auf fortgeschrittenere Tools zurück, insbesondere auf Trafilatura. Im entsprechenden Abschnitt werden die technischen Voraussetzungen kurz erklärt.