Von der Fragestellung zur Konkordanz

Willkommen in der spannenden Welt der Korpuslinguistik! Dieses Tutorial unterscheidet sich ein wenig von den anderen in dieser Reihe: Während die anderen Tutorials sich jeweils einem Teilaspekt des empirischen Arbeitens in der Linguistik widmen, wollen wir uns in diesem Tutorial an einem konkreten Beispiel anschauen, wie eine Korpusstudie funktioniert. Dabei bedienen wir uns des Handwerkszeugs, das in den anderen Tutorials teilweise detaillierter dargestellt wird. Deshalb überschneidet sich dieses Tutorial auch teilweise mit den anderen Tutorials. Es basiert zu großen Teilen auf einem älteren Tutorial von Stefan Hartmann, das hier zu finden ist.

Treppen

Ein Korpus (Plural: Korpora) ist eine Sammlung authentischer Sprachdaten. Meist handelt es sich dabei um Textdaten, manchmal aber auch um Audio- und/oder Videodaten, z.B. bei Korpora, die gesprochene Sprache oder Gebärdensprache dokumentieren. Dabei gehen die Definitionen, was als Korpus gelten kann und was nicht, teilweise ein wenig auseinander. Für einige Korpuslinguist*innen können nur maschinenlesbare Sammlungen als Korpora gelten, für andere wiederum kann schon ein Stapel gedruckter Zeitungen oder Manuskripte, die man systematisch durcharbeitet, ein Korpus sein. Ein Korpus kann man selbst zusammenstellen, etwa aus Webdaten, man kann aber auch mit existierenden Korpora arbeiten, was in den meisten Fällen die einfachere und oft auch die sinnvollere Vorgehensweise ist. Ein eigenes Korpus zu erstellen, ist dann sinnvoll, wenn man z.B. eine bestimmte Sprachvarietät untersuchen möchte, für die es noch kein Korpus gibt. Hier wollen wir uns auf die Arbeit mit bereits existierenden Korpora beschränken.

Sie erfahren hier, wie Sie eigene Korpusrecherchen (z.B. für eine konkrete Aufabe in einem Seminar, eine Hausarbeit oder eine Abschlussarbeit) durchführen können. Wenn Sie bislang noch keine praktische Erfahrung mit korpuslinguistischen Methoden sammeln konnten, seien Sie unbesorgt:

In diesen Tutorials gelangen Sie Schritt für Schritt von der Fragestellung über die Datengewinnung bis hin zur Analyse der Daten.

Für Ihren Weg durch die Welt des empirischen Arbeitens brauchen Sie nicht viel Rüstzeug. Ein paar Dinge sind aber unerlässlich.

Stellen Sie deshalb jetzt schon sicher, dass Sie Zugriff auf die folgenden Ressourcen und Programme haben:

  • Das Kernkorpus des 20. Jahrhunderts des Digitalen Wörterbuchs der Deutschen Sprache (DWDS), das Sie über dwds.de finden können.
  • Ein Tabellenkalkulationsprogramm, wobei Sie entweder Microsoft Excel oder die kostenlose Alternative LibreOffice Calc nutzen können. Es genügt, wenn Sie eines der beiden Programme verwenden. Wählen Sie auf Ihrem Weg dann jeweils die Abzweigung, die für Ihr Programm gedacht ist.

In diesem Tutorial werden wir an zahlreichen Stellen vieles vereinfachen. Für das letztliche Ziel einer konkreten, eigenen Korpusstudie werden Sie daher wahrscheinlich nicht umhinkommen, sich an der einen oder anderen Stelle tiefer einzuarbeiten. Dafür verweisen wir im Text gelegentlich auf weiterführende Ressourcen. Auf der Startseite sind auch einige weiterführende Tutorials verlinkt, von denen sich einige spezifisch mit Korpuslinguistik beschäftigen.

Weiter