Historische Korpuslinguistik

Willkommen zum Seminar “Historische Korpuslinguistik”! Hier finden Sie die Materialien für das Seminar sowie einige (hoffentlich) nützliche Links.

Wie man dieses Material benutzt

Für die Teilnehmer*innen des Seminars “Historische Korpuslinguistik” an der HHU Düsseldorf: Diese Seite ergänzt unseren gemeinsamen ILIAS-Lernraum und stellt weiterführendes Material zur Verfügung.

Für alle anderen: Diese Seite versammelt zahlreiche Materialien, die für die Beschäftigung mit historischer Korpuslinguistik nützlich sein können. Im Laufe des SoSe 2020 wird sie kontinuierlich ausgebaut und mit Tutorials, Lehrvideos u.v.m. erweitert.

Alle Materialien sind unter einer Creative-Commons-Lizenz frei verfügbar und können gern weiterverbreitet werden, auch in modifizierter Form.

Tutorials

Diese Tutorials stammen zum Teil aus dem Begleitmaterial zu meinem Buch “Deutsche Sprachgeschichte. Grundzüge und Methoden”. An einigen wenigen Stellen wird auf das Buch Bezug genommen; sie sind jedoch so konzipiert, dass man sie unabhängig von dem Buch lesen und benutzen kann.

Schnelleinstieg

Einen Schnelleinstieg ins korpusbasierte Arbeiten am Beispiel von DWDS bietet dieses Tutorial.

Videos

Einführung in die Historische Korpuslinguistik

Einführungsvideo

Grundbegriffe der Korpuslinguistik

Vom Korpus zur Konkordanz

Daten und Software

Historische Korpora des Deutschen

Wie finde ich, was ich suche?

Reguläre Ausdrücke in Aktion

Einfache Korpusrecherchen im DWDS

Korpuslinguistik und Syntax: Baumbanken

Von der Konkordanz zur Analyse

Annotation

Tipps und Tricks für Microsoft Excel und LibreOffice Calc

Vom Korpus zur Konkordanz

Grundlegendes: Software, Datenstrukturen, Encoding und das geheime Leben meines Computers (inklusive Überblick zu den wichtigsten regulären Ausdrücken)
Arbeitsschritte: Vom Korpus zur Konkordanz zur Analyse
Tutorial: ANNIS (Referenzkorpora Altdeutsch, Mittelhochdeutsch, Bonner Frühneuhochdeutschkorpus, …); ergänzend: Tutorial zu einfachen Korpusrecherchen in ANNIS mit Schwerpunkt Datenexport
Tutorial: COSMAS II (Deutsches Referenzkorpus)
Tutorial: Bonner Frühneuhochdeutschkorpus (altes Interface) (R-Skript im Ordner FnhdC auf GitHub)

Außerdem: Wacky-Tutorial

Von der Konkordanz zur Analyse

Tutorial: Tabellen und Grafiken mit Excel und Calc (Material dazu im Ordner Excel_Einstieg auf GitHub)
Tutorial: Schnelleinstieg in R (Material dazu im Ordner R_Einstieg auf GitHub)
Tutorial: R-Paket „concordances“

Software

Im Kurs sowie in den Tutorials werden die folgenden kostenlosen Programme genutzt:

Notepad++ Texteditor (nur Windows). Für Mac empfehle ich BBEdit. Nach Ablauf einer Testphase kann man das Programm mit eingeschränktem Funktionsumfang, der aber für unsere Bedürfnisse voll und ganz ausreicht, unbegrenzt kostenlos nutzen. Für Linux gibt es z.B. Notepadqq. Fortgeschrittene können alternativ oder ergänzend auch auf einen Code-Editor wie Atom oder VSCode zurückgreifen. Für AnfängerInnen rate ich jedoch davon ab, weil die Bedienung z.T. doch deutlich umständlicher ist als bei den o.g. Texteditoren.

R Statistik-Software und Programmiersprache, deren Benutzung in der quantitativen Linguistik mittlerweile zum Standard geworden ist.

RStudio Integrated Developer Environment (kurz: IDE) für R. Wenn Sie R nicht nur mit Hilfe einer Kommandozeile bedienen wollen - was auf die Dauer extrem umständlich ist - ist dieses Programm die derzeit m.E. beste Lösung.

LibreOffice Das LibreOffice-Paket ist eine kostenlose Alternative zu Microsoft Office, wobei insbesondere das Tabellenkalkulationsprogramm Calc einige Pluspunkte gegenüber Excel aufweist, v.a. was den Support von Unicode-Sonderzeichen angeht.

Weitere Programme, die für korpuslinguistisches Arbeiten nützlich sein können, aber in den bislang vorliegenden Tutorials (noch) nicht vorgestellt werden

AntConc Ein einfacher Concordancer für Rohtext-Dateien; ideal geeignet, wenn Sie Ihr erstes eigenes Korpus aus einfachen, unannotierten Texten erstellen.

GATE General Architecture for Text Engineering: Ein sehr praktisches und vergleichsweise einfach zu bedienendes Programm, in dem man Texte in einer grafischen Benutzeroberfläche annotieren kann. Output im XML-Format. Eher für die Korpuserstellung als für die Korpusauswertung relevant; aber es kann nicht schaden, einmal davon gehört zu haben :-)

Korpora (externe Links)

Referenzkorpus Altdeutsch (aka Deutsch Diachron Digital)

Referenzkorpus Mittelhochdeutsch (REM)

Die beiden Referenzkorpora enthalten alle überlieferten Texte des Althochdeutschen und Altsächsischen sowie eine mehr oder weniger repräsentative Auswahl mittelhochdeutscher Texte. REM besteht aus zwei Subkorpora: MiGraKo ist ein ausgewogenes Korpus, das als Grundlage für die Mittelhochdeutsche Grammatik diente; das als REM oder Referenzkorpus Mittelhochdeutsch im engeren Sinne bezeichnete Subkorpus beinhaltet zusätzliche Texte. Die Auwahl zwischen MiGraKo, REM oder “All” (= beide Subkorpora) lässt sich oberhalb der Textauswahl im Fenster unten links treffen.

Die Referenzkorpora werden in absehbarer Zeit ergänzt durch das Referenzkorpus Mittelniederdeutsch und das Referenzkorpus Frühneuhochdeutsch.

Bonner Frühneuhochdeutschkorpus

Ein relativ kleines Korpus fürs Frühneuhochdeutsche, über ANNIS verfügbar. Vorsicht: Einige Annotationsebenen existieren doppelt, einmal im Namespace “default_ns”, einmal im Namespace “anno”. Das führt dazu, dass Resultate doppelt gefunden werden. Um das zu vermeiden, empfiehlt es sich, der Suche die Angabe des Namespace voranzustellen, z.B. default_ns:typ=‎"verb‎".

Deutsches Textarchiv

Diachrones Korpus (ca. 1500-1900) mit ca. 154 Millionen laufenden Wortformen. Wegen der besseren Exportmöglichkeiten empfehle ich, zum Durchsuchen DWDS (s.u.) zu verwenden.

Digitales Wörterbuch der deutschen Sprache

Zugang zu einer ganzen Reihe von Referenz- und Zeitungskorpora, darunter

Deutsches Textarchiv
ZEIT-Korpus
DWDS-Kernkorpus des 20. Jahrhunderts
DWDS-Kernkorpus des 21. Jahrhunderts
Filmuntertitel

und mehr. Hilfe zur Suche gibt es hier. Ein Überblick über die Korpora findet sich hier.

DeReKo / COSMAS II

Das Deutsche Referenzkorpus (DeReKo) ist über die Schnittstelle COSMAS II zugänglich (Registrierung erforderlich). Neben dem umfangreichen W-Archiv enthält es auch getaggte Korpora (TAGGED-C / TAGGED-T), ein Korpus gesprochener Sprache sowie Korpora mit Wikipedia-Artikeln und -Diskussionen. (Einmalige kostenlose Anmeldung erforderlich.)

WaCky - The Web-As-Corpus Kool Yinitiative

Korpus mit Internetdaten, hier frei und ohne Anmeldung zugänglich. (Allerdings hatte das Interface im letzten Jahr einige Bugs, von denen ich nicht weiß, ob sie inzwischen behoben sind. Wenn nicht, können einige - gerade komplexere - Suchanfragen zu Fehlermeldungen führen.)

Corpora from the Web (COW)

Sammlung von Internet-Korpora mit umfangreicher automatischer Annotation. Registrierung notwendig; für Studierende derzeit nicht zugänglich. Da die Korpora aber derzeit breit genutzt werden, sollte man einmal davon gehört haben…

Weitere Links (extern)

Digitales Begleitmaterial zu Hartmann (2018)

Noah Bubenhofer: Einführung in die Korpuslinguistik

Ausführlicher Überblick über reguläre Ausdrücke

LEA: Linguistic Excercises with Annotation Tools - Sammlung von Annotationsaufgaben für Studierende (und Lehrende) von Fabian Barteld und Johanna Flick, enthält u.a. hilfreiche Materialien zur Arbeit mit CSV-Dateien.