View the Project on GitHub empirical-linguistics/hist-korpling
Willkommen zum Seminar “Historische Korpuslinguistik”! Hier finden Sie die Materialien für das Seminar sowie einige (hoffentlich) nützliche Links.
Für die Teilnehmer*innen des Seminars “Historische Korpuslinguistik” an der HHU Düsseldorf: Diese Seite ergänzt unseren gemeinsamen ILIAS-Lernraum und stellt weiterführendes Material zur Verfügung.
Für alle anderen: Diese Seite versammelt zahlreiche Materialien, die für die Beschäftigung mit historischer Korpuslinguistik nützlich sein können. Im Laufe des SoSe 2020 wird sie kontinuierlich ausgebaut und mit Tutorials, Lehrvideos u.v.m. erweitert.
Alle Materialien sind unter einer Creative-Commons-Lizenz frei verfügbar und können gern weiterverbreitet werden, auch in modifizierter Form.
Diese Tutorials stammen zum Teil aus dem Begleitmaterial zu meinem Buch “Deutsche Sprachgeschichte. Grundzüge und Methoden”. An einigen wenigen Stellen wird auf das Buch Bezug genommen; sie sind jedoch so konzipiert, dass man sie unabhängig von dem Buch lesen und benutzen kann.
Einen Schnelleinstieg ins korpusbasierte Arbeiten am Beispiel von DWDS bietet dieses Tutorial.
Tutorial: ANNIS (Referenzkorpora Altdeutsch, Mittelhochdeutsch, Bonner Frühneuhochdeutschkorpus, …); ergänzend: Tutorial zu einfachen Korpusrecherchen in ANNIS mit Schwerpunkt Datenexport
Außerdem: Wacky-Tutorial
Im Kurs sowie in den Tutorials werden die folgenden kostenlosen Programme genutzt:
Notepad++ Texteditor (nur Windows). Für Mac empfehle ich BBEdit. Nach Ablauf einer Testphase kann man das Programm mit eingeschränktem Funktionsumfang, der aber für unsere Bedürfnisse voll und ganz ausreicht, unbegrenzt kostenlos nutzen. Für Linux gibt es z.B. Notepadqq. Fortgeschrittene können alternativ oder ergänzend auch auf einen Code-Editor wie Atom oder VSCode zurückgreifen. Für AnfängerInnen rate ich jedoch davon ab, weil die Bedienung z.T. doch deutlich umständlicher ist als bei den o.g. Texteditoren.
R Statistik-Software und Programmiersprache, deren Benutzung in der quantitativen Linguistik mittlerweile zum Standard geworden ist.
RStudio Integrated Developer Environment (kurz: IDE) für R. Wenn Sie R nicht nur mit Hilfe einer Kommandozeile bedienen wollen - was auf die Dauer extrem umständlich ist - ist dieses Programm die derzeit m.E. beste Lösung.
LibreOffice Das LibreOffice-Paket ist eine kostenlose Alternative zu Microsoft Office, wobei insbesondere das Tabellenkalkulationsprogramm Calc einige Pluspunkte gegenüber Excel aufweist, v.a. was den Support von Unicode-Sonderzeichen angeht.
Weitere Programme, die für korpuslinguistisches Arbeiten nützlich sein können, aber in den bislang vorliegenden Tutorials (noch) nicht vorgestellt werden
AntConc Ein einfacher Concordancer für Rohtext-Dateien; ideal geeignet, wenn Sie Ihr erstes eigenes Korpus aus einfachen, unannotierten Texten erstellen.
GATE General Architecture for Text Engineering: Ein sehr praktisches und vergleichsweise einfach zu bedienendes Programm, in dem man Texte in einer grafischen Benutzeroberfläche annotieren kann. Output im XML-Format. Eher für die Korpuserstellung als für die Korpusauswertung relevant; aber es kann nicht schaden, einmal davon gehört zu haben :-)
Referenzkorpus Altdeutsch (aka Deutsch Diachron Digital)
Referenzkorpus Mittelhochdeutsch (REM)
Die beiden Referenzkorpora enthalten alle überlieferten Texte des Althochdeutschen und Altsächsischen sowie eine mehr oder weniger repräsentative Auswahl mittelhochdeutscher Texte. REM besteht aus zwei Subkorpora: MiGraKo ist ein ausgewogenes Korpus, das als Grundlage für die Mittelhochdeutsche Grammatik diente; das als REM oder Referenzkorpus Mittelhochdeutsch im engeren Sinne bezeichnete Subkorpus beinhaltet zusätzliche Texte. Die Auwahl zwischen MiGraKo, REM oder “All” (= beide Subkorpora) lässt sich oberhalb der Textauswahl im Fenster unten links treffen.
Die Referenzkorpora werden in absehbarer Zeit ergänzt durch das Referenzkorpus Mittelniederdeutsch und das Referenzkorpus Frühneuhochdeutsch.
Bonner Frühneuhochdeutschkorpus
Ein relativ kleines Korpus fürs Frühneuhochdeutsche, über ANNIS verfügbar. Vorsicht: Einige Annotationsebenen existieren doppelt, einmal im Namespace “default_ns”, einmal im Namespace “anno”. Das führt dazu, dass Resultate doppelt gefunden werden. Um das zu vermeiden, empfiehlt es sich, der Suche die Angabe des Namespace voranzustellen, z.B. default_ns:typ="verb"
.
Diachrones Korpus (ca. 1500-1900) mit ca. 154 Millionen laufenden Wortformen. Wegen der besseren Exportmöglichkeiten empfehle ich, zum Durchsuchen DWDS (s.u.) zu verwenden.
Digitales Wörterbuch der deutschen Sprache
Zugang zu einer ganzen Reihe von Referenz- und Zeitungskorpora, darunter
und mehr. Hilfe zur Suche gibt es hier. Ein Überblick über die Korpora findet sich hier.
Das Deutsche Referenzkorpus (DeReKo) ist über die Schnittstelle COSMAS II zugänglich (Registrierung erforderlich). Neben dem umfangreichen W-Archiv enthält es auch getaggte Korpora (TAGGED-C / TAGGED-T), ein Korpus gesprochener Sprache sowie Korpora mit Wikipedia-Artikeln und -Diskussionen. (Einmalige kostenlose Anmeldung erforderlich.)
WaCky - The Web-As-Corpus Kool Yinitiative
Korpus mit Internetdaten, hier frei und ohne Anmeldung zugänglich. (Allerdings hatte das Interface im letzten Jahr einige Bugs, von denen ich nicht weiß, ob sie inzwischen behoben sind. Wenn nicht, können einige - gerade komplexere - Suchanfragen zu Fehlermeldungen führen.)
Sammlung von Internet-Korpora mit umfangreicher automatischer Annotation. Registrierung notwendig; für Studierende derzeit nicht zugänglich. Da die Korpora aber derzeit breit genutzt werden, sollte man einmal davon gehört haben…
Digitales Begleitmaterial zu Hartmann (2018)
Noah Bubenhofer: Einführung in die Korpuslinguistik
Ausführlicher Überblick über reguläre Ausdrücke
LEA: Linguistic Excercises with Annotation Tools - Sammlung von Annotationsaufgaben für Studierende (und Lehrende) von Fabian Barteld und Johanna Flick, enthält u.a. hilfreiche Materialien zur Arbeit mit CSV-Dateien.