Einfache Korpusrecherchen in ANNIS: Ein Schnelleinstieg
Ein Tutorial mit Schwerpunkt Datenexport
2022-03-15
1 Einführung
In diesem kurzen Tutorial zeige ich, wie man in Korpora, die über die Plattform ANNIS verfügbar sind, einfache Korpusrecherchen durchführen kann und wie man die Ergebnisse anschließend in Form einer KWIC-Konkordanz in ein Tabellenkalkulationsprogramm exportieren kann. Dabei liegt der Fokus vor allem auf dem letztgenannten Aspekt, also den Herausforderungen, die der Export mit sich bringt. Für die Suche in ANNIS gibt es nämlich schon eine ganze Reihe hervorragender Tutorials zusätzlich zur sehr ausführlichen und hilfreichen Dokumentation. Beispielsweise gibt es hier einige Videotutorials und hier einen Einstieg am Beispiel des RIDGES-Korpus. Der Datenexport bereitet jedoch erfahrungsgemäß einigen Nutzer*innen Probleme, zumal nicht jeder der zahlreichen Exporter, die in ANNIS zur Verfügung stehen, mit jedem Korpus funktioniert. Daher geht es in diesem Tutorial weniger um die Suche in ANNIS an sich als um die Frage, wie man mit Hilfe der zur Verfügung stehenden Exporter Datensätze (Belegsammlungen) exportieren kann, um mit diesen dann weiterarbeiten zu können.
1.1 ANNIS
ANNIS ist ein Such- und Visualisierungstool, das zum einen als Open-Source-Software herunterladbar und auf dem eigenen Rechner verwendbar ist, zum anderen auch über verschiedene öffentliche Instanzen online verwendet werden kann. In diesem Tutorial beschäftigen wir uns nur mit diesem Szenario, also der Nutzung von Online-Schnittstellen.
Da prinzipiell jede/r, der oder die einen Server zur Verfügung hat, eine eigene öffentliche ANNIS-Instanz starten kann, gibt es mehrere Instanzen, über die unterschiedliche Korpora verfügbar sind. Nennenswerte ANNIS-Instanzen sind:
HU Berlin: Hier finden sich u.a. das Referenzkorpus Altdeutsch (Deutsch Diachron Digital, kurz DDD), das Lernerkorpus FALKO oder auch das RIDGES-Korpus, mit dem wir im folgenden Beispiel arbeiten werden: https://korpling.german.hu-berlin.de/annis3/
Georgetown University: Über diese Instanz ist z.B. das Georgetown University Multilayer Corpus (GUM) verfügbar, https://corpling.uis.georgetown.edu/annis-corpora/
Über eine Bonner ANNIS-Instanz ist das für die germanistische Sprachgeschichtsforschung sehr wichtige Bonner Frühneuhochdeutschkorpus verfügbar https://korpora.zim.uni-due.de/FnhdC/
Das Referenzkorpus Mittelhochdeutsch ist auf einer Bochumer ANNIS-Instanz zu finden: https://www.linguistics.rub.de/rem/
Diese Liste ließe sich noch fortsetzen. Wichtig zu wissen ist, dass die grundlegenden Methoden, die wir im Folgenden kennenlernen werden, sich im Grunde auf alle über ANNIS verfügbaren Korpora übertragen lassen.
1.2 Beispiele für deutschsprachige ANNIS-Korpora
Zu den deutschsprachigen Korpora, die über öffentliche ANNIS-Instanzen verfügbar sind, gehören unter anderem
- das Referenzkorpus Altdeutsch
- das Referenzkorpus Mittelhochdeutsch
- das Bonner Frühneuhochdeutschkorpus
- das Referenzkorpus Frühneuhochdeutsch
- das RIDGES-Korpus (“Registers in Diachronic German Science”)
- das Kiezdeutsch-Korpus (Registrierung erforderlich)
In diesem Tutorial arbeiten wir mit dem RIDGES-Korpus, das, wie viele andere Korpora auch, über https://korpling.german.hu-berlin.de/annis3/ verfügbar ist.
Für alle, die lieber schauen statt lesen, gibt eine auch eine Video-Version des Tutorials (die minimal anders ist und außerdem mein allererstes Video, deshalb teilweise etwas holprig). Um es zu sehen, klappen Sie einfach durch Klick auf den Pfeil den entsprechenden Abschnitt aus:
klick mich
Dieses Tutorial wurde mit Hilfe von Bookdown für R geschrieben und publiziert. Es ist lizenziert unter CC-BY-SA und kann gerne mit Quellenangabe weitergegeben und adaptiert werden.