Mini-Tutorial: Einfache graphematische Fragestellungen korpusbasiert untersuchen

Einleitung

In diesem Tutorial wollen wir einfache korpuslinguistische Methoden auf schriftlinguistische Fragestellungen anwenden. Dafür wollen wir die Korpora des Digitalen Wörterbuchs der Deutschen Sprache (DWDS) nutzen. Nach Lektüre des Tutorials sollten Sie

korpuslinguistische Grundbegriffe benennen und erläutern können, insbesondere die der Repräsentativität und Ausgewogenheit;
in der Lage sein, selbstständig einfache Suchanfragen über die Webschnittstelle des DWDS zu formulieren;
Herausforderungen bei der korpuslinguistischen Operationalisierung schriftlinguistischer Fragestellungen benennen und darauf aufbauend unterschiedliche methdische Ansätze kritisch einordnen können.

Bevor wir in Fallbeispiele einsteigen, müssen wir zunächst einige grundlegende eher theoretische Fragen klären, die sich stellen, wenn wir schriftlinguistische Fragestellungen mit Korpora untersuchen wollen.

Graphematische Variation aus korpuslinguistischer Perspektive

Im Deutschen ist Rechtschreibung bekanntlich in hohem Maße normiert und kodifiziert. Das heißt, es gibt Rechtschreibnormen, die in Regelwerken niedergelegt sind - beispielsweise im Amtlichen Regelwerk der deutschen Rechtschreibung, das u.a. für Schulen und Behörden verbindlich ist. Weitere normative Vorgaben oder zumindest Empfehlungen finden sich in Werken, die de facto normsetzend geworden sind, auch wenn sie im Gegensatz zum Amtlichen Regelwerk keinen offiziell verbindlichen Status haben, etwa dem Rechtschreibduden.

Dadurch gibt es in der Standard-Schriftsprache des Deutschen relativ wenig Variationsspielraum, auch wenn es Bereiche gibt, in denen die Norm mehrere Varianten zulässt, etwa einige Bereiche der Getrennt- und Zusammenschreibung. Im tatsächlichen Schriftsprachgebrauch gibt es aber natürlich ein hohes Maß an Variation, gerade da, wo die Norm nicht gilt. Webdaten bieten vor diesem Hintergrund eine willkommene Möglichkeit, graphematische Variation zu untersuchen: Auch wenn sich im Internet viele Seiten finden, die von mehr oder weniger professionell Schreibenden erstellt werden, die sich in der Regel an die normativen Vorgaben halten, gibt es doch auch viele Seiten, die eher spontansprachlichen Charakter haben, etwa Foren, in denen manche Schreibende auf orthographische Korrektheit achten, andere eher nicht.

Fallbeispiel 1: Rechtschreiblich schwierige Wörter

Wir können einen Eindruck von diesen Unterschieden gewinnen, indem wir nach sog. rechtschreiblich schwierigen Wörtern suchen. Nehmen wir die häufig falsch geschriebenen Wörter <Standard> und <Apartheid> (bei Ersterem könnte die Ähnlichkeit zur <Standarte> die häufige Fehlschreibung mit <t> teilweise erklären, Letzteres kommt aus dem Afrikaans und wird daher anders als native -heit-suffigierte Wörter mit <d> geschrieben).

Zur Untersuchung dieser Variationsphänomene eignen sich die Korpora des DWDS besonders gut, da wir hier sowohl Datenressourcen finden, die eher standardsprachlichen Gebrauch dokumentieren, als auch solche, die sich dezidiert verschiedenen Arten von Non-Standard-Sprachgebrauch widmen.

Unsere Datenbasis: DWDS

Wir nutzen für unsere kleine Fallstudie die Korpora, die über das Digitale Wörterbuch der Deutschen Sprache (DWDS) zugänglich sind. Das DWDS ist eine sehr reichhaltige Ressource, das verschiedene Wörterbücher, aber eben auch Korpora, also Sammlungen authentischer Sprachdaten, zusammenführt. Wenn Sie auf der Startseite des DWDS auf “Textkorpora” klicken, sehen Sie eine breite Palette von Korpusressourcen, die Sie nutzen können.

Bevor Sie weiterlesen, machen Sie sich zunächst kurz mit der DWDS-Website vertraut und lesen Sie die Überblicksseite zu Textkorpora.

Welche Korpora sind über das DWDS verfügbar?
Worin unterscheiden sich die Korpora?
Wer kann unter welchen Bedingungen auf die Korpora zugreifen?

Sie werden schnell merken, dass das DWDS zwischen drei Typen von Korpora unterscheidet: Referenzkorpora, Spezialkorpora und Metakorpora.

Typen von Korpora

Im DWDS finden Sie verschiedene Arten von Korpora:

Referenzkorpora, die versuchen, einen möglichst umfassenden Überblick über eine Sprache (hier: das Deutsche) zu einem bestimmten Zeitpunkt bzw. über eine gewisse Zeitspanne hinweg zu geben und dafür um Ausgewogenheit hinsichtlich bestimmter Parameter (hier z.B.: Textsorten) bemüht sind.
Spezialkorpora, die ganz bestimmte Varietäten einer Sprache dokumentieren, z.B. gruppenspezifischen Sprachgebrauch, bestimmte eng eingegrenzte Textsorten (z.B. Beauty-Blogs) oder Sprachgebrauch, der von bestimmten kontextuellen und situationalen Faktoren geprägt ist (z.B. Corona-Korpus).
Metakorpora, die selbst eigentlich keine Korpora sind, sondern vielmehr mehrere Korpora aggregieren. Beispielsweise enthält das Metakorpus WebXL sowohl das DWDS-Webkorpus als auch weitere internetbasierte Spezialkorpora (z.B. das Ballsport-Korpus und ein Korpus aus Beauty-Blogs).

Frage zu Korpustypen

Bei welchen der folgenden DWDS-Korpora handelt es sich nach den obigen Definitionen um Spezialkorpora?

Spezialkorpora sind Korpora, die z.B. gruppenspezifischen oder durch situationale/kontextuelle Faktoren bedingten Sprachgebrauch dokumentieren.

False
True
True
False
False
False
True

Erste einfache Suchanfragen

Wenn wir uns mit dem zweiten Fallbeispiel beschäftigen, werden wir noch genauer auf die unterschiedlichen über das DWDS verfügbaren Korpora eingehen. Auch die Suchabfragesprache werden wir noch etwas genauer kennenlernen. Zunächst aber wollen wir nach den ganz einfachen vorhin genannten Beispielen suchen: <Standard> vs. <Standart> und <Apartheid> vs. <Apartheit>.

Dafür müssen wir zunächst wissen, dass es im DWDS eine sehr einfache Möglichkeit gibt, nach genauen Wortformen zu suchen, nämlich indem wir ein @-Zeichen voranstellen. Tun wir das nicht, dann versucht DWDS eine Lemmasuche, d.h. es werden alle Wortformen, die zu einem Lexem gehören, gesucht. Wenn wir zum Beispiel sein in die Suchabfragemaske eingeben würden, ggf. noch mit der Spezifikation sein with \$p=V\*, um klarzumachen, dass es sich um ein Verb handeln soll (und nicht um das Possessivpronomen sein wie in sein Haus), dann findet DWDS auch Flexionsformen wie ist, bin, waren etc. Bei der Suchanfrage @sein with \$p=V\* hingegen wird nur die genaue Form <sein> gefunden.

Das können wir uns nun zunutze machen, um die insgesamt vier Wortformen, für die wir uns interessieren, zu suchen, und zwar in zwei verschiedenen Korpora, die die beiden Kontexte, die wir vergleichen wollen, repräsentieren: einmal standardnahen Sprachgebrauch, einmal eher spontanschriftliche Produktion, wie wir sie z.B. in vielen Webkontexten erwarten. Daher nutzen wir zum einen das DWDS-Kernkorpus des 21. Jahrhunderts, um einerseits möglichst standardnahe, andererseits aber auch möglichst aktuelle Daten verwenden zu können, zum anderen das DWDS-Webkorpus, das zwar ebenfalls Daten aus einigen standardnahen Quellen wie News-Seiten umfasst, aber eben auch z.B. Daten aus Foren und anderen Quellen, bei denen wir weniger standardnahe Schriftsprachproduktion erwarten können, beinhaltet.

Können Sie aus den obigen Ausführungen selbstständig die Suchanfragen formulieren, die wir brauchen? Zunächst wollen wir nur die genauen Wortformen <Standard>, <Standart>, <Apartheid> und <Apartheid> finden.

Suchanfragen ausklappen

Mit diesen vier Suchanfragen finden wir die vier gesuchten Wortformen:

\@Standard

\@Standart

\@Apartheid

\@Apartheit

Gehen wir das Ganz am Beispiel @Standard durch. Wenn wir den Suchausdruck unter www.dwds.de in die Suchleiste eingeben, bekommen wir zunächst den Hinweis:

“Es tut uns leid, Ihre Anfrage @Standard ist nicht in unseren gegenwartssprachlichen lexikalischen Quellen vorhanden.”

Das liegt daran, dass DWDS zunächst seine lexikographischen Ressourcen durchsucht, da es zunächst einmal, wie sein Name schon sagt, ein Wörterbuch ist. Wir sind ja aber an den Korpusdaten interessiert. Wenn wir weiter nach unten scrollen, sehen wir die Option “Suche in ausgewählten Korpora nach ›@Standard‹”. Die beiden Korpora, die wir durchsuchen möchten, sind aber bei den vier hier zur Auswahl stehenden Korpora nicht dabei, deshalb müssen wir noch etwas weiter nach unten scrollen, wo wir in der Leiste rechts die Option “Beleg in Korpora” finden. Hier können wir nun auf “DWDS-Kernkorpus 21” klicken und sehen, dass unsere Suche 47 Treffer bringt – bzw. 935, wenn man die Treffer hinzunimmt, die aus urheberrechtlichen Gründen nicht anzeigbar sind.

Dass einige Treffer aus urheberrechtlichen Gründen nicht anzeigbar sind (einige Quellen stehen nur den DWDS-Mitarbeitenden zur Verfügung), ist bei Suchen in den DWDS-Kernkorpora immer der Fall; eine so hohe Diskrepanz wie hier ist allerdings ungewöhnlich und deutet darauf hin, dass sich möglicherweise sehr viele Belege in einer öffentlich nicht zugänglichen Quelle clustern.

Wenn wir nun die Suchanfrage in @Standart ändern, sehen wir, dass tatsächlich gar keine Treffer gefunden werden. Wenn wir hingegen das Korpus wechseln und zum DWDS-Webkorpus gehen (nur nach Anmeldung zugänglich, hierfür ist eine einmalige kostenlose Registrierung beim DWDS notwendig), sehen wir, dass es hier ganze 16. 318 Treffer gibt. Für @Standard hingegen finden sich im gleichen Korpus 756 .327 Treffer. Das liegt daran, dass das Webkorpus natürlich deutlich größer ist als DWDS21. Dennoch: Der Anteil von <Standart> an allen Belegen für <Standard> und <Standart> macht im Webkorpus immerhin 2,11 % aus.

Versuchen Sie nun eigenständig, die Ergebnisse für <Apartheid>/<Apartheit> zu gewinnen und auszuwerten.

Ergebnisse ausklappen

Ähnlich wie beim vorherigen Beispiel finden wir im Kernkorpus des 21. Jahrhunderts keinen einzigen Beleg für <Apartheit> und 15 für <Apartheid>; im Webkorpus finden wir 15.872 Belege für <Apartheid> und 840 für <Apartheit>. Damit macht die <t>-Schreibung immerhin einen Anteil von 5,03% der Belege aus dem Webkorpus aus.

Die Suche nach den vier Wortformen bringt natürlich gewisse Einschränkungen mit sich.

Welche weiteren Treffer wären für uns noch interessant, werden aber durch die obige Anfrage nicht gefunden?

weitere Wörter auf -heit/-heid, z.B. <Freiheit>Komposita mit <Standard> bzw. <Apartheid> als Erstglied wie <Standardsprache> oder <Apartheidsregierung>Flexionsformen wie <Standards> (Plural)formähnliche Wörter wie <Standarte> oder <Apartment>Komposita mit <Standard> oder <Apartheid> als Bestimmungsglied wie <TEI-P5-Standard>

Lösungen anzeigen

Da wir nur nach der genauen Wortform gesucht haben, entgehen uns natürlich Flexionsformen, die nicht der gesuchten Form entsprechen, ebenso wie Wortbildungsprodukte, in denen die beiden gesuchten Ausdrücke vorkommen.

Ob wir umgekehrt bei nativen heit-suffigierten Wörtern Fehlschreibungen mit <-heid> finden, ist zwar prinzipiell eine interessante Frage, würde aber an dieser Stelle zu weit führen, da wir erst einmal nur an der Verteilung der Schreibvarianten dieser beiden Wörter interessiert sind. Dies auch deshalb, weil eine mögliche Fehlschreibung nativer heit-suffigierter Wörter mit <d> nicht unbedingt etwas mit <Apartheid> zu tun haben muss, sondern auch durch niederländischen Sprachkontakteinfluss bedingt sein kann.

Umgekehrt wäre zwar der mögliche Einfluss formähnlicher Wörter wie <Standarte> durchaus eine nähere Betrachtung wert, würde aber ebenfalls zu weit führen und genaue Überlegungen zur Operationalisierung nach sich ziehen: So müsste erst einmal festgelegt werden, was überhaupt als formähnlich gilt. Ob Sprachbenutzende wirklich eine Assoziation zwischen <Standard> und <Standarte> oder zwischen <Apartment> und <Apartheid> machen, müsste im Zweifelsfall auch erst einmal unabhängig auf Grundlage von psycholinguistischer Evidenz nachgewiesen werden.

Wenn Sie mögen, können Sie versuchen, Suchanfragen zu formulieren, die z.B. auch Komposita und Flexionsformen mit einbeziehen. Die Dokumentation der DWDS-Korpussuche kann Ihnen dabei weiterhelfen. In diesem Tutorial finden Sie außerdem weitere (hoffentlich) hilfreiche Hinweise zu ersten Schritten in der Korpuslinguistik.

Fazit zum ersten Fallbeispiel

Unser erstes Fallbeispiel hat zunächst einmal unsere Intuition bestätigt, dass Non-Standard-Varianten sich im Webkorpus häufiger (bzw. überhaupt erst) finden als in einem Referenzkorpus, das lektorierte Standardsprache dokumentiert. Dabei müssen wir allerdings die unterschiedliche Korpusgröße bedenken und im Hinterkopf behalten: absence of evidence is not evidence of absence – mit anderen Worten, nur weil wir die Schreibungen mit <t> im Kernkorpus nicht finden, heißt es nicht, dass sie nicht manchmal auch in lektorierter Zeitungs- oder Verlagssprache auftauchen. Sie sind nur eben deutlich seltener als die standardkonformen Formen. Und alles deutet darauf hin, dass die Wahrscheinlichkeit ihres Auftretens in nicht ganz so standardnahen Webdaten höher ist als in den standardnahen Textsorten im Referenzkorpus.

Viel mehr konnten und wollten wir in diesem Fall nicht herausfinden – aber die Methoden, die wir kennengelernt haben, lassen sich natürlich auch auf komplexere Fragestellungen übertragen. Auch unser konkretes Beispiel ließe sich noch weiterspinnen, mit Fragen wie:

Wie entwickelt sich die Schreibung der beiden Beispielwörter über die Zeit hinweg? Lässt sich zum Beispiel bei <Apartheid> in der Zeit, in der das Thema aktuell war, mehr oder weniger Variation beobachten? (Dafür müssten wir uns natürlich Daten aus dem 20. Jahrhundert und im Falle von Standard ggf. auch noch ältere Daten anschauen.)
Ist die Tendenz zur <t>-Schreibung in bestimmten Kontexten stärker bzw. schwächer ausgeprägt als in anderen? Lässt sich womöglich auch eine unterschiedliche regionale Verteilung zeigen (z.B. seltenere Fehlschreibung von <Apartheid> mit <t> in Gegenden mit niederländischem Sprachkontakteinfluss?)

In authentischen Korpusstudien wäre es natürlich auch wichtig, die konkreten Fragestellungen und Hypothesen zuerst genauer zu entwickeln und sich dann für ein Korpus und eine Art der Operationalisierung zu entscheiden. Auch dazu gibt es in diesem Tutorial nähere Informationen.

Fallbeispiel 2: Suche nach zuhause / zu Hause im DWDS

Nachdem wir uns nun die Variation zwischen einer orthographisch korrekten und einer normwidrigen Variante näher betrachtet haben, wollen wir im Folgenden einen Zweifelsfall der Getrennt- und Zusammenschreibung untersuchen, nämlich zuhause vs. zu Hause. Auch hierfür nutzen wir wieder das DWDS. Der folgende Screencast zeigt, wie diese Korpussuche funktioniert.

Transkript ausklappen

Wenn wir auf der Startseite des DWDS sind, sehen wir sehr prominent platziert eine Suchleiste. Wenn wir hier ein einzelnes Wort eingeben, z.B. zuhause (in einem Wort geschrieben), dann sucht DWDS zunächst in seinen lexikalischen Ressourcen – denn es ist ja zunächst einmal ein Wörterbuch. Was uns interessiert, sind aber die Korpora, die übers DWDS verfügbar sind. Wenn wir ein wenig nach unten scrollen, sehen wir die Sektion “Belege in Korpora”. Hier haben wir die Möglichkeit, uns Belege in unterschiedlichen Korpora anzusehen.

Die Wahl des Korpus richtet sich nach unserer Fragestellung. Wenn wir standardsprachlichen Gebrauch untersuchen wollen, bietet es sich an, eines der Kernkorpora des DWDS zu verwenden. Die Kernkorpora sind sogenannte Referenzkorpora. Referenzkorpora zielen darauf ab, eine bestimmte Sprache bzw. sprachliche Varietät zu einem bestimmten Zeitpunkt oder in einer bestimmten Zeitspanne möglichst repräsentativ abzubilden. Im Fall der beiden DWDS-Kernkorpora fürs 20. und 21. Jahrhundert bemüht man sich daher um Ausgewogenheit zwischen vier Textsorten, wie wir auch den Detailinformationen zum Korpus - hier das Kernkorpus fürs 20. Jahrundert - entnehmen können: Belletristik, Zeitung, Wissenschaft und Gebrauchsliteratur. Das Korpus ist somit um Ausgewogenheit zwischen verschiedenen Textsorten bemüht. Weil es die gegenwartsdeutsche Standardsprache abbilden möchte, konzentriert es sich auf vier Textsorten, bei denen zu erwarten ist, dass sie relativ standardnah sind.

Wenn wir nun in die Belege im Kernkorpus des 20. Jh. schauen, sehen wir, dass es 228 Treffer gibt – genau genommen sogar 294, von denen allerdings einige aus urheberrechtlichen Gründen nicht anzeigbar sind. Das ist immer so, wenn wir im DWDS-Kernkorpus suchen.

Gehen wir nochmal zurück zum Wörterbucheintrag von zuhause und suchen von da nach dem Wort. Wenn wir jetzt in die Suchleiste schauen, sehen wir aber noch etwas Erstaunliches: Hier stehen plötzlich zwei Suchanfragen, die durch einen Oder-Operator voneinander getrennt sind - im DWDS besteht der Oder-Operator aus zwei vertikalen Strichen, in anderen Suchabfragesystemen haben wir nur einen vertikalen Strich als Oder-Operator. Weil wir die Suche vom Wörterbucheintrag aus gestartet haben, bezieht DWDS hier automatisch beide Schreibvarianten in die Suche mit ein. Dafür müssen wir wissen: Wenn wir in den DWDS-Korpora einfach nur ein Wort eingeben, ohne weitere Kennzeichnung, dann startet das DWDS eine Lemmasuche – das heißt, es sucht nach allen Wortformen des betroffenen Wortes. Wenn ich also ein Wort wie das Verb sein habe - hier gebe ich an, dass es ein Verb sein muss, weil es ja auch das Possessivpronomen sein gibt – dann findet DWDS auch bin, ist, seid usw., also die Flexionsformen des Lemmas.

Jetzt aber zurück zu zuhause. Wir sehen, dass die zweite Suchanfrage ein @-Zeichen beinhaltet. Das bedeutet in der DWDS-Syntax, dass genau diese Wortform gesucht werden soll, nicht auch irgendwelche Flexionsformen.

Zusammengenommen findet die Suchanfrage also genau die beiden Varianten, die wir wollen: einmal die zusammengeschriebene, einmal die getrennt geschriebene. Mit “Treffer exportieren” können wir uns die Daten auch als Spreadsheet herunterladen und dann damit weiterarbeiten.

Fazit

In diesem Tutorial haben wir Möglichkeiten kennengelernt, mit Hilfe der DWDS-Korpora graphematische Variation zu untersuchen. Dabei konnten wir naürlich nur an der Oberfläche kratzen. Dennoch hoffe ich, ein paar einigermaßen praxisnahe Einblicke in sehr einfache Möglichkeiten der Korpussuche gegeben zu haben. Weiterführende Hinweise finden Sie u.a. in diesem bereits mehrfach erwähnten Tutorial zum empirischen Arbeiten sowie in den dort verlinkten weiterführenden Ressourcen.

Einleitung

Graphematische Variation aus korpuslinguistischer Perspektive

Fallbeispiel 1: Rechtschreiblich schwierige Wörter

Unsere Datenbasis: DWDS

Frage zu Korpustypen

Erste einfache Suchanfragen

Fazit zum ersten Fallbeispiel

Fallbeispiel 2: Suche nach zuhause / zu Hause im DWDS

Fragen zum Video

Fazit