2 Rechtliche und ethische Vorüberlegungen
Wir nutzen im Folgenden die Seite netzpolitik.org als Beispiel, anhand dessen wir ein kleines, selbst erstelltes Korpus erstellen. Der Vorteil dieser Seite ist, dass die Inhalte aller Artikel, soweit beim einzelnen Artikel nicht anders angegeben, unter der Lizenz CC-BY-NC-SA 4.0 verfügbar sind, die eine Nachnutzung zu nichtkommerziellen Zwecken erlaubt, solange die Nachnutzung unter Anwendung derselben oder einer vergleichbaren Lizenz erfolgt. Daher kann ich die Daten, die ich im Folgenden erstelle, im Begleitmaterial zu diesem Tutorial weitergeben, ohne die Urheber:innen um Erlaubnis fragen zu müssen.
Für viele Fragestellungen kann es auch notwendig sein, mit Daten zu arbeiten, bei denen das nicht möglich ist. Sofern die Urheber keine Lizenz angegeben haben, sind Texte (und natürlich auch Bildmaterialien etc., da sind die Regelungen teilweise sogar noch strenger) immer urheberrechtlich geschützt. Allerdings erlaubt das deutsche Urheberrecht sog. Data Mining zu wissenschaftlichen Zwecken, solange die Daten nicht weitergegeben und nach Abschluss der Forschungsarbeit gelöscht werden. (Disclaimer: Das ist eine grobe Wiedergabe meines eigenen, nicht-fachkundigen Verständnisses der aktuellen Rechtslage.)
Neben rechtlichen sollten auch ethische Erwägungen berücksichtigt werden, wenn man sich dafür entscheidet, ein Korpus aus öffentlich verfügbaren Webdaten zusammenzustellen. So sollte man von Massenabfragen absehen, die die Server einer Seite belasten. Darüber hinaus gilt es in einigen Fällen bspw. persönlichkeitsethische Fragen zu berücksichtigen - hier geben beispielsweise Luth, Marx, and Pentzold (2022) wertvolle Hinweise.
Wenn Sie bei der Datenerhebung möglicherweise mit sensiblen Daten zu tun haben, kann es u.U. sinnvoll sein, ein Ethikvotum bei einer Ethikkommission (z.B. Ihrer Fakultät, falls es dort eine gibt) einzuholen.