Annotation in der Praxis

Eigenes Annotieren: Wo fange ich an?

Bevor Sie damit anfangen, selbst zu annotieren, sollten Sie sich bewusst machen, mit welcher Art von Daten Sie es zu tun haben. Haben Sie z.B. selbst ein Korpus aufgebaut und möchten nun damit beginnen, dieses zu annotieren? Oder haben Sie Daten aus einem bestehenden Korpus entnommen und möchten diese nun im Hinblick auf Ihre Forschungsfrage und Ihre Hypothese mit zusätzlichen Annotationen anreichern, die das Korpus selbst nicht bietet?

Apropos Forschungsfrage und Hypothese: Wichtig ist, dass Sie beide so präzise wie möglich formuliert haben, noch bevor Sie mit der Annotation beginnen. Denn: Nur wenn Sie wissen, was Sie konkret untersuchen möchten, können Sie gezielt Annotationen vornehmen. Der schlechteste Fall wäre, dass Sie einfach ‘ins Blaue hinein’ annotieren und letztendlich über Daten verfügen, für die Sie viel Zeit investiert haben, die Ihnen bei Ihrem Forschungsprojekt aber nicht weiterhelfen. Im Umkehrschluss kommen Sie der Beantwortung Ihrer Forschungsfrage und einer Bestätigung oder Widerlegung Ihrer Hypothese durch Datenannotationen sehr nah. Die Datenannotation ist damit ein wichtiger Teil der Operationalisierung Ihrer Forschungsfrage und Hypothese.

Datenannotation ist ein vielschichtiges Gebiet, Sie müssen bei der Durchführung eigener Annotationen das Rad aber nicht neu erfinden. In jedem Fall sollten Sie sich an bestehenden Standards orientieren, denn Sie sind sicher nicht die erste und letzte Person, die an für Sie relevanten Daten arbeitet. Annotationsstandards sind wichtig, um

  • eine einfache Weitergabe und Nachnutzung Ihrer Daten (durch andere Personen) zu ermöglichen und
  • Tools, die Sie bei der Annotation unterstützen sollen, nutzen und Auswertungen Ihrer Annotationen vornehmen zu können.

Weil es wichtig ist, dass Sie Annotationsstandards schon kennen, bevor Sie mit Ihrer eigenen Annotation beginnen, sehen wir uns diese zuerst an.

Standards

Annotationsstandards erfüllen zwei wesentliche Zwecke: Sie stellen zum einen sicher, dass Ihre Annotationen an andere Personen weitergegeben und sinnvoll weitergenutzt werden können, und sie ermöglichen zum anderen ein konsistentes Vorgehen, das durch Annotationstools unterstützt werden kann, damit Sie nicht manuell (z.B. in einer Textdatei) annotieren müssen, was durchaus anfällig für Fehler sein kann.

Der Begriff Annotationsstandard kann sich auf unterschiedliche Dinge beziehen: Zum einen spricht man von Annotationsstandards, wenn es um konkrete Annotationsschemata geht, die ein standardisiertes Inventar an Annotationen für einen bestimmten Bereich (z.B. die Annotation von Wortarten) zur Verfügung stellen. Auf diese Annotationsschemata kommen wir gleich zurück. Zum anderen kann sich der Begriff aber auch auf “Best-practice”-Standards für die Datenannotation im Allgemeinen beziehen.

In diesem letztgenannten Sinn verwendet Leech (1997) den Begriff, wenn er fünf Annotationsstandards formuliert, die wir im Folgenden leicht verändert wiedergeben (deutsche Übertragung in Anlehnung an Lemnitzer/Zinsmeister (2015: 98).

  1. Annotationen sollten so eingetragen sein, dass man den Ursprungstext wiederherstellen kann.
  2. Es sollte möglich sein, Annotationen unabhängig vom Ursprungstext abzuspeichern und auszuwerten.
  3. Die Annotationen sollten dokumentiert werden, z.B. in Form von Annotationschemata und Annotationsrichtlinien. Das heißt konkret:
    • Die Annotator*innen und die Annotationsumstände sollten bekannt sein.
    • Die Qualität des zu annotierenden Korpus sollte überprüft und dokumentiert werden. Die späteren Benutzer*innen sollten erfahren, wie konsistent die Annotation ist.
  4. Das verwendete Annotationsschema sollte so weit wie möglich theorieneutral sein.
  5. Kein Annotationsschema kann von vornherein als Standard gelten, denn Standards bilden sich durch einen Konsens der Annotator*innen und Benutzer*innen.

Wenn Sie ein Annotationstool verwenden, müssen Sie sich über die ersten beiden Annotationsstandards in den meisten Fällen nicht sorgen. In der Regel stellen solche Tools von vornherein sicher, dass der Ursprungstext unberührt bleibt. Der dritte Punkt ist der wohl wichtigste, weshalb wir auf die Dokumentation der Annotation in Annotationsschemata und Annotationsrichtlinien noch zurückkommen. Der vierte Punkt hängt natürlich stark von Ihrer Forschungsfrage und der Theorie ab, in der Sie sich bewegen. Wenn Sie aber Wert darauf legen, dass Ihre Annotationen durch andere Personen weitergenutzt werden sollen, sollten Sie möglichst auf Theorieneutralität achten. Und schließlich möchte Ihnen der fünfte Punkt sagen, dass Sie ganz sicher ein paar Anläufe brauchen werden, um gut nutzbare Annotationen herzustellen, keine Annotation ist direkt beim ersten Anlauf perfekt. Datenannotation ist in aller Regel ein iterativer Prozess – auch darauf kommen wir noch zurück.

Zurück Hauptseite Weiter