Annotationstools

Annotationstools

Das richtige Annotationstool finden

Wenn Sie einer Forschungsfrage nachgehen, die Sie anhand annotierter Daten überprüfen möchten, und wissen, dass Sie eigene Annotationen vornehmen möchten, brauchen Sie ein Annotationstool. Ein Annotationstool nimmt Ihnen viele Aufgaben bei der Verwaltung und Speicherung Ihrer Daten ab – nur annotieren müssen Sie natürlich noch selbst.

Die Auswahl an Annotationstools ist äußerst groß, und wir können Ihnen im Folgenden auch keinen vollständigen Durchgang durch alle verfügbaren Tools anbieten. Es lohnt sich deshalb, einen Blick in die Listen von Annotationstools zu werfen, wie Sie sie etwa auf den Webseiten der Humboldt-Universität Berlin oder der Universität Hamburg finden.

Die automatische Annotation betrachten wir hier nicht. Wenn Sie sich dafür interessieren, sei Ihnen das Annotationstool WebLicht empfohlen, das auch für Anfänger*innen gut zugänglich ist. Wenn Sie sich mit Programmierung auskennen, können Sie sogar auf eine nahezu unüberschaubare Vielfalt an Tools zum automatischen Tagging zurückgreifen, etwa die Python-Bibliothek Spacy. Die Annotationsebenen, die sich zuverlässig mit solchen Taggern erstellen lassen, sind aber bei breit verfügbaren Korpora, auf die sich Anfänger*innen zumeist stützen, ohnehin schon vorhanden. Umgekehrt erfordern viele Annotationen, die ihn gängigen Korpora nicht von vornherein enthalten sind, ohnehin einen manuellen Zugang, weil es noch keine ausreichend zuverlässigen automatischen Tools gibt. Daher konzentrieren wir uns in diesem Tutorial ganz auf die händische Annotation.

Ganz einfach: Tabellenkalkulationsprogramme

Das einfachste Annotationstool haben Sie wahrscheinlich bereits auf Ihrem Computer installiert. Es handelt sich dabei um ein Tabellenkalkulationsprogramm, am verbreitetsten ist hier sicherlich Microsoft Excel, wenn Sie aber nach einer kostenlosen Alternative suchen, bietet sich LibreOffice Calc an. Wenn Sie mit einem Tabellenkalkulationsprogramm annotieren möchten, müssen Sie einige Vorkehrungen treffen, die wir in diesem Abschnitt kurz ansprechen. Der Vorteil dabei ist, dass Sie sich nicht in eine spezielle Software einarbeiten müssen, zumal Sie vielleicht bereits Erfahrung mit Tabellenkalkulationsprogrammen haben. Für Seminar- und Abschlussarbeiten reicht die Annotation in einem Tabellenkalkulationsprogramm oft völlig aus - deshalb gehen unsere anderen Tutorials auch vorwiegend auf diese Art der Annotation ein. Im Folgenden fassen wir die wesentlichen Schritte für die Annotation in einem Tabellenkalkulationsprogramm noch einmal knapp zusammen.

Erster Schritt: Daten aufbereiten

Wir gehen im Folgenden davon aus, dass Sie eines der beiden Tabellenkalkulationsprogramme (Excel oder Calc) bereits auf Ihrem Computer installiert haben. Bevor Sie mit dem Annotieren starten können, müssen Sie Ihre sprachlichen Daten aufbereiten. Denn egal ob Sie Daten aus einem öffentlich zugänglichen Korpus annotieren möchten oder eine eigene Textsammlung in ein annotiertes Korpus verwandeln möchten, die Daten müssen in einem Format vorliegen, das in einem Tabellenkalkulationsprogramm einfach zu verarbeiten ist.

Wenn Sie sich intensiv mit Datenaufbereitung beschäftigen möchten, sollten Sie das dazugehörige Tutorial durcharbeiten. Wir gehen im Folgenden die zwei möglichen Szenarien, das Arbeiten mit vorformatierten Korpusdaten sowie die Arbeit mit eigenen Daten, beispielhaft durch.

Arbeit mit vorhandenen Korpusdaten

Nehmen wir zunächst an, Sie arbeiten mit einer Datei, die Sie aus einem öffentlich zugänglichen Korpus wie z.B. einem der Korpora des Digitalen Wörterbuchs der deutschen Sprache (DWDS) exportiert haben. Eine solche Datei sollte Ihnen im Dateiformat .csv vorliegen. Das bedeutet, dass die einzelnen Tabellenspalten, die Sie später im Tabellenkalkulationsprogramm sehen, durch Kommata getrennt sind. Wir müssen dem Tabellenkalkulationsprogramm aber noch sagen, dass es diese Kommatrennung auflösen und daraus ‘echte’ Tabellenspalten machen soll. Eine Beispiel-CSV-Datei finden Sie hier.

Wenn Sie Excel verwenden, öffnen Sie die Datei nicht durch Doppelklick, wie Sie das von anderen Dateien gewohnt sind. Was Excel dann anzeigt, dürfte ziemlich nach Datenmüll aussehen. Gehen Sie deshalb wie folgt vor.

  1. Öffnen Sie eine leere Excel-Datei.
  2. Wählen Sie im Reiter “Daten” die Option “Aus Text”.
  3. Wählen Sie Ihre .csv-Datei mit den Korpusdaten aus.

Im sich dann öffnenden Textimport-Fenster führen Sie die folgenden Schritte durch:

  1. Auf der ersten Seite sagen Sie, dass es sich um einen Text handelt, bei dem die einzelnen Spalten durch ein Trennzeichen getrennt sind (“Delimited”) – diese Option ist in der Regel schon angewählt. Außerdem teilen Sie Excel hier mit, dass der eingefügte Text UTF-8-formatiert ist.
  2. Auf der nächste Seite des Textimport-Assistenten geben Sie an, dass Kommata als Spaltentrenner benutzt werden. Bei den Textqualifizierern müssen Sie nichts ändern, da hier schon Anführungszeichen ausgewählt sind: Anführungszeichen werden in der CSV-Datei genutzt, um zusammengehörigen Text zusammenzuhalten (denn wären sie nicht da, würde Excel jedes Komma im Text für einen Spaltentrenner halten)
  3. Zuletzt können Sie noch alle Spalten als “Text” formatieren. (Eine eventuelle Datumsspalte können Sie prinzipiell auch als “Datum” formatieren, falls Sie ausschließlich in Excel weiterarbeiten, aber tendenziell ist davon abzuraten – gerade bei einer späteren Konversion in andere Dateiformate kann dabei alles mögliche schiefgehen.) Tipp: Um alle Spalten auf einmal als “Text” zu formatieren, scrollen Sie einfach im Fenster ganz nach rechts und klicken mit gedrückter Shift-Taste auf die letzte Spalte, dann sind alle Spalten markiert.

Wenn Sie Calc verwenden, ist das Ganze etwas einfacher. Wir brauchen dafür nur zwei Schritte:

  1. Öffnen Sie die Datei durch Rechtsklick > Öffnen mit, es öffnet sich automatisch der Textimportassistent.
  2. Wählen Sie aus, dass der Text UTF-8-kodiert ist, geben Sie Kommata als Spaltentrenner und Anführungszeichen als Textqualifizierer an.

So viel zum Import von Korpusdaten in ein Tabellenkalkulationsprogramm. Wenn Sie mit eigenen Daten arbeiten, haben Sie natürlich nicht den Luxus, eine vorformatierte Datei zu haben, die Sie nur noch in Excel oder Calc einlesen müssen.

Arbeit mit eigenen Daten

Wenn Sie ein selbst zusammengestelltes Korpus mit Hilfe eines Tabellenkalkulationsprogramms annotieren möchten, müssen Sie die Texte Ihres Korpus so aufbereiten, dass Sie sie einfach verarbeiten können. Dabei gilt immer das Zeilenprinzip (dazu kommen wir gleich noch ausführlicher): Jede Einheit, der Sie durch die Annotation um eine Information anreichern möchten, muss in einer Zeile stehen. Die einzelnen Spalten der Tabelle dienen dann dazu, die Annotationen aufzunehmen.

Einen zu annotierenden Text müssen Sie also zunächst in Zeilen zerlegen. Welche sprachlichen Elemente dabei jeweils eine eigene Zeile bekommen, hängt davon ab, auf welcher Annotationsebene sich ihre Annotation anspielen soll. Verdeutlichen wir uns dies an dem Beispieltextauszug zum Lieblingsvogel des Jahres, den wir hier noch einmal wiederholen:

Deutschland hat seinen Lieblingsvogel gekürt: Das Rotkehlchen ist der “Vogel des Jahres” 2021, wie der Naturschutzbund Deutschland (NABU) und der bayerische Landesbund für Vogelschutz (LBV) bekanntgaben. Damit setzte sich der Singvogel gegen die anderen neun Kandidaten durch, die zur Wahl standen: Rauchschwalbe, Kiebitz, Feldlerche, Stadttaube, Haussperling, Blaumeise, Eisvogel, Goldregenpfeifer und Amsel. (https://www.tagesschau.de/inland/gesellschaft/vogel-des-jahres-105.html)

Wenn Sie eine Annotation vornehmen, die sich auf Satzebene bewegt, Sie also Informationen vornehmen, die sich auf einen ganzen Satz beziehen, dann sollte jeder Satz des zu annotierenden Textes in einer einzelnen Zeile stehen. Ein Beispiel dafür ist die Annotation von Satztypen (z.B. Aussagesatz, Fragesatz usw.). Die Umsetzung könnte etwa so aussehen:

Beispiel für eine Satztyp-Annotation

In einem Texteditor wie Notepad++ (Windows) oder BBEdit (Mac) ist es sehr einfach, mit Hilfe von regulären Ausdrücken einen Text so zu formatieren, dass jeder Satz (oder auch jedes Wort) in einer Zeile steht. Dafür brauchen wir reguläre Ausdrücke, die hier (ab S. 14) näher erklärt werden. Mit dem Suchen&Ersetzen-Befehl und einem regulären Ausdruck (genauer: einer lookbehind assertion) können wir z.B. nach jedem Punkt, Ausrufezeichen und Fragezeichen einen Zeilenumbruch (der reguläre Ausdruck dafür lautete \n) einfügen.

Regulärer Ausdruck

Das mag komplex sein und erfordert zugegebenermaßen auch etwas Übung, aber wenn man die wichtigsten regulären Ausdrücke erst einmal verinnerlicht hat, ist es relativ einfach, diese sehr flexibel einzusetzen. Dafür sei nochmals auf das bereits erwähnte Tutorial verwiesen, aber auch auf die exzellente Seite regular-expressions.info.

Doch auch wenn Sie pro Satz Annotationen vornehmen, die sich nur auf ein einzelnes Wort beziehen, ist die zeilenweise Annotation von Sätzen ausreichend. Ein Beispiel dafür ist die semantische Annotation der Frames, die von den Vollverben in den jeweiligen (Haupt-)Sätzen evoziert werden. Das sähe dann in etwa so aus:

Beispiel für eine Frame-Annotation

Wenn Sie eine Annotation vornehmen, die sich auf Wortebene bewegt, müssen Sie jedes Wort in eine einzelne Zeile schreiben. Aber keine Sorge: Sie müssen das nicht per Hand machen, denn sowohl Excel als auch Calc haben Funktionen, die Ihnen das abnehmen. Wie das funktioniert, sehen Sie im folgenden Screencast.

Das Zeilenprinzip

Bei der Annotation vorhandener Korpusdaten wie auch eigener Daten gilt bei der Arbeit mit einem Tabellenkalkulationsprogramm das Zeilenprinzip. Das heißt, dass jede Tabellenzeile für genau ein sprachliches Phänomen vorgesehen ist. Bei vorhandenen Korpusdaten ist dies meist ein ganzer Korpustreffer, bei der Arbeit mit eigenen Daten können dies neben Sätzen aber auch einzelne Wörter sein. Sie können sich das Zeilenprinzip also wie folgt merken:

Eine Zeile = ein zu annotierendes sprachliches Phänomen. Jede Zeile enthält genau einen Korpustreffer, einen Satz oder ein Wort.

Diese Aufteilung in Zeilen ist gewissermaßen die Vorbereitung für die eigentliche Annotation. Wenn die Daten nun um Informationen angereichert werden sollen, sei es durch Metadaten oder sprachwissenschaftliche Annotationen, kommen die einzelnen Spalten der Tabelle ins Spiel. Es gilt:

Eine Spalte = eine Informationskategorie. Jede Spalte enthält eine einzelne Sorte Daten. Bei vorhandenen Korpusdaten gibt es eine Spalte für den linken Kontext, für das Keyword oder den Belegsatz, für den rechten Kontext, ebenso ist je eine Spalte für Metainformationen wie Textsorte, Datum oder Jahr vorgesehen.

Bei sprachwissenschaftlichen Annotationen umfasst jede Spalte eine eigene sprachwissenschaftliche Kategorie, also z.B. eine Wortart, einen Satztyp oder einen Frame.

Damit hängt unmittelbar zusammen, welche Informationen eine einzelne Zelle aufnimmt:

Eine Zelle = eine Beobachtung. Jede Zelle gibt die einzelne Ausprägung der Kategorie an, für die die Spalte vorgesehen ist und die in dem sprachlichen Phänomen, das in der Zeile steht, zu erkennen ist.

Bei Metadaten ist dies also z.B. die konkrete Textsorte (wie Zeitungsartikel, Belletristik oder Blog) oder das konkrete Datum oder die Jahreszahl, zu der der Beleg veröffentlicht wurde.

Bei sprachwissenschaftlichen Annotationen kann das z.B. für Wortart NN (für "normales Nomen"), für den Satztyp "Aussagesatz" oder für die Frame-Annotation der Frame "Choosing" sein.

GATE

Für die meisten Fragestellungen, die im Rahmen von Haus- oder Abschlussarbeiten bearbeitet werden, ist die Annotation mit Tabellenkalkulationsprogrammen sehr gut geeignet. Aber für manche Fragestellungen kann es sinnvoll sein, eine eigens für linguistische Annotation entwickelte Software zu benutzen. Das ist insbesondere dann der Fall, wenn man mit komplexer Mehrebenenannotation arbeiten möchte. Stellen wir uns zum Beispiel vor, Sie haben eine Sammlung an Volltexten und wollen in dieser idiomatische Ausdrücke, die konzeptuelle Metaphern enthalten, auf Phrasenebene annotieren – etwa ans Messer liefern, in die Luft gehen etc. – und zusätzlich mit Lemma- Wortartenannotationen versehen (sofern noch nicht vorhanden) und diese Daten dann flexibel durchsuchen können. In einem solchen Fall bietet sich die Annotation mit einem dezidierten Annotationstool an.

Als Alternative bzw. Ergänzung zur Annotation mit Tabellenkalkulationsprogrammen möchten wir Ihnen daher im Folgenden GATE (General Architecture for Text Engineering) vorstellen. GATE ist ein freies (Open Source) Softwarepaket für unterschiedlichste Anwendungen bei der Verarbeitung sprachlicher Daten. Es umfasst nicht nur die Möglichkeit, Texte mit eigenen Annotationen zu versehen, sondern diese u.a. auch automatisch nach morphosyntaktischen Kategorien wie Wortarten zu taggen. Darüber hinaus können Sie GATE auch zur Verwaltung umfangreicher Korpora und zum Organisieren von Texten verwenden. Wir konzentrieren uns allerdings auf die Nutzung für die Annotation eigener Daten.

Installation

Sie können GATE ganz einfach mittels eines Installers, den Sie von der offiziellen Webseite herunterladen können, installieren. Bitte beachten Sie, dass Sie i.d.R., besonders wenn Sie unter Windows arbeiten, vor der Installation von GATE eine Java-Implementierung installieren müssen, etwa die von GATE empfohlene AdoptOpenJDK. Achten Sie bei deren Installation darauf, dass Sie bei der Installationsroutine die Option "JavaSoft (Oracle) registry keys" aktivieren (d.h. das Häkchen in der entsprechenden Box setzen), sonst funktioniert die anschließende Installation von GATE nicht.

Die Anforderungen für die Installation von GATE können sich jedoch, je nachdem mit welchem Betriebssystem und welcher Hardware Sie arbeiten, unterscheiden. Lesen Sie deshalb aufmerksam die Hinweise auf der Downloadseite von GATE.

Erstellen eines eigenen Korpus und Hinzufügen von Dokumenten

Um in GATE annotieren zu können, müssen Sie zunächst ein eigenes Korpus anlegen und diesem einzelne Dokumente hinzufügen. Diese Dokumente enthalten den Text, den Sie annotieren. Ein Dokument kann z.B. aus dem Text eines Zeitungsartikels oder einem Blogpost bestehen.

Öffnen Sie zunächst GATE. Um ein eigenes Korpus anzulegen, klicken Sie in der linken Spalte mit der rechten Maustaste auf Language Resources, fahren Sie im sich öffnenden Menü auf New und klicken Sie dann auf GATE Corpus. Vergeben Sie einen geeigneten Namen für Ihr Korpus und klicken Sie auf OK.

Als nächstes legen Sie die Dokumente an, die Sie dem Korpus hinzufügen möchten. Klicken Sie dafür ebenfalls mit der rechten Maustaste auf Language Resources, fahren Sie über New und klicken Sie auf GATE Document. In dem sich öffnenden Fenster können Sie einen Namen für das Dokument vergeben. Wenn es sich bei Ihrem Dokument um eine Webseite handelt, können Sie im Feld sourceURL den Link zu der Seite einfügen. GATE wird dann den Text der Webseite automatisch einlesen, sodass Sie diesen nicht selbst einfügen müssen. Sie können aber diesen Schritt auch überspringen und im Anschluss manuell Text in das Dokument einfügen.

Sie fügen manuell Text in ein Dokument ein, indem Sie nach einem Doppelklick auf das Dokument (in der linken Spalte) auf den Reiter Text klicken, sodass ein weißes Feld erscheint. Dort können Sie Ihren Text einfügen. Nachdem Sie den Text eingefügt haben, bietet es sich an, durch einen Klick auf den schwarzen Pfeil ganz rechts die Option Read-only auszuwählen, die verhindert, dass Sie den Text später unbeabsichtigt verändern.

Jetzt müssen Sie noch das Dokument Ihrem Korpus hinzufügen. Doppelklicken Sie dafür auf Ihr Korpus (in der linken Spalte) und klicken Sie auf das Symbol mit dem grünen Pluszeichen, bei dem Add new document(s) to this corpus erscheint, wenn Sie mit der Maus darüberfahren. In dem sich nun öffnenden Fenster können Sie Ihrem Korpus die gewünschten Dokumente zuordnen.

Speichern und Öffnen eines Korpus

Bevor Sie anfangen können zu annotieren, kommt jetzt ein wichtiger Schritt: Speichern Sie Ihr Korpus! Das ist deswegen so wichtig, weil GATE (anders als Sie es von anderen Programmen gewohnt sind) Ihre Arbeit nicht automatisch speichert und Sie auch beim Beenden des Programms nicht fragt, ob Sie speichern möchten.

Zum Speichern Ihres Korpus gibt es mehrere Möglichkeiten. Die sinnvollste ist, ihr Korpus in einem sog. Datastore zu speichern, damit sie es später wieder in GATE öffnen können. Dazu legen Sie zunächst einen neuen Datastore durch Rechtsklick auf Datastores und die Option Create Datastore an. Die Auswahlmöglichkeit Lucene Based Searchable DataStore können Sie beibehalten. Legen Sie dann einen neuen Ordner an einem Speicherort ihrer Wahl an und wählen Sie diesen wiederum als Speicherort für Ihren Datastore an. Das sich dann öffnende Fenster können Sie einfach mit einem Klick auf OK bestätigen.

Um Ihr Korpus jetzt in dem soeben angelegten Datastore zu speichern, klicken Sie mit der rechten Maustaste auf Ihr Korpus und wählen Sie Save to Datastore... aus. Im sich öffnenden Fenster wählen Sie den Datastore, den Sie eben angelegt haben. Wenn Sie an der Annotation Ihrer Dokumente gearbeitet haben, speichern Sie Ihr Zwischenergebnis in demselben Menü einfach mit Save to its Datastore.

Um Ihr gespeichertes Korpus zu einem späteren Zeitpunkt wieder zu öffnen, benötigen Sie wieder Ihren Datastore. Klicken Sie dazu wieder mit der rechten Maustaste aus Datastores, diesmal aber dann auf Open Datastores. Wenn Ihr Datastore ein Lucene Based Searchable DataStore ist, lassen Sie diese Option ausgewählt und navigieren Sie zu dem Speicherort, an dem Sie Ihren Datastore gespeichert haben. Wählen Sie den Ordner Ihres Datastore aus und bestätigen Sie mit Öffnen. Der geladene Datastore erscheint dann in der linken Spalte in GATE als Unterpunkt von Datastores. Ein Doppelklick auf Ihren Datastore öffnet eine Verzeichnisstruktur, von der aus Sie Ihr Korpus und auch die einzelnen Dokumente öffnen können. Zum Öffnen des Korpus klicken Sie doppelt auf dessen Namen. Das Korpus wird dann wie gewohnt unter Language Resources angezeigt.

Wenn Sie nun auf Ihr Korpus doppelklicken, werden dort die einzelnen Dokumente aufgelistet, die Sie wieder mit einem Doppelklick öffnen und dann annotieren können.

Die einfachste ist, per Rechtsklick auf Ihr Korpus (in der linken Spalte) die Option Save as… und dann GATE XML auszuwählen. Wählen Sie dann einen Ordner aus, das Ihr gesamtes Korpus umfasst, am besten erstellen Sie dazu einen neuen Ordner an einem Speicherort Ihrer Wahl. GATE speichert in diesem Ordner dann die einzelnen Dokumente als .xml-Dateien, die Sie später wieder in GATE einlesen können.

Annotieren mit GATE

Jetzt ist es so weit: Sie haben Ihr eigenes Korpus angelegt und diesem Dokumente zugewiesen. Nun können wir mit der Annotation beginnen. GATE ist ein Tool, mit dem Sie vor allem auf Wortebene annotieren können, indem Sie einzelnen Wörtern Tags zuweisen. Es eignet sich deshalb besonders für morphosyntaktische und semantische Annotationen.

Annotieren in GATE ist recht simpel. Nehmen wir an, wir möchten unseren Beispieltextauszug zum Vogel des Jahres daraufhin annotieren, welche Frames die Verben in den einzelnen Sätzen evozieren. Die Frames haben wir ja bereits ermittelt (siehe Abschnitt Semantik), jetzt wollen wir diese Erkenntnisse in eine Annotation mittels GATE übertragen.

Bevor Sie mit der Annotation beginnen, sind zwei Schritte zur Vorbereitung nötig:

  • Öffnen Sie Ihr Korpus und darin das Dokument, das Sie annotieren möchten.
  • Klicken Sie in der Leiste unmittelbar oberhalb des Textes die Schaltflächen Annotation Sets und Annotations List an, daraufhin erweitert sich die Ansicht um einen Bereich neben und einen Bereich unterhalb des Textes, den Sie annotieren.

Legen Sie jetzt ein neues Annotation Set an. Das ist gewissermaßen der Name des Tagsets, das wir während der Annotation kreieren. Tippen Sie dazu in das Eingabefeld in der unteren rechten Ecke von GATE etwas ein und klicken Sie auf New. Da wir in unserem Beispiel Frames annotieren, vergeben wir den Namen Frames für dieses Annotation Set. Sie können natürlich später noch weitere Annotation Sets anlegen, um damit weitere Tagsets zu kreieren, wir starten aber erst einmal mit einem. Alle Tags, die wir gleich vergeben, werden automatisch diesem Annotation Set zugeordnet.

Um einen Tag zu vergeben, markieren Sie jetzt ein Wort, das Sie annotieren möchten. In unserem Beispiel wäre das das Partizip gekürt, für das wir annotieren möchten, das es den Frame Choosing evoziert. Wenn Sie mit dem Mauszeiger jetzt über das markierte Wort fahren oder die Tastenkombination Strg+E drücken, öffnet sich ein kleines Fenster. Wenn Sie bisher noch keinen Tag vergeben haben, ist darin ein Feld, in dem _New_ steht. In dieses Feld tippen wir jetzt den Namen des Tags ein, in unserem Beispiel also Choosing. Bestätigen Sie mit der Eingabetaste. Sie sehen nun, dass die Annotation im Satz automatisch mit einer farbigen Markierung versehen wird und der Tag dem Annotation Set zugeordnet wird. Sie können das kleine Fenster dann schließen.

In der Liste der Tags sehen Sie vor jedem Tag eine kleine Box mit einem Häkchen. Wählen Sie das Häkchen ab, verschwindet auch die Farbmarkierung der Annotation im Text. Sie können sich so also später gezielt bestimmte Tags in der Annotation anzeigen lassen und andere ausblenden. Übrigens müssen Sie nicht die von GATE vorausgewählten Farbmarkierungen beibehalten. Sie können durch einen Rechtsklick auf den Tag und die Option Change colour auch selbst eine Farbe bestimmen.

Gehen Sie nun analog für alle anderen Frames vor. Der Vorteil dieser Methode ist, dass Sie während der Annotation spontan Tags kreieren und verändern können. Wenn Sie einen Tag umbenennen möchten, doppelklicken Sie einfach auf eine seiner Annotationen im Text und klicken Sie im sich dann öffnenden Menü auf den Namen des Tags. Darüber kommen Sie wieder zu dem kleinen Annotationsfenster, in dem Sie eben den Tag eingegeben haben. Dort können Sie ihn auch ändern. Wenn Sie die Annotation eines Tags löschen möchten, klicken Sie einfach in demselben kleinen Fenster auf den grünen Stift, neben dem ein rotes Kreuz ist. Möchten Sie einen ganzen Tag löschen (und damit auch alle Annotationen, die Sie mit ihm vorgenommen haben), klicken Sie in der Annotations List unterhalb des Textes mit der rechten Maustaste auf den entsprechenden Tag und wählen Sie Delete Annotations.

Denken Sie immer daran: Sichern Sie Ihre Arbeit in GATE regelmäßig, indem Sie Ihr Korpus in Ihrem Datastore speichern. Tun Sie das insbesondere, bevor Sie das Programm schließen, denn ansonsten sind Ihre Annotationen beim nächsten Öffnen des Korpus nicht mehr verfügbar.

Von GATE ins Suchabfragesystem: Datentransformation mit PEPPER

Wenn Sie das Korpus, das Sie in GATE erstellt haben, nun gezielt durchsuchen wollen oder sie zukünftigen Benutzer*innen zur Verfügung stellen möchten, lohnt es sich, sie in ein anderes Format zu überführen. Das an der HU Berlin entwickelte Tool PEPPER bietet dafür sehr viele Möglichkeiten, denn damit lassen sich Daten sehr unkompliziert von einem Format in ein anderes überführen. Da es eine große Vielzahl von Formaten unterstützt, verläuft nicht jede Konversion völlig reibungslos, insbesondere wenn Ihre Daten sehr komplexe Annotationen enthalten. In den meisten Fällen jedoch läuft die Konversion relativ problemlos. Beispielsweise kann man so die GATE-XML-Dateien in Excel-Tabellen überführen oder sich im ANNIS-Format ausgeben lassen, um sie im gleichnamigen Such- und Visualisierungssystem flexibel durchsuchen zu können.

PEPPER ist ein Terminal-basiertes Programm, d.h. man benutzt es über die Kommandozeile, die sich in Windows automatisch öffnen sollte, wenn man nach dem Download von PEPPER im heruntergeladenen, entpackten Ordner auf pepper.bat klickt. Auf dem Mac findet man das Terminal unter Applications > Utilities und navigiert dort mit dem Befehl cd pfad/zum/ordner zum PEPPER-Ordner, z.B. cd /Users/stefanhartmann/Downloads/pepper. Mit dem Befehl sh pepperStart.sh kann man Pepper dann starten.

Nun gilt es, einfach den Anweisungen in der Kommandozeile zu folgen. Zunächst gibt man einfach convert ein, um die Konversion zu starten. Dann muss man den Pfad zu dem Ordner angeben, in dem die GATE-XML-Dateien gespeichert sind. (Tipp: Unter Windows können Sie den Dateipfad aus den Infos kopieren, indem Sie mit gedrückter Umschalt⇧-Taste auf den entsprechenden Ordner rechtsklicken und “Als Pfad kopieren” auswählen; für Mac: Wenn Sie im Finder auf den Ordner klicken, können Sie mit ⌥ + ⌘ + C den Dateipfad in die Zwischenablage kopieren; wichtig für beide Betriebssysteme: Es dürfen keine Leerzeichen in den Dateipfaden sein, damit kann PEPPER derzeit nicht umgehen!) Als nächstes müssen wir das Quellformat auswählen, in unserem Fall also der GateImporter (Vorsicht: Es gibt auch einen GeTa-Importer, nicht verwechseln!). Die nächsten paar Optionen kann man in der Regel überspringen, bis man aufgefordert wird, den Pfad zum Zielordner anzugeben. Das ist der Ordner, in dem die Ergebnisdateien gespeichert werden sollen. Dieser Ordner muss zunächst von Ihnen erstellt werden; wo genau der Ordner liegt, ist egal, er sollte jedoch auf keinen Fall mit dem Quellordner identisch sein, weil dessen Inhalte sonst überschrieben werden. Die nächsten Optionen kann man in der Regel wieder überspringen; am Ende muss man nur noch ein weiteres Mal das Zauberwort convert eingeben und erhält, wenn alles gut gegangen ist, das Korpus im Wunschformat.

Zurück Hauptseite Weiter