Korpus
Die Datengrundlage für das Projekt bilden frnhd. Hexenverhörprotokolle aus der Edition von Macha et al. (2005). Aus diesem Gesamtkorpus aus 56 Protokollen wurde zusätzlich ein Kernkorpus von 18 Texten erstellt, die gleichmäßig über Raum und Zeit verteilt sind.
Die Annotation der Texte umfasst:
- Tokenisierung (graphisch und syntaktisch)
- POS-Tags
- Lemmata
- Belebtheitskategorien
- Satzgrenzen
- Semantische Rollen
- Satzglieder