Lernerkorpora

In den Forschungsprojekten MERLIN (2012-2014) und SpraStu (2017-2020) sind unter Mitarbeit bzw. Leitung von Katrin Wisniewski einige Lernerkorpora, also systematische Sammlungen digitaler L2-Produktionen, entstanden.

Andere Lernerkorpora des Deutschen sind z. B. BeMaTaCFALKO, Teile von GeWissHaMaTaCund HaMoTiC oder SWIKO. Siehe auch die Übersicht der Learner Corpus Association.

MERLIN

Webseite: https://merlin-platform.eu/

MERLIN war ein EU-Projekt (Kooperation aus u. a. TU Dresden, Eberhard-Karls-Universität Tübingen, Karls-Universität Prag, Europäische Akademie Bozen, telc gGmbH), innerhalb dessen das gleichnamige Korpus erstellt wurde. Das MERLIN-Korpus enthält rund 2300 Texte von Lernenden der italienischen, deutschen und tschechischen Sprache, die aus schriftlichen Prüfungen entnommen wurden. Die Prüfungen haben zum Ziel, Kenntnisse auf den Niveaustufen A1-C1 des Gemeinsamen Europäischen Referenzrahmens (GER) nachzuweisen. Die Texte sind schriftliche Prüfungsleistungen aus TELC-Sprachtests (Deutsch und Italienisch) und den Prüfungen des Testzentrums der Karlsuniversität Prag (Tschechisch). Die Aufgaben sind standardisiert und auf den GER bezogen. Um einen möglichst direkten Bezug zum Referenzrahmen zu gewährleisten, wurden alle Prüfungstexte von eigens geschulten Prüfern anhand des im Projekt entwickelten MERLIN-Bewertungsrasters nachbewertet. Die Texte wurden transkribiert, annotiert und mit Zielhypothesen und Fehlerannotationen versehen.

Die MERLIN-Webseite enthält umfangreiche Dokumentationen zum Korpus. Außerdem ist das Korpus direkt in ANNIS durchsuchbar. Es ist auch möglich, das Korpus vollständig für eigene Forschungsarbeiten herunterzuladen.

DISKO

Webseite: https://home.uni-leipzig.de/sprastu/korpora/disko/

Das longitudinale Lernerkorpus DISKO (Deutsch im Studium: Lernerkorpus) entstand im BMBF-Projekt „Sprache und Studienerfolg bei Bildungsausländer/-innen“ (SpraStu). Alle Texte aus DISKO entstanden im Kontext von Sprachtests zum Nachweis der sogenannten „sprachlichen Studierfähigkeit“; vorwiegend handelt es sich um TestDaF-Schreibaufgaben. Die meisten Texte (n = 510) wurden von internationalen Studierenden (Bildungsausländer:innen), weitere (n = 85) von Studierenden mit der L1 Deutsch verfasst. Die Texte wurden von TestDaF-Bewerter:innen beurteilt (nach GER-Niveaus bzw. TestDaF-Niveaustufen).

Alle Texte wurden transkribiert und automatisch POS-getaggt (inkl. teilautomatischer Korrektur). Teile von DISKO wurden zusätzlich mit einer Zielhypothese versehen.

Informationen zum Korpusaufbau und anderen Details finden sich im Korpushandbuch. Auf der Webseite des Projektes SpraStu sind weitere Informationen zum Projekt und zum Korpus verfügbar.

DISKO kann im Langzeitrepositorium des IDS Mannheim vollständig heruntergeladen werden. Über den Korpusserver der HU Berlin ist das Korpus in ANNIS durchsuchbar.

MIKO

Webseite: https://home.uni-leipzig.de/sprastu/korpora/miko/

Das multimodale, wissenschaftssprachliche Korpus MIKO (Mitschreiben in Vorlesungen: multimodales Lehr-Lernerkorpus) entstand im BMBF-Projekt „Sprache und Studienerfolg bei Bildungsausländer/-innen“ (SpraStu). Es enthält korpuslinguistisch aufbereitete Video- und Audiomitschnitte aus 8 Vorlesungen (10:00 Stunden, 82075 Token). Die 8 Vorlesungen wurden transkribiert und liegen jeweils mit und ohne Tokenisierung und automatischen Annotationen vor. Die Daten werden ergänzt durch umfangreiche Metadaten zu den Vorlesungen und den Sprechenden. Weitere 4 Vorlesungen (5:38 Stunden) sind ohne Transkription verfügbar. Zusätzlich sind die in diesen Vorlesungen verfassten Mitschriften (n=146) von Studierenden mit Deutsch als L1 oder L2 als Scans verfügbar.

MIKO kann im Archiv für Gesprochenes Deutsch des IDS Mannheim durchsucht werden. Im Langzeitarchiv des IDS steht es zum Download zur Verfügung.

Auf der Webseite des Projektes SpraStu sind umfangreiche Informationen zum Projekt sowie das detaillierte Handbuch zu MIKO verfügbar.