9.1 Einleitung
Der vorliegende Beitrag pr?sentiert einen komplexen theoretisch-methodischen Ansatz für die semi-automatische Annotation und Analyse von Spontansprache in Transkripten als Teil multimodaler Daten.?
Die Annotation erfolgt mit einer definierten Zielstellung, basierend auf einem Annotationsschema und zugeh?rigen Annotationsrichtlinien. Analyseleitend sind immer Forschungsfragen.?
Im Mehrebenenannotationsansatz erfolgt die Annotation schichtweise, die Daten werden auf verschiedenen Ebnen mit Informationen angereichert. Mit der Komplexit?t der Zielstellung w?chst auch der Umfang des Annotationsschemas. Das trifft insbesondere auf die Annotation multimodaler Transkripte zu. Sie erfordern die Definition und Einführung einer Vielzahl von Annotationsebenen, die neben sprachlichen auch kommunikative und praktische Handlungen erfassen.?
9.2 Forschungskontext: Das Projekt Modiko
Ziel des Projekts: Modelle, Methode und Tools zu entwickeln, die es erlauben, Modalit?tsinterdependenz systematisch zu analysieren.?
Der Annotationsansatz unterstützt dies, indem er erm?glicht, Muster über verschiedene Datens?tze hinweg zu betrachten und identifizieren.?
9.3 Ans?tze zur Annotation von Spontansprache und Multimodalit?t
---TreeTagger: der Standardtool erlaubt die automatische Auszeichnung von Text mit morphosyntaktischen Kategorien (Pos-Tags) nach dem STTS-Tagset.
--- WebTagger: eine Weiterentwicklung von TreeTagger für Webtexte.?
---?EXMARaLDA: kann eine Mehrebenenannotation erm?glichen.?
--- Das Dortmunder Chat-Korpus: untersucht internetbasierte Kommunikation.?
--- Tagset für gesprochene Sprache: STTS-Tagset wird um neun Kategorien erweitert. Der TreeTagger wurde mit diesem Tagset auf das FOLK-Korpus trainiert und ein Goldstandard erstellt.?
---Tools für die Annotation von Audio- und Videodaten: ANVIL und ELAN unterstützt die Verknüpfung von Videos und Audiodateien in einem Screen.?
Fazit: die genanten Ans?tze erfassen Teilaspekte der MID, k?nnen MID nicht in ihrer Vielfalt abbilden.?
9.4 Mehrebenenannotation
Dieser Ansatz dient der systematischen Beschreibung von MID-Formen für? Analyse der Musterhaftigkeit von MID und der Betrachtung von MID-Funktionen.?
Die Entwicklung erfolgt daten- wie modellgeleitet.?
-- Datenbasis: Für die Entwicklung des Annotationsansatzes wurde aus dem Gesamtdatenbestand ein Pilotkorpus sowie ein Goldstandard gebildet.?
--- Datenaufbereitung und automatische Annotation: Die Umsetzung des Mehrebenenannotationsansatzes erfolgt in EXMARaLDA.? Die Daten wurden tokenisiert und morphosyntaktisch annotiert. Dafür wird der Tool TreeTagger adaptiert. Dann wurden die Daten in?EXMARaLDA überführt.?Die transktibierten ?u?erungen werden fortlaufend in einer Zeile dargestellt und durch Annotationsebenen erg?nzt. Die Benennung der Ebenen ergibt sich aus dem Sprecherkürzel und dem Kürzel für den in der Ebene notierten Inhalt.?
--- Das Mehrebenenannotationsschema: Es orientiert sich an dem Ansatz von Trevisan und adaptiert ihn gegenstandsspezifisch. Das Schema umfasst 7 Ebenen und 25 Tags. Das vollst?ndige Schema findet sich im Anhang dieses Beitrags. Das Schema umfasst 7 Spalten:?

Das Schema hat sich in der Handhabung als zielführend erwiesen, erste quantitative Auswertung des Goldstandards zeigen eine hohe übereinstimmung der h?ndischen Annotationen.?
Quelle: Mehrebenenannotation multimodaler Daten