9 Fallstudie 4 Mehrebenenannotation multimodaler Daten

9.1 Einleitung

Der vorliegende Beitrag pr?sentiert einen komplexen theoretisch-methodischen Ansatz für die semi-automatische Annotation und Analyse von Spontansprache in Transkripten als Teil multimodaler Daten.?

Die Annotation erfolgt mit einer definierten Zielstellung, basierend auf einem Annotationsschema und zugeh?rigen Annotationsrichtlinien. Analyseleitend sind immer Forschungsfragen.?

Im Mehrebenenannotationsansatz erfolgt die Annotation schichtweise, die Daten werden auf verschiedenen Ebnen mit Informationen angereichert. Mit der Komplexit?t der Zielstellung w?chst auch der Umfang des Annotationsschemas. Das trifft insbesondere auf die Annotation multimodaler Transkripte zu. Sie erfordern die Definition und Einführung einer Vielzahl von Annotationsebenen, die neben sprachlichen auch kommunikative und praktische Handlungen erfassen.?

9.2 Forschungskontext: Das Projekt Modiko

Ziel des Projekts: Modelle, Methode und Tools zu entwickeln, die es erlauben, Modalit?tsinterdependenz systematisch zu analysieren.?

Der Annotationsansatz unterstützt dies, indem er erm?glicht, Muster über verschiedene Datens?tze hinweg zu betrachten und identifizieren.?

9.3 Ans?tze zur Annotation von Spontansprache und Multimodalit?t

---TreeTagger: der Standardtool erlaubt die automatische Auszeichnung von Text mit morphosyntaktischen Kategorien (Pos-Tags) nach dem STTS-Tagset.

--- WebTagger: eine Weiterentwicklung von TreeTagger für Webtexte.?

---?EXMARaLDA: kann eine Mehrebenenannotation erm?glichen.?

--- Das Dortmunder Chat-Korpus: untersucht internetbasierte Kommunikation.?

--- Tagset für gesprochene Sprache: STTS-Tagset wird um neun Kategorien erweitert. Der TreeTagger wurde mit diesem Tagset auf das FOLK-Korpus trainiert und ein Goldstandard erstellt.?

---Tools für die Annotation von Audio- und Videodaten: ANVIL und ELAN unterstützt die Verknüpfung von Videos und Audiodateien in einem Screen.?

Fazit: die genanten Ans?tze erfassen Teilaspekte der MID, k?nnen MID nicht in ihrer Vielfalt abbilden.?

9.4 Mehrebenenannotation

Dieser Ansatz dient der systematischen Beschreibung von MID-Formen für? Analyse der Musterhaftigkeit von MID und der Betrachtung von MID-Funktionen.?

Die Entwicklung erfolgt daten- wie modellgeleitet.?

-- Datenbasis: Für die Entwicklung des Annotationsansatzes wurde aus dem Gesamtdatenbestand ein Pilotkorpus sowie ein Goldstandard gebildet.?

--- Datenaufbereitung und automatische Annotation: Die Umsetzung des Mehrebenenannotationsansatzes erfolgt in EXMARaLDA.? Die Daten wurden tokenisiert und morphosyntaktisch annotiert. Dafür wird der Tool TreeTagger adaptiert. Dann wurden die Daten in?EXMARaLDA überführt.?Die transktibierten ?u?erungen werden fortlaufend in einer Zeile dargestellt und durch Annotationsebenen erg?nzt. Die Benennung der Ebenen ergibt sich aus dem Sprecherkürzel und dem Kürzel für den in der Ebene notierten Inhalt.?

--- Das Mehrebenenannotationsschema: Es orientiert sich an dem Ansatz von Trevisan und adaptiert ihn gegenstandsspezifisch. Das Schema umfasst 7 Ebenen und 25 Tags. Das vollst?ndige Schema findet sich im Anhang dieses Beitrags. Das Schema umfasst 7 Spalten:?


Das Schema hat sich in der Handhabung als zielführend erwiesen, erste quantitative Auswertung des Goldstandards zeigen eine hohe übereinstimmung der h?ndischen Annotationen.?


Quelle: Mehrebenenannotation multimodaler Daten

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容