標注格式(中文)
- 文本格式為 *.txt,一行文字,一行拼音。文字行句首為句子號,句子號由六位半角阿拉伯數字組成,以
Tab健隔開,后接文本內容,句尾以回車換行符結束;拼音行句首為Tab鍵,后接文本拼音,拼音之間以空
格分開,句尾以回車換行符結束。 - 聲調:聲調以 1-5 標記,1-4 對應陰平、陽平、上聲、去聲,5 表示輕聲。
韻律標注:
中文韻律結構標注包含韻律詞(#1)、韻律短語(#2)、語調短語(#3)、句末(#4)四個層級的標注。
例:
100001 該公司#1 當時#1 表示#3,將于#1 本周一#2 公布#1 正式#1 消息#4。
gai1 gong1 si1 dang1 shi2 biao3 shi4 jiang1 yu2 ben3 zhou1 yi1 gong1 bu4 zheng4 shi4 xiao1 xi5 - 聲韻母邊界切分:
中文切分到聲韻母,標注格式為 interval 文件格式。