標貝語音數據集標注格式(中文)

標注格式(中文)

  1. 文本格式為 *.txt,一行文字,一行拼音。文字行句首為句子號,句子號由六位半角阿拉伯數字組成,以
    Tab健隔開,后接文本內容,句尾以回車換行符結束;拼音行句首為Tab鍵,后接文本拼音,拼音之間以空
    格分開,句尾以回車換行符結束。
  2. 聲調:聲調以 1-5 標記,1-4 對應陰平、陽平、上聲、去聲,5 表示輕聲。
    韻律標注:
    中文韻律結構標注包含韻律詞(#1)、韻律短語(#2)、語調短語(#3)、句末(#4)四個層級的標注。
    例:
    100001 該公司#1 當時#1 表示#3,將于#1 本周一#2 公布#1 正式#1 消息#4。
    gai1 gong1 si1 dang1 shi2 biao3 shi4 jiang1 yu2 ben3 zhou1 yi1 gong1 bu4 zheng4 shi4 xiao1 xi5
  3. 聲韻母邊界切分:
    中文切分到聲韻母,標注格式為 interval 文件格式。
?著作權歸作者所有,轉載或內容合作請聯系作者
【社區(qū)內容提示】社區(qū)部分內容疑似由AI輔助生成,瀏覽時請結合常識與多方信息審慎甄別。
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發(fā)布,文章內容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。

相關閱讀更多精彩內容

友情鏈接更多精彩內容