bert 字符編碼報(bào)錯(cuò)

報(bào)錯(cuò)信息: UnicodeDecodeError: 'utf-8' codec can't decode byte 0xcd in position 9: invalid continuation byte

三份數(shù)據(jù)文件:train.tsv dev.tsv test.tsv 不是utf-8編碼導(dǎo)致,在notepad++中轉(zhuǎn)換為utf-8即可

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

  • 字符集和編碼簡(jiǎn)介 在編程中常常可以見(jiàn)到各種字符集和編碼,包括ASCII,MBCS,Unicode等字符集。確切的說(shuō)...
    蘭山小亭閱讀 9,091評(píng)論 0 13
  • python 中的unicode是讓人很困惑、比較難以理解的問(wèn)題.這篇文章寫(xiě)的比較好,utf-8是 unicode...
    think_lonely閱讀 972評(píng)論 0 0
  • 05-03-字符串和編碼 https://www.liaoxuefeng.com/wiki/10169596636...
    qu6zhi閱讀 193評(píng)論 0 0
  • 字符編碼 我們已經(jīng)講過(guò)了,字符串也是一種數(shù)據(jù)類型,但是,字符串比較特殊的是還有一個(gè)編碼問(wèn)題。 因?yàn)橛?jì)算機(jī)只能處理數(shù)...
    luckybabying閱讀 339評(píng)論 0 0
  • 對(duì)于數(shù)據(jù)集3,4,5,6會(huì)存在大量為0的情況的原因?yàn)椋阂驗(yàn)檫@個(gè)數(shù)據(jù)集中存在大量的原文并且是對(duì)文章進(jìn)行改寫(xiě)的,從而會(huì)...
    Going小智閱讀 669評(píng)論 0 0

友情鏈接更多精彩內(nèi)容