寶可夢(mèng) Rime 詞庫

最近在玩寶可夢(mèng),經(jīng)常要搜索寶可夢(mèng)數(shù)據(jù),因?yàn)闆]有詞庫,導(dǎo)致輸入時(shí)效率太低。一開始是想直接在網(wǎng)上找一個(gè)他人發(fā)布的詞庫,通過工具轉(zhuǎn)換成 rime 詞庫格式,然后導(dǎo)入到當(dāng)前的詞庫環(huán)境中。但是在查找過程中考慮到:這些詞庫的更新未必及時(shí),另外詞語或許存在缺漏——而我又不可能對(duì)這些詞語核對(duì)一遍。既然如此,不如自己做一個(gè)來得更加簡(jiǎn)單嚴(yán)謹(jǐn)直接。

數(shù)據(jù)源

數(shù)據(jù)源決定了數(shù)據(jù)是否最新。寶可夢(mèng)的詞庫一般不會(huì)更新得太頻繁。使用 神奇寶貝百科 作為數(shù)據(jù)源恐怕再合適不過了。感謝這個(gè)網(wǎng)站和相關(guān)的所有貢獻(xiàn)者。

關(guān)于提取規(guī)則

在提取這些詞語時(shí),我大致遵循了下列規(guī)則:

  • 帶有英文和數(shù)字的,刪除
  • 帶有括號(hào)的,刪除掉括號(hào)和括號(hào)中的內(nèi)容。如果和已有的重疊,就忽略
  • 對(duì)于這種帶“?”的,比如“秘劍?千重濤”,則通過將“?”分割,得到兩個(gè)新的詞語

詞庫

我把格式化后的幾個(gè)詞庫文件放在 Github 的這個(gè)項(xiàng)目里面了:PokemonDict

寶可夢(mèng) Rime 詞庫.png
詞庫內(nèi)容.png

文章本來到此就結(jié)束了。但是我還是想吐嘈一下搜狗。

因?yàn)榭紤]到輸入法的隱私問題,我從別的輸入法切換到 Rime 已經(jīng)很久了。以前用過搜狗輸入法,在制作這個(gè)詞庫時(shí),想順帶做成搜狗詞庫的格式上傳到其官網(wǎng)。

這個(gè)上傳過程是十分有趣!回想起來又無語又想笑。

搜狗的通用詞庫里面添加詞條有兩種方式,一種就是直接在一個(gè) textarea 里面粘貼目標(biāo)詞條上傳,另一種是通過 txt 文件上傳。

考慮到搜狗的詞庫制作成本地的 txt 文件,所以優(yōu)先選擇這種方式。然后我發(fā)現(xiàn):咦?上傳按鈕哪去了?我找找頁面代碼。被注釋掉了?!我去掉注釋試試看,可以選擇但沒有效果,可能后面的 js 邏輯部分也被處理掉了(猜測(cè),沒有看代碼)。

上傳按鈕哪去了.png

既然這種方式行不通,那我就試試看在線添加詞條。于是,我貼入詞庫相關(guān)詞語,點(diǎn)擊提交。

sougou_error.png

有點(diǎn)出乎意料,又有點(diǎn)意料之中。我到底該喜聞樂見還是感到無奈呢。
http 414 error,請(qǐng)求鏈接太長了。你把詞庫的詞條都加到 url 里面了吧?

414error.png

還真是。為什么要把詞條當(dāng)成 GET 參數(shù)?

搜狗的說明:

幫助:
1.上傳文本格式為一行一詞,每行不得超過10個(gè)漢字,多余的部分將被會(huì)過濾
2.確保文本中無字母(拼音除外)、數(shù)字、亂碼、標(biāo)點(diǎn)等符號(hào),否則將被過濾
3.合格詞條數(shù)目不得小于5條,不得多于5萬條
4.為確保詞條質(zhì)量,請(qǐng)勿上傳單字,否則將被過濾
5.如需注音請(qǐng)?jiān)趩蝹€(gè)漢字后標(biāo)注,如"長chang相守";切勿在詞語后標(biāo)注多個(gè)拼音
6.本系統(tǒng)提供創(chuàng)建或增刪詞條的對(duì)比預(yù)覽功能,請(qǐng)確保修改無誤后提交
版權(quán)說明>>

說好的上傳詞條可以達(dá) 50000,這種方式 1000 多詞條就干崩潰了。

是不是意味著,這功能基本沒什么人用。

是不是程序員跑路的原因?

算了(︶︿︶)

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容