最近在玩寶可夢(mèng),經(jīng)常要搜索寶可夢(mèng)數(shù)據(jù),因?yàn)闆]有詞庫,導(dǎo)致輸入時(shí)效率太低。一開始是想直接在網(wǎng)上找一個(gè)他人發(fā)布的詞庫,通過工具轉(zhuǎn)換成 rime 詞庫格式,然后導(dǎo)入到當(dāng)前的詞庫環(huán)境中。但是在查找過程中考慮到:這些詞庫的更新未必及時(shí),另外詞語或許存在缺漏——而我又不可能對(duì)這些詞語核對(duì)一遍。既然如此,不如自己做一個(gè)來得更加簡(jiǎn)單嚴(yán)謹(jǐn)直接。
數(shù)據(jù)源
數(shù)據(jù)源決定了數(shù)據(jù)是否最新。寶可夢(mèng)的詞庫一般不會(huì)更新得太頻繁。使用 神奇寶貝百科 作為數(shù)據(jù)源恐怕再合適不過了。感謝這個(gè)網(wǎng)站和相關(guān)的所有貢獻(xiàn)者。
關(guān)于提取規(guī)則
在提取這些詞語時(shí),我大致遵循了下列規(guī)則:
- 帶有英文和數(shù)字的,刪除
- 帶有括號(hào)的,刪除掉括號(hào)和括號(hào)中的內(nèi)容。如果和已有的重疊,就忽略
- 對(duì)于這種帶“?”的,比如“秘劍?千重濤”,則通過將“?”分割,得到兩個(gè)新的詞語
詞庫
我把格式化后的幾個(gè)詞庫文件放在 Github 的這個(gè)項(xiàng)目里面了:PokemonDict


文章本來到此就結(jié)束了。但是我還是想吐嘈一下搜狗。
因?yàn)榭紤]到輸入法的隱私問題,我從別的輸入法切換到 Rime 已經(jīng)很久了。以前用過搜狗輸入法,在制作這個(gè)詞庫時(shí),想順帶做成搜狗詞庫的格式上傳到其官網(wǎng)。
這個(gè)上傳過程是十分有趣!回想起來又無語又想笑。
搜狗的通用詞庫里面添加詞條有兩種方式,一種就是直接在一個(gè) textarea 里面粘貼目標(biāo)詞條上傳,另一種是通過 txt 文件上傳。
考慮到搜狗的詞庫制作成本地的 txt 文件,所以優(yōu)先選擇這種方式。然后我發(fā)現(xiàn):咦?上傳按鈕哪去了?我找找頁面代碼。被注釋掉了?!我去掉注釋試試看,可以選擇但沒有效果,可能后面的 js 邏輯部分也被處理掉了(猜測(cè),沒有看代碼)。

既然這種方式行不通,那我就試試看在線添加詞條。于是,我貼入詞庫相關(guān)詞語,點(diǎn)擊提交。

有點(diǎn)出乎意料,又有點(diǎn)意料之中。我到底該喜聞樂見還是感到無奈呢。
http 414 error,請(qǐng)求鏈接太長了。你把詞庫的詞條都加到 url 里面了吧?

還真是。為什么要把詞條當(dāng)成 GET 參數(shù)?
搜狗的說明:
幫助:
1.上傳文本格式為一行一詞,每行不得超過10個(gè)漢字,多余的部分將被會(huì)過濾
2.確保文本中無字母(拼音除外)、數(shù)字、亂碼、標(biāo)點(diǎn)等符號(hào),否則將被過濾
3.合格詞條數(shù)目不得小于5條,不得多于5萬條
4.為確保詞條質(zhì)量,請(qǐng)勿上傳單字,否則將被過濾
5.如需注音請(qǐng)?jiān)趩蝹€(gè)漢字后標(biāo)注,如"長chang相守";切勿在詞語后標(biāo)注多個(gè)拼音
6.本系統(tǒng)提供創(chuàng)建或增刪詞條的對(duì)比預(yù)覽功能,請(qǐng)確保修改無誤后提交
版權(quán)說明>>
說好的上傳詞條可以達(dá) 50000,這種方式 1000 多詞條就干崩潰了。
是不是意味著,這功能基本沒什么人用。
是不是程序員跑路的原因?
算了(︶︿︶)