使用文本訓(xùn)練ngram語(yǔ)言模型

先分詞

#sed 's/$/\ 1/' seg.dict > seg_lm.dict
import sys
import re
import jieba

seg_dict="seg_lm.dict"
orig_file="lm/test_lm.txt"
seg_file="lm/test_lm.seg"

jieba.set_dictionary(seg_dict)
with open(seg_file, "w") as f:
    for line in open(orig_file):
        line = line.strip()
        words = jieba.cut(line, HMM=False) # turn off new word discovery (HMM-based)
        new_line = " ".join(words)
        f.write(new_line+"\n")

分詞后的文本

小明 今天 去哪 了
小明 是 我們 班 最 亮 的
小明 明天 準(zhǔn)備 去哪

使用SRILM生成arpa格式的語(yǔ)言模型

ngram-count -sort -text lm/test_lm.seg 3 -unk -map-unk "UNK" -interpolate -lm corpus.lm

將語(yǔ)言模型轉(zhuǎn)化為G.fst

arpa2fst --disambig-symbol=#0 --read-symbol-table=gmm/data/lang/words.txt corpus.lm G.fst

使用fstdraw繪制pdf

fstdraw --isymbols=gmm/data/lang/words.txt --osymbols=gmm/data/lang/words.txt G.fst G1.dot

上面文本的完整轉(zhuǎn)化過(guò)程

arpa格式:

\data\
ngram 1=14
ngram 2=16
ngram 3=0

\1-grams:
-0.7781513  </s>
-99 <s> -0.5228788
-1.255273   了   -0.2218487
-1.255273   亮   -0.2762064
-1.255273   今天  -0.2498775
-1.255273   準(zhǔn)備  -0.2498775
-0.9542425  去哪  -0.3679768
-0.7781513  小明  -0.5228786
-1.255273   我們  -0.2762064
-1.255273   明天  -0.2762064
-1.255273   是   -0.2762064
-1.255273   最   -0.2762064
-1.255273   班   -0.2762064
-1.255273   的   -0.2218487

\2-grams:
-0.1249387  <s> 小明
-0.30103    了 </s>
-0.30103    亮 的
-0.30103    今天 去哪
-0.30103    準(zhǔn)備 去哪
-0.4771213  去哪 </s>
-0.4771213  去哪 了
-0.60206    小明 今天
-0.60206    小明 明天
-0.60206    小明 是
-0.30103    我們 班
-0.30103    明天 準(zhǔn)備
-0.30103    是 我們
-0.30103    最 亮
-0.30103    班 最
-0.30103    的 </s>

\3-grams:

\end\

文本格式的G.fst:

1   7   小明  小明  0.287681967
1   0   #0  <eps>   1.20397294
0   2   了   了   2.89037275
0   3   亮   亮   2.89037275
0   4   今天  今天  2.89037275
0   5   準(zhǔn)備  準(zhǔn)備  2.89037275
0   6   去哪  去哪  2.19722462
0   7   小明  小明  1.79175949
0   8   我們  我們  2.89037275
0   9   明天  明天  2.89037275
0   10  是   是   2.89037275
0   11  最   最   2.89037275
0   12  班   班   2.89037275
0   13  的   的   2.89037275
0   1.79175949
2   0   #0  <eps>   0.510825515
2   0.693147242
3   13  的   的   0.693147242
3   0   #0  <eps>   0.635988772
4   6   去哪  去哪  0.693147242
4   0   #0  <eps>   0.575364172
5   6   去哪  去哪  0.693147242
5   0   #0  <eps>   0.575364172
6   2   了   了   1.09861243
6   0   #0  <eps>   0.847297907
6   1.09861243
7   4   今天  今天  1.38629448
7   9   明天  明天  1.38629448
7   10  是   是   1.38629448
7   0   #0  <eps>   1.20397246
8   12  班   班   0.693147242
8   0   #0  <eps>   0.635988772
9   5   準(zhǔn)備  準(zhǔn)備  0.693147242
9   0   #0  <eps>   0.635988772
10  8   我們  我們  0.693147242
10  0   #0  <eps>   0.635988772
11  3   亮   亮   0.693147242
11  0   #0  <eps>   0.635988772
12  11  最   最   0.693147242
12  0   #0  <eps>   0.635988772
13  0   #0  <eps>   0.510825515
13  0.693147242

G.fst繪制出如下圖:

image-20201027150534942.png

另一個(gè)文本

小明 今天 去哪 了
小愛(ài) 今天天氣怎么樣
小明 是 我們 班 最 亮 的
小明 明天 準(zhǔn)備 去哪
image-20201027152056427.png
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

友情鏈接更多精彩內(nèi)容