用tf的VocabularyProcessor創(chuàng)建詞匯表vocab

學(xué)習(xí)tf的時候用到的一個詞匯創(chuàng)建工具,比較方便,記錄其使用方法。


1. 導(dǎo)入


from tensorflow.contrib import learn

vp = learn.preprocessing.VocabularyProcessor(100, 0, tokenizer_fn=chinese_tokenizer)

其中VocabularyProcessor(max_document_length,min_frequency=0,vocabulary=None, tokenizer_fn=None)的構(gòu)造函數(shù)中有4個參數(shù)

max_document_length是文檔的最大長度。如果文本的長度大于最大長度,那么它會被剪切,反之則用0填充

min_frequency詞頻的最小值,出現(xiàn)次數(shù)>最小詞頻 的詞才會被收錄到詞表中

vocabulary CategoricalVocabulary 對象,不太清楚使用方法
tokenizer_fn tokenizer function,講句子或給定文本格式 token化得函數(shù),可以理解為分詞函數(shù)

2.token化

vp = learn.preprocessing.VocabularyProcessor(10, tokenizer_fn=list)
x = list(vp.fit_transform(["abc", "bbd"]))
print(x)

創(chuàng)建一個長為10的詞表,然后將字符串token化得到結(jié)果為


也可以結(jié)合中文來做,當(dāng)然tokenizer_fn要與文本相適應(yīng),可以實(shí)現(xiàn)自己的tokenizer function,如

from jieba import cut
from tensorflow.contrib import learn
import numpy as np

DOCUMENTS = [
    '這是一條測試1',
    '這是一條測試2',
    '這是一條測試3',
    '這是其他測試',
]


def chinese_tokenizer(docs):
    for doc in docs:
        yield list(cut(doc))


vocab = learn.preprocessing.VocabularyProcessor(10, 0, tokenizer_fn=chinese_tokenizer)
x = list(vocab.fit_transform(DOCUMENTS))
print(np.array(x))

這里中文引入了jieba分詞,實(shí)現(xiàn)了自己的tokenizer函數(shù),輸出結(jié)果如下:


CategoricalVocabulary 對象可以先構(gòu)建一個詞典,再做token化,還是不太熟,但是有一個小demo可以示范:

vocab = learn.preprocessing.CategoricalVocabulary()
vocab.get("A")
vocab.get("B")
vocab.freeze()
vocab_processor = learn.preprocessing.VocabularyProcessor(max_document_length=4,
                                                          vocabulary=vocab,
                                                          tokenizer_fn=list)
tokens = vocab_processor.fit_transform(["ABC", "CBABAF"])
print(np.array(list(tokens)))

這里預(yù)先創(chuàng)建了一個詞典,添加了"A","B" 進(jìn)去,并且設(shè)置最大文本長度為4,結(jié)果如下


我們可以還可以觀察得到的詞典,以dict的形式輸出 這是一個 詞--->詞表id的映射

vocab_dict = vocab.vocabulary_._mapping
print(vocab_dict)

分別輸出以上的中文詞表,和通過CategoricalVocabulary構(gòu)建的詞表如下


反向的索引 即 詞表id--->詞的映射 這是一個列表

print(vocab_dict)
print(vocab.vocabulary_._reverse_mapping)

可以通過id索引到詞

vocab.vocabulary_.reverse(3)

輸出 在詞表中id為3的詞

3.存儲和加載

vocab.save('vocab.pickle')
vocab = VocabularyProcessor.restore('vocab.pickle')
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容