學(xué)習(xí)tf的時候用到的一個詞匯創(chuàng)建工具,比較方便,記錄其使用方法。
1. 導(dǎo)入
from tensorflow.contrib import learn
vp = learn.preprocessing.VocabularyProcessor(100, 0, tokenizer_fn=chinese_tokenizer)
其中VocabularyProcessor(max_document_length,min_frequency=0,vocabulary=None, tokenizer_fn=None)的構(gòu)造函數(shù)中有4個參數(shù)
max_document_length是文檔的最大長度。如果文本的長度大于最大長度,那么它會被剪切,反之則用0填充
min_frequency詞頻的最小值,出現(xiàn)次數(shù)>最小詞頻 的詞才會被收錄到詞表中
vocabulary CategoricalVocabulary 對象,不太清楚使用方法
tokenizer_fn tokenizer function,講句子或給定文本格式 token化得函數(shù),可以理解為分詞函數(shù)
2.token化
vp = learn.preprocessing.VocabularyProcessor(10, tokenizer_fn=list)
x = list(vp.fit_transform(["abc", "bbd"]))
print(x)
創(chuàng)建一個長為10的詞表,然后將字符串token化得到結(jié)果為

也可以結(jié)合中文來做,當(dāng)然tokenizer_fn要與文本相適應(yīng),可以實(shí)現(xiàn)自己的tokenizer function,如
from jieba import cut
from tensorflow.contrib import learn
import numpy as np
DOCUMENTS = [
'這是一條測試1',
'這是一條測試2',
'這是一條測試3',
'這是其他測試',
]
def chinese_tokenizer(docs):
for doc in docs:
yield list(cut(doc))
vocab = learn.preprocessing.VocabularyProcessor(10, 0, tokenizer_fn=chinese_tokenizer)
x = list(vocab.fit_transform(DOCUMENTS))
print(np.array(x))
這里中文引入了jieba分詞,實(shí)現(xiàn)了自己的tokenizer函數(shù),輸出結(jié)果如下:

CategoricalVocabulary 對象可以先構(gòu)建一個詞典,再做token化,還是不太熟,但是有一個小demo可以示范:
vocab = learn.preprocessing.CategoricalVocabulary()
vocab.get("A")
vocab.get("B")
vocab.freeze()
vocab_processor = learn.preprocessing.VocabularyProcessor(max_document_length=4,
vocabulary=vocab,
tokenizer_fn=list)
tokens = vocab_processor.fit_transform(["ABC", "CBABAF"])
print(np.array(list(tokens)))
這里預(yù)先創(chuàng)建了一個詞典,添加了"A","B" 進(jìn)去,并且設(shè)置最大文本長度為4,結(jié)果如下

我們可以還可以觀察得到的詞典,以dict的形式輸出 這是一個 詞--->詞表id的映射
vocab_dict = vocab.vocabulary_._mapping
print(vocab_dict)
分別輸出以上的中文詞表,和通過CategoricalVocabulary構(gòu)建的詞表如下

反向的索引 即 詞表id--->詞的映射 這是一個列表
print(vocab_dict)
print(vocab.vocabulary_._reverse_mapping)

可以通過id索引到詞
vocab.vocabulary_.reverse(3)
輸出 在詞表中id為3的詞
3.存儲和加載
vocab.save('vocab.pickle')
vocab = VocabularyProcessor.restore('vocab.pickle')