九九九九热热热热,成人免费黄色电影网站

學(xué)習(xí)tf的時候用到的一個詞匯創(chuàng)建工具，比較方便，記錄其使用方法。

1. 導(dǎo)入


from tensorflow.contrib import learn

vp = learn.preprocessing.VocabularyProcessor(100, 0, tokenizer_fn=chinese_tokenizer)

其中VocabularyProcessor（max_document_length,min_frequency=0,vocabulary=None, tokenizer_fn=None)的構(gòu)造函數(shù)中有4個參數(shù)

max_document_length是文檔的最大長度。如果文本的長度大于最大長度，那么它會被剪切，反之則用0填充

min_frequency詞頻的最小值，出現(xiàn)次數(shù)>最小詞頻的詞才會被收錄到詞表中

vocabulary CategoricalVocabulary 對象，不太清楚使用方法
tokenizer_fn tokenizer function，講句子或給定文本格式 token化得函數(shù)，可以理解為分詞函數(shù)

2.token化

vp = learn.preprocessing.VocabularyProcessor(10, tokenizer_fn=list)
x = list(vp.fit_transform(["abc", "bbd"]))
print(x)

創(chuàng)建一個長為10的詞表，然后將字符串token化得到結(jié)果為

也可以結(jié)合中文來做，當(dāng)然tokenizer_fn要與文本相適應(yīng)，可以實(shí)現(xiàn)自己的tokenizer function，如

from jieba import cut
from tensorflow.contrib import learn
import numpy as np

DOCUMENTS = [
    '這是一條測試1',
    '這是一條測試2',
    '這是一條測試3',
    '這是其他測試',
]


def chinese_tokenizer(docs):
    for doc in docs:
        yield list(cut(doc))


vocab = learn.preprocessing.VocabularyProcessor(10, 0, tokenizer_fn=chinese_tokenizer)
x = list(vocab.fit_transform(DOCUMENTS))
print(np.array(x))

這里中文引入了jieba分詞，實(shí)現(xiàn)了自己的tokenizer函數(shù)，輸出結(jié)果如下：

CategoricalVocabulary 對象可以先構(gòu)建一個詞典，再做token化，還是不太熟，但是有一個小demo可以示范：

vocab = learn.preprocessing.CategoricalVocabulary()
vocab.get("A")
vocab.get("B")
vocab.freeze()
vocab_processor = learn.preprocessing.VocabularyProcessor(max_document_length=4,
                                                          vocabulary=vocab,
                                                          tokenizer_fn=list)
tokens = vocab_processor.fit_transform(["ABC", "CBABAF"])
print(np.array(list(tokens)))

這里預(yù)先創(chuàng)建了一個詞典，添加了"A","B" 進(jìn)去，并且設(shè)置最大文本長度為4，結(jié)果如下

我們可以還可以觀察得到的詞典，以dict的形式輸出這是一個詞--->詞表id的映射

vocab_dict = vocab.vocabulary_._mapping
print(vocab_dict)

分別輸出以上的中文詞表，和通過CategoricalVocabulary構(gòu)建的詞表如下

反向的索引即詞表id--->詞的映射這是一個列表

print(vocab_dict)
print(vocab.vocabulary_._reverse_mapping)

可以通過id索引到詞

vocab.vocabulary_.reverse(3)

輸出在詞表中id為3的詞

3.存儲和加載

vocab.save('vocab.pickle')
vocab = VocabularyProcessor.restore('vocab.pickle')

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

用tf的VocabularyProcessor創(chuàng)建詞匯表vocab

用tf的VocabularyProcessor創(chuàng)建詞匯表vocab

1. 導(dǎo)入

2.token化

3.存儲和加載

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

用tf的VocabularyProcessor創(chuàng)建詞匯表vocab

1. 導(dǎo)入

2.token化

3.存儲和加載

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av