Doc2Vec論文及實(shí)戰(zhàn)

第一部分:論文

最近讀了一遍Doc2Vec原文,整篇文章思路清晰明了,建議在讀博客之前先看一遍文章,因?yàn)槲恼轮袑⒏鱾€(gè)部分講的很詳細(xì)。

這里只記錄文章中最最重要的一段話:

At prediction time, one needs to perform an inference step to compute the paragraph vector for a new paragraph. This

is also obtained by gradient descent. In this step, the parameters for the rest of the model, the word vectors W and the softmax weights, are fixed.

即帶優(yōu)化的推斷,所有同一個(gè)訓(xùn)練好的模型每次得到的文檔向量可能是不同的~


第二部分: 實(shí)戰(zhàn)

doc2vec的輸入是TaggedDocument向量,它包括word_list和tags兩部分,word_list是文檔的分詞列表,如['火箭','是','總冠軍',]。tags是文檔的標(biāo)簽列表。

?? 創(chuàng)建TaggedDocument對象:

document = TaggedDocdument(word_list,tags=label)

模型參數(shù)說明:

1.dm=1 PV-DM? dm=0 PV-DBOW。

2.size 所得向量的維度。

3.window 上下文詞語離當(dāng)前詞語的最大距離。

4.alpha 初始學(xué)習(xí)率,在訓(xùn)練中會下降到min_alpha。

5.min_count 詞頻小于min_count的詞會被忽略。

6.max_vocab_size 最大詞匯表size,每一百萬詞會需要1GB的內(nèi)存,默認(rèn)沒有限制。

7.sample 下采樣比例。

8.iter 在整個(gè)語料上的迭代次數(shù)(epochs),推薦10到20。

9.hs=1 hierarchical softmax ,hs=0(default) negative sampling。

10.dm_mean=0(default) 上下文向量取綜合,dm_mean=1 上下文向量取均值。

11.dbow_words:1訓(xùn)練詞向量,0只訓(xùn)練doc向量。

定義模型:

model = Doc2Vec(dm=1, min_count=1, window=3, size=size, sample=1e-3, negative=5)?

?? 訓(xùn)練模型:

model.train(x_train, total_examples=model_dm.corpus_count, epochs=epoch_num)?

保存模型:

model.save('model/model_my.model')

使用infer_vector來推理文檔的向量?(輸入text仍然是文檔的分詞列表):

vector = model.infer_vector(text)?

使用model.docvecs[tag]得到已訓(xùn)練文檔的向量。

得到與輸入文檔相似度最高的十個(gè)文檔:

sims = model.docvecs.most_similar([vector], topn=10)


參考:

https://arxiv.org/pdf/1405.4053.pdf

https://blog.csdn.net/weixin_39837402/article/details/80254868

https://radimrehurek.com/gensim/models/doc2vec.html

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

  • 前言 本文根據(jù)實(shí)際項(xiàng)目撰寫,由于項(xiàng)目保密要求,源代碼將進(jìn)行一定程度的刪減。本文撰寫的目的是進(jìn)行公司培訓(xùn),請勿以任何...
    b19707134332閱讀 5,022評論 0 18
  • 2018.3.3 10:05分,我的小千金出生,從為人夫到為人父,肩膀上又扛起了一份責(zé)任,不得不感謝我的媳婦,...
    d033b74b6b47閱讀 419評論 1 1
  • 無常是常態(tài)。 無常是一種常態(tài)。世界上唯一不變的就是變化。 今天去同學(xué)那邊玩,碰到了一場交通事故,一輛小轎車撞上了餓...
    釋蓮花閱讀 477評論 0 1
  • 2017年11月24日第五天 ——今天早上是爸爸做的飯下的面條,兒子起來一聽吃面條就不高興了,摟著我說“媽媽我不想...
    王海瑞媽媽閱讀 149評論 0 0
  • 為了去看這部電影,開場前我特意買了包紙巾。 向來淚點(diǎn)比笑點(diǎn)低的我這次失算了,或者說,并沒有如想象中那般抱頭痛哭。電...
    卷毛維安閱讀 3,743評論 13 121

友情鏈接更多精彩內(nèi)容