知識(shí)累積

word2vec

原理

核心：將詞變?yōu)橄蛄?，?lái)源是網(wǎng)絡(luò)中每個(gè)詞的參數(shù)
方法：hierarchic softmax，negative sample
訓(xùn)練：邏輯回歸+極大似然
文本處理方式：CBOW多對(duì)一，Skip-gram一對(duì)多
參考資料：
比較詳細(xì)的說(shuō)明：
https://www.cnblogs.com/peghoty/p/3857839.html
我看這個(gè)看懂的：
http://www.cnblogs.com/pinard/p/7243513.html

源碼閱讀

關(guān)于Word2vec的c源碼，其中有一些細(xì)節(jié)，除了上面兩篇，下面這個(gè)也有說(shuō)明：

文本詞嵌入（Word Embeddings）的方法

參見(jiàn)：https://www.analyticsvidhya.com/blog/2017/06/word-embeddings-count-word2veec/
2.1 Frequency based Embedding
2.1.1 Count Vectors
2.1.2 TF-IDF
2.1.3 Co-Occurrence Matrix
關(guān)于這節(jié)將的不是特別清楚，參考另一篇文章，
2.2 Prediction based Embedding
2.2.1 CBOW
2.2.2 Skip-Gram

GloVe

概覽：作者想利用LSA中的全局矩陣信息和Word2Vec中的局部向量信息來(lái)得到每個(gè)word的向量表示v。作者首先假設(shè)得到了這個(gè)向量表示，然后通過(guò)開腦洞的方式想辦法將這個(gè)向量中包含的規(guī)律與 $Ratio=\frac{P_{ij}}{P_{jk}}$ （共現(xiàn)概率比）保持一致來(lái)拼湊出函數(shù)表示。

GloVe和其他方法的聯(lián)系

其他方法(Skip-gram)可以表示為一個(gè)softmax回歸問(wèn)題，對(duì)該公式進(jìn)行修改后可以表示為 $P_{ij}和Q_{ij}$ 的帶權(quán)交叉熵，把交叉熵?fù)p失更換為均方損失就可以得到GloVe的優(yōu)化公式

共現(xiàn)矩陣權(quán)重計(jì)算方式

對(duì)于窗口內(nèi)的單詞對(duì)，考慮利用兩者的間隔距離來(lái)設(shè)置權(quán)重，如果兩者相隔的距離遠(yuǎn)，那么共現(xiàn)次數(shù)就少于1，論文中按兩個(gè)單詞的間隔d來(lái)設(shè)置，若單詞對(duì)中兩個(gè)單詞相隔d-1個(gè)單詞，那么他們的權(quán)重計(jì)算為 $\frac1d$

NCE噪聲對(duì)比估計(jì)

fasttext

概覽：基于word2vec, 利用Word2vec原有的詞袋特征，加上ngram特征，訓(xùn)練網(wǎng)絡(luò)
對(duì)句子的意思表示是通過(guò)所有的詞向量的求和取平均。
trick:
利用hash減少n-gram的存儲(chǔ)
參考資料：

知乎
源碼分析

學(xué)習(xí)詞向量的兩個(gè)模型族

主要是Matrix Factorization和Shallow Window-Based Methods。前者主要是LSA, pLSA, LDA系列，后者是Word2Vec系列

LSA潛在語(yǔ)義分析

基于global matrix factorization
首先對(duì)文檔統(tǒng)計(jì)次數(shù)，計(jì)算Count Vector或者TFIDF Vector創(chuàng)建單詞m-文檔n矩陣，然后利用SVD，然后降維
Am×n=Um×mΣm×nVTn×n≈Um×kΣk×kVTk×n
Uil 是第i個(gè)文本與第l個(gè)主題的相關(guān)度，Vjm 是第j個(gè)單詞和第m個(gè)主題的相關(guān)度，Σlm 是第l個(gè)主題和第m個(gè)主題的相關(guān)度。
LSA優(yōu)勢(shì)：
首先文章和單詞都映射到同一個(gè)語(yǔ)義空間。在該空間內(nèi)即能對(duì)文章進(jìn)行聚類也能對(duì)單詞進(jìn)行聚類。重要的是我們能通過(guò)這些聚類結(jié)果實(shí)現(xiàn)基于單詞的文獻(xiàn)檢索，反之亦然。
語(yǔ)義空間的維度明顯明顯少于源單詞-文章矩陣。更重要的是這樣經(jīng)過(guò)特定方式組合而成維度包含源矩陣的大量信息，同時(shí)降低了噪聲的影響。這些特性有助于后續(xù)其他算法的加工處理。
最后，LSA 是一個(gè)全局最優(yōu)化算法，其目標(biāo)是尋找全局最優(yōu)解而非局部最優(yōu)解，因此它能求出基于局部求解算法得不到的全局信息。有時(shí)LSA會(huì)結(jié)合一些局部算法，如最近領(lǐng)域法，使得LSA性能得到進(jìn)一步提升
LSA缺陷：
首先LSA是假設(shè)服從高斯分布和2范數(shù)規(guī)范化的，因此它并非適合于所有場(chǎng)景。例如，單詞在語(yǔ)料庫(kù)中服從的是Poisson 分布而不是高斯分布
LSA不能有效處理一詞多義問(wèn)題。因?yàn)長(zhǎng)SA的基本假設(shè)之一是單詞只有一個(gè)詞義
LSA的核心是SVD，而SVD的計(jì)算復(fù)雜度十分高并且難以更新新出現(xiàn)的文獻(xiàn)。不過(guò)最近已經(jīng)出現(xiàn)一些有效的方法用于解決SVD的基于文獻(xiàn)更新問(wèn)題。

LSA的升級(jí)版PLSA

Probability Latent Semantic Analysis, 基于LSA定義了概率模型

LDA

LSA可以尋找文本的主題分布，可以產(chǎn)生文本對(duì)應(yīng)的向量。在主題分布的范圍內(nèi)，也有LDA的方法：
LDA是一種文檔生成模型，給定k個(gè)主題，

local context window局部窗口

skip-gram和CBOW

encoder-decoder seq2sekeyword

q模型

attention

xgboost&lightGBM

兩者分布式的實(shí)現(xiàn)，相互有什么區(qū)別
第二篇文章，其中對(duì)分布式的實(shí)現(xiàn)做了綜述

分布式通信模型的區(qū)別

主流的分布式通信模型有四個(gè)：

MapReduce
AllReduce
Parameter Server
Reduce-Scatter

原理待學(xué)習(xí)

xgboost分布式

xgboost的分布式實(shí)現(xiàn)在陳天奇的一篇文章中說(shuō)初版的XGBoost分布式實(shí)現(xiàn)是Allreduce

lightGBM分布式

HMM - 生成模型

CRF - 判別模型

比賽總結(jié) - 騰訊廣告大賽

檢索算法BM25

對(duì)文本語(yǔ)義理解的辦法

對(duì)字、詞、短語(yǔ)、句子、段落、文章的理解難度依次遞增，對(duì)語(yǔ)義理解方向，有Extraction和Abstractive兩種方法。Extraction是抽取式的，基于對(duì)單詞短語(yǔ)的重要性排序而來(lái)，可以通過(guò)TFIDF、Word2Vec來(lái)展現(xiàn)。排序算法有Textrank、TextTeaser

為什么神經(jīng)網(wǎng)絡(luò)需要初始化權(quán)重

不能全為0，因?yàn)樘荻雀乱蕾嚈?quán)重的值，如果權(quán)重為0，會(huì)導(dǎo)致所有的bp誤差為0，無(wú)法更新
不能初始化為相同值，因?yàn)榍跋蚝笏械墓?jié)點(diǎn)值一樣，bp時(shí)所有的誤差都一樣，導(dǎo)致所有的權(quán)重變化都一樣，導(dǎo)致節(jié)點(diǎn)沒(méi)有差異性
初始化差異不能過(guò)大，否則在某些節(jié)點(diǎn)誤差更新過(guò)大，某些節(jié)點(diǎn)誤差更新過(guò)小，累積下來(lái)會(huì)導(dǎo)致梯度問(wèn)題（彌散或者爆炸）
每一層輸出的方差盡量相等，xavier(隨機(jī)均勻分布)可以保證此條件
隨機(jī)高斯分布

ROC曲線的物理意義以及計(jì)算方法

AUC的含義是任選一個(gè)正樣本和負(fù)樣本，正樣本預(yù)測(cè)值大于負(fù)樣本預(yù)測(cè)值的概率
計(jì)算方法，先對(duì)所有樣本預(yù)測(cè)值排序，由原點(diǎn)開始，有正樣本沿y方向走，有負(fù)樣本沿x方向走，畫出一條鋸齒形的曲線

隨機(jī)森林的采樣極限

假設(shè)數(shù)據(jù)量為m，分別為 $X_1,X_2,X_3,...,X_m$ ，有放回的均勻采樣，每次拿一個(gè)出來(lái)，每次取不到A的概率是 $1-\frac1m$ ，經(jīng)過(guò)n次抽樣后，每次都取不到A的概率為 $(1-\frac1m)^n$ ，當(dāng)m,n都趨于無(wú)窮時(shí)，公式趨于 $\frac1e$ ，結(jié)果為36.8%，這部分沒(méi)有被采樣到的數(shù)據(jù)，我們稱之為袋外數(shù)據(jù)

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

知識(shí)累積