Adaptive Softmax

自適應Softmax
原文：https://towardsdatascience.com/speed-up-your-deep-learning-language-model-up-to-1000-with-the-adaptive-softmax-part-1-e7cc1f89fcc9

提出原因

原來的分層Softmax只使用于CPU，并不適用于GPU

基本原理

根據(jù)2-8原則，即80%的文檔中只包含20%的單詞，或者說20%的單詞覆蓋了80%的文檔，設想下面的場景：

假設有1000個單詞構成的詞匯表，其中200個為常用詞，且任意一個單詞，它為常用詞的概率80%。那么將詞匯表按常用和非常用進行分組后，計算次數(shù)的期望為200 x 80% + 800 x 20% = 320。而原始的Softmax需要計算1000次。則分組后，計算速度提升了將近4倍！

那么處理詞匯表的基本思路如下：

將詞匯表分割為兩組 $V^{HEAD}$ 和 $V^{TAIL}$
將少一些的更常出現(xiàn)的單詞放入 $V^{HEAD}$ , 其它單詞放入 $V^{TAIL}$ ，那么任意一個單詞出現(xiàn)在 $V^{HEAD}$ 中的概率顯然更大，即 $p(V^{HEAD}) > p(V^{TAIL})$

處理步驟

首先將 $V^{TAIL}$ ，從原詞匯表中剔除，并新增一個分類用來指代原來屬于 $V^{TAIL}$ 中的詞，那么現(xiàn)在詞匯表的數(shù)量為 $V^{HEAD} + 1$
首先在現(xiàn)有的詞匯表上做一次Softmax，若單詞屬于 $V^{TAIL}$ , 唯一需要做的就是在 $V^{TAIL}$ 中再做一次Softmax。那么單詞的概率變?yōu)榱? $P^{HEAD}(tail|h) * P^{TAIL}(w|h)$ , $P^{HEAD}(tail|h)$ 指單詞屬于 $V^{TAIL}$ 的概率，而后者指單詞是 $V^{TAIL}$ 中任意單詞的概率。

然而，你并非只能分為兩組，更常用的是分為2-5組，處理方式與2組的相似，以5組為例：

首先將原詞匯表進行劃分，使其數(shù)量為 $V^{HEAD} + 4$ ，其余4類代表單詞屬于其它分組的概率
然后按照2組時的第二步相同

提升推理速度的另一個Trick

另一個以最小的精度犧牲提高速度的方法，就是為每個組都賦予不同的容量。設 $nh$ 為模型隱層的輸出維度，對于更常用的單詞，需要更大的容量來使預測更準確。假設1000個單詞，被[200, 400]分為3組，那么前200個單詞用 $nh$ 進行預測，200-400個單詞可以 $nh / 2$ 的容量進行預測，剩余的單詞可以 $nh / 4$ 的容量進行預測。

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

自適應Softmax(Adaptive Softmax)

自適應Softmax(Adaptive Softmax)

Adaptive Softmax

提出原因

基本原理

處理步驟

提升推理速度的另一個Trick

相關閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

自適應Softmax(Adaptive Softmax)

Adaptive Softmax

提出原因

基本原理

處理步驟

提升推理速度的另一個Trick

相關閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av