推理機的學習也是推理機

? ? 前兩篇談到一個在分類(回歸)深度學習的概率模型中極易產(chǎn)生混淆的部位,推理機是推理機,對推理機的學習過程是另外一回事,這種概念上的區(qū)分對于在思維中形成清晰的問題結(jié)構(gòu)是非常關(guān)鍵的。

? ? 推理機的概率模型:

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? p(y|x)? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? (1)

? ? 用樣本集合對它的學習(訓練)的概率模型:

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? argmax_{\theta}? \prod\nolimits_{i=1}^n p(y^i|x^i )? ? ? ? ? ? ? ? ? ? ? ? ? (2)

? ? 其中\theta是參數(shù)化概率分布的參數(shù),我們在這里對一般概率分布和參數(shù)化概率不再加以區(qū)分,而認為\theta就是表示了一個一般分布的參數(shù),雖然我們未必能夠為這個參數(shù)賦予數(shù)學形式--這實際上是一個思想實驗。具體的\theta值在定義一個分布,機器學習的過程是在搜索這個分布。

? ? 那么,很自然地,我們可以把\theta作為變量,并且是隨機變量,既然是隨機變量,它本身就有一個分布。有了這個概念,公式(2)中所描述機器學習的過程,實際上也是一個推理機結(jié)構(gòu)。我們把樣本集合標記為D, 把它本身作為一個隨機變量。注意,這個隨機變量是樣本集合,而不是樣本集合中的樣本。這時學習就變成了推理:給出D的一個值,得到\theta。這個推理機的概率模型是:

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? p(\theta |d)? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? (3)

? ? 所以,對推理機的學習本身也是推理,對應一個概率推理機,這個推理機也是一個條件概率分布,條件是樣本集合變量。

? ? 昨天第二篇中提到,學習是要找到一個\theta使得d最有可能出現(xiàn),在這種方法中實際上我們并未真正獲得這個完整的推理機,沒有獲得d出現(xiàn)時p(\theta |d)這個概率分布,而是對這個分布做了最大似然點估計,most likelihood point estimation,在這個點上p(d|\theta )最大。真正獲得這個分布 的方法叫貝葉斯方法,得到的是公式(3)這個分布,并且取概率最大的那個\theta,它與點估計所獲得的\theta之間有一個距離:

? ? ? ? ? ? ? ? p(d|\theta) = p(\theta|d) p(d)/p(\theta )

? ? 關(guān)于貝葉斯方法,那是另外一個故事了。

? ? 今天我們看到,推理機的學習也是推理機,這種概念遞歸下去就是關(guān)于meta learning,architecture learning以及hyperparameter learning。但那又是另外一個故事了。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。

友情鏈接更多精彩內(nèi)容