? ? 前兩篇談到一個在分類(回歸)深度學習的概率模型中極易產(chǎn)生混淆的部位,推理機是推理機,對推理機的學習過程是另外一回事,這種概念上的區(qū)分對于在思維中形成清晰的問題結(jié)構(gòu)是非常關(guān)鍵的。
? ? 推理機的概率模型:
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? (1)
? ? 用樣本集合對它的學習(訓練)的概率模型:
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? (2)
? ? 其中是參數(shù)化概率分布的參數(shù),我們在這里對一般概率分布和參數(shù)化概率不再加以區(qū)分,而認為
就是表示了一個一般分布的參數(shù),雖然我們未必能夠為這個參數(shù)賦予數(shù)學形式--這實際上是一個思想實驗。具體的
值在定義一個分布,機器學習的過程是在搜索這個分布。
? ? 那么,很自然地,我們可以把作為變量,并且是隨機變量,既然是隨機變量,它本身就有一個分布。有了這個概念,公式(2)中所描述機器學習的過程,實際上也是一個推理機結(jié)構(gòu)。我們把樣本集合標記為
, 把它本身作為一個隨機變量。注意,這個隨機變量是樣本集合,而不是樣本集合中的樣本。這時學習就變成了推理:給出D的一個值,得到
。這個推理機的概率模型是:
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? (3)
? ? 所以,對推理機的學習本身也是推理,對應一個概率推理機,這個推理機也是一個條件概率分布,條件是樣本集合變量。
? ? 昨天第二篇中提到,學習是要找到一個使得d最有可能出現(xiàn),在這種方法中實際上我們并未真正獲得這個完整的推理機,沒有獲得d出現(xiàn)時
這個概率分布,而是對這個分布做了最大似然點估計,most likelihood point estimation,在這個點上
最大。真正獲得這個分布 的方法叫貝葉斯方法,得到的是公式(3)這個分布,并且取概率最大的那個
,它與點估計所獲得的
之間有一個距離:
? ? ? ? ? ? ? ?
? ? 關(guān)于貝葉斯方法,那是另外一個故事了。
? ? 今天我們看到,推理機的學習也是推理機,這種概念遞歸下去就是關(guān)于meta learning,architecture learning以及hyperparameter learning。但那又是另外一個故事了。