機(jī)器學(xué)習(xí) 西瓜書 Day22 規(guī)則學(xué)習(xí)

p347 - p371
前幾天休刊了,今天回來了= =
進(jìn)入第15章

第15章 規(guī)則學(xué)習(xí)模型

15.1 基本概念

“規(guī)則”通常指語義明確,能描述數(shù)據(jù)分布隱含的客觀規(guī)律或領(lǐng)域概念,可寫成“若..則..”。

與其他黑箱模型相比,規(guī)則學(xué)習(xí)具有更好的可解釋性。
絕大多數(shù)人類知識(shí)都能通過數(shù)理邏輯來進(jìn)行刻畫,因此便于引進(jìn)領(lǐng)域知識(shí)。

符合一條規(guī)則的樣本稱為被該規(guī)則“覆蓋”

當(dāng)同一個(gè)示例被判別結(jié)果不同的多條規(guī)則覆蓋時(shí),稱發(fā)生了沖突
解決沖突的方法稱為沖突消解,包括投票法、排序法、元規(guī)則法。

一般都要設(shè)置默認(rèn)規(guī)則,來處理規(guī)則集合未覆蓋的樣本。

命題規(guī)則VS一階規(guī)則(關(guān)系型規(guī)則) p348

15.2 序貫覆蓋

規(guī)則學(xué)習(xí)最直接的做法是“序貫覆蓋”,即逐條歸納。
每學(xué)到一條規(guī)則,就將該規(guī)則覆蓋的樣本去掉,以剩下的樣例繼續(xù)訓(xùn)練。
由于每次只處理一部分?jǐn)?shù)據(jù),所以也被稱為“分治”策略。

基于窮盡搜索的做法
例子:p350。

但現(xiàn)實(shí)中會(huì)因?yàn)榻M合爆炸而不可行。
通常有兩種策略:
自頂向下(生成-測試) vs 自底向上(數(shù)據(jù)驅(qū)動(dòng))

前者是從一般的規(guī)則開始,逐漸添加新文字,是規(guī)則逐漸“特化”的過程
更容易產(chǎn)生泛化性能較好的規(guī)則。
對(duì)噪聲魯棒性強(qiáng)。
例子p351-352。
可每次采用多個(gè)最優(yōu)文字來避免過于貪心。

后者是從特殊的規(guī)則開始,減少文字,是“泛化”的過程。
更適用于訓(xùn)練樣本較少。

15.3 剪枝優(yōu)化

規(guī)則生成本質(zhì)是一個(gè)貪心搜索過程,需要緩解過擬合。
最常見做法是剪枝

預(yù)剪枝 vs 后剪枝

CN2算法的預(yù)剪枝。借助了統(tǒng)計(jì)性檢驗(yàn)。

REP的后剪枝,O(m^4)。
IREP O(m log^2 m)
著名的規(guī)則學(xué)習(xí)算法 RIPPER 后處理機(jī)制,將R中所有規(guī)則再進(jìn)行一次優(yōu)化,就是通過全局的考慮來緩解了貪心算法的局部性。

15.4 一階規(guī)則學(xué)習(xí)

通常很難定義屬性值。
因此可以采用“色澤更深(2,1)、更好(2,1)”這樣的表述方式。

色澤更深 這樣的原子公式稱為“背景知識(shí)”
更好 這樣由樣本類別轉(zhuǎn)化而來的原子公式稱為“關(guān)系數(shù)據(jù)樣例”

一階學(xué)習(xí)能容易的引入領(lǐng)域知識(shí),是相比命題學(xué)習(xí)的一大優(yōu)勢。

在命題規(guī)則學(xué)習(xí)乃至一般的統(tǒng)計(jì)學(xué)習(xí)中,引入領(lǐng)域知識(shí)通常有兩種做法:
1)通過領(lǐng)域知識(shí)構(gòu)造新屬性。
2)基于領(lǐng)域知識(shí)設(shè)計(jì)某種函數(shù)機(jī)制(如正則化)來對(duì)假設(shè)空間進(jìn)行約束。

FOIL算法:著名的一階規(guī)則學(xué)習(xí)算法。
遵循序貫覆蓋并采用自頂向下的歸納策略。
并采用后剪枝進(jìn)行優(yōu)化。
使用FOIL增益來選擇文字。

15.5 歸納邏輯程序設(shè)計(jì)(ILP)

在一階學(xué)習(xí)中引入了函數(shù)和邏輯表達(dá)式嵌套
容易看到這樣就不能自頂向上了,因?yàn)闊o法窮舉。

15.5.1 最小一般泛化(LGG)

ILP都采用自底向上的策略。
如何把特殊規(guī)則轉(zhuǎn)化為一般規(guī)則?
最基礎(chǔ)的技術(shù)是LGG
舉例:p358 - p359

15.5.2 逆歸結(jié)

歸結(jié)原理:一階謂詞演算中的演繹推理能用一條十分簡潔的規(guī)則描述。
可將復(fù)雜的邏輯規(guī)則和背景知識(shí)聯(lián)系起來化繁為簡

逆歸結(jié):能基于背景知識(shí)來發(fā)明新的概念和關(guān)系

p360-p363 具體過程有些抽象
逆歸結(jié)的一大特點(diǎn)是可以自動(dòng)發(fā)明新謂詞,這些新謂詞可能對(duì)應(yīng)于一些新知識(shí)。

15.6 閱讀材料

規(guī)則學(xué)習(xí)是符號(hào)主義學(xué)習(xí)的主要代表。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容