Task01——概覽西瓜書+南瓜書1、2章】
第一章 緒論
這一章一開始是介紹機(jī)器學(xué)習(xí)的定義(利用計(jì)算機(jī)學(xué)習(xí)經(jīng)驗(yàn)數(shù)據(jù)并生成一個(gè)算法模型)、基本術(shù)語(樣本及其分類,問題的分類等等)。
第二章 模型的評估與選擇
在模型的評估與選擇中,理解了誤差的分類。我們希望得到的是在新樣本上表現(xiàn)得很好的學(xué)習(xí)器,即泛化誤差小的學(xué)習(xí)器。學(xué)習(xí)能力過強(qiáng),以至于把訓(xùn)練樣本所包含的不太一般的特性都學(xué)到了,稱為過擬合;而學(xué)習(xí)能太差,訓(xùn)練樣本的一般性質(zhì)尚未學(xué)好,則稱為欠擬合。

訓(xùn)練集與測試集的劃分方法則包括留出法、交叉驗(yàn)證法、自助法等等。
性能度量方面最重要的就是查準(zhǔn)率(Precision)和查全率(recall)以及二元混淆矩陣的定義。


PR曲線如下圖所示:

若一個(gè)學(xué)習(xí)器A的P-R曲線被另一個(gè)學(xué)習(xí)器B的P-R曲線完全包住,則稱:B的性能優(yōu)于A。若A和B的曲線發(fā)生了交叉,則誰的曲線下的面積大,誰的性能更優(yōu)。但一般來說,曲線下的面積是很難進(jìn)行估算的,所以衍生出了“平衡點(diǎn)”(Break-EventPoint,簡稱BEP),即當(dāng)P=R時(shí)的取值,平衡點(diǎn)的取值越高,性能更優(yōu)。