Datawhale七月組隊(duì)學(xué)習(xí)——“吃瓜教程”Task01

Task01——概覽西瓜書+南瓜書1、2章】

第一章 緒論

這一章一開始是介紹機(jī)器學(xué)習(xí)的定義(利用計(jì)算機(jī)學(xué)習(xí)經(jīng)驗(yàn)數(shù)據(jù)并生成一個(gè)算法模型)、基本術(shù)語(樣本及其分類,問題的分類等等)。

第二章 模型的評估與選擇

在模型的評估與選擇中,理解了誤差的分類。我們希望得到的是在新樣本上表現(xiàn)得很好的學(xué)習(xí)器,即泛化誤差小的學(xué)習(xí)器。學(xué)習(xí)能力過強(qiáng),以至于把訓(xùn)練樣本所包含的不太一般的特性都學(xué)到了,稱為過擬合;而學(xué)習(xí)能太差,訓(xùn)練樣本的一般性質(zhì)尚未學(xué)好,則稱為欠擬合。

訓(xùn)練集與測試集的劃分方法則包括留出法、交叉驗(yàn)證法、自助法等等。

性能度量方面最重要的就是查準(zhǔn)率(Precision)和查全率(recall)以及二元混淆矩陣的定義。

PR曲線如下圖所示:


若一個(gè)學(xué)習(xí)器A的P-R曲線被另一個(gè)學(xué)習(xí)器B的P-R曲線完全包住,則稱:B的性能優(yōu)于A。若A和B的曲線發(fā)生了交叉,則誰的曲線下的面積大,誰的性能更優(yōu)。但一般來說,曲線下的面積是很難進(jìn)行估算的,所以衍生出了“平衡點(diǎn)”(Break-EventPoint,簡稱BEP),即當(dāng)P=R時(shí)的取值,平衡點(diǎn)的取值越高,性能更優(yōu)。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺,僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容