統(tǒng)計(jì)學(xué),機(jī)器學(xué)習(xí),線性代數(shù)里面有很多聽起來很復(fù)雜的概念(科學(xué)家總是喜歡給一些簡(jiǎn)單的東西搞復(fù)雜的高大上的名字)。這個(gè)文章就是用我自己的理解,對(duì)這些概念做出幾句話的解釋或圖畫說明,以及一個(gè)好理解的概念。長(zhǎng)期更新
機(jī)器學(xué)習(xí)相關(guān)
1)訓(xùn)練集/驗(yàn)證集/測(cè)試集
一個(gè)數(shù)據(jù)集,按比例(一般是8:1:1或者7:1.5:1.5或者大致比例)分為三部分,即訓(xùn)練集,驗(yàn)證和測(cè)試集。
訓(xùn)練集:把一個(gè)學(xué)生理解為一個(gè)做題的模型,那么可以理解為平時(shí)做的家庭作業(yè)就是訓(xùn)練集,通過這些習(xí)題,總結(jié)一套解題的方法(模型的系數(shù)矩陣)。這個(gè)解題的方法就是模型。
驗(yàn)證集:可以理解為期末考試,拿一份新的試題(學(xué)生之前沒有見過,如果是原題的話,大家都是滿分了),讓學(xué)生去做,也就是驗(yàn)證之前解題方法(模型)的效果。如果效果不好,再回頭做更多的家庭作業(yè)調(diào)整解題方法(模型),直到期末考試的成績(jī)比較理想為止。
測(cè)試集:可以理解為最終的高考,再拿一套新的試題(家庭作業(yè)和期末考試都沒見過的),考學(xué)生的解題方法,得到一個(gè)分?jǐn)?shù),這個(gè)分?jǐn)?shù)就是測(cè)試集的結(jié)果,也就是最終這個(gè)模型的效果(家庭作業(yè)和期末考試的成績(jī)不能算數(shù),因?yàn)槟愣家娺^很多次了,分?jǐn)?shù)再高也不奇怪)
2)過擬合
正規(guī)解釋:模型在測(cè)試集上的效果(召回率精確率),比同一個(gè)模型在訓(xùn)練集上效果要差,這種現(xiàn)象叫做過擬合
通俗解釋:
你可以把自己理解為一個(gè)模型,訓(xùn)練集就是你平時(shí)回家做家庭作業(yè)的結(jié)果。測(cè)試集就是你期末考試的成績(jī)。過擬合就是說你平時(shí)考試成績(jī)都挺好的,但是期末考試考砸了(比平時(shí)差),為什么呢?因?yàn)槟阒粫?huì)解答你見過的題目(沒有融匯貫通舉一反三,或者說泛化能力差),新出來的(和之前做過的變化比較大的題目)有很多你沒太見過的就不太會(huì),所以成績(jī)就差了一些。
發(fā)現(xiàn)一張圖可以很好的解釋過擬合

3)正則化
概念解釋:當(dāng)一個(gè)模型使用的特征過多,導(dǎo)致模型過于復(fù)雜而泛化能力下降,引起過擬合。這時(shí)我們就需要將模型中的特征數(shù)量減少?gòu)亩档湍P偷膹?fù)雜度,降低過擬合的風(fēng)險(xiǎn)。簡(jiǎn)單說就是特征降維。
通俗解釋:
還拿考試來舉例子,好像你平時(shí)做習(xí)題的時(shí)候總結(jié)了一套特別復(fù)雜的方法(模型)來解一類題型,但是這個(gè)方法過于復(fù)雜了只能用在這一種題型中而對(duì)其他類似的題型效果不好,所以如果期末考試出來其他題型的話成績(jī)就會(huì)差。正則化的意思就是降低你這個(gè)方法的復(fù)雜程度,讓他盡量滿足更多的題型從而在期末考試得到更好的成績(jī)。
4)有監(jiān)督學(xué)習(xí)/無監(jiān)督學(xué)習(xí)/半監(jiān)督學(xué)習(xí)
有監(jiān)督:即需要人工進(jìn)行標(biāo)注(label),算法以這個(gè)標(biāo)注的結(jié)果作為基準(zhǔn)監(jiān)督自己的模型參數(shù),常見的有分類(label為離散值)和回歸(label為連續(xù)值)兩種
無監(jiān)督:即不需要人工進(jìn)行標(biāo)注,算法根據(jù)數(shù)據(jù)自己的關(guān)系將數(shù)據(jù)分成x類(x也可以自己定義,如我想把某一份數(shù)據(jù)分成3類那x=3)
半監(jiān)督:就是大量的數(shù)據(jù)集里面只有少部分有標(biāo)注,而其余大部分都沒有,這時(shí)候就用到半監(jiān)督學(xué)習(xí),半監(jiān)督的大致思想是先用無監(jiān)督把數(shù)據(jù)分成x類,再根據(jù)已經(jīng)標(biāo)注好的數(shù)據(jù)集,對(duì)每一類進(jìn)行定義(某類里面標(biāo)注為1類比較多的,那就把這一堆都標(biāo)記為1類)
5)分類/回歸/聚類
分類:有監(jiān)督學(xué)習(xí)中的一種,label為離散值(也就是要預(yù)測(cè)的對(duì)象是離散的),按label的種類又可以分為二分類和多分類,如是否作弊(1/0),男性女性(1/0),收入高低(高/中/低),年齡階段(0-10/10-20/20-40/40-60/60+)等,
回歸:有監(jiān)督學(xué)習(xí)中的一種,label為連續(xù)值(也就是要預(yù)測(cè)的對(duì)象是連續(xù)的),比如預(yù)測(cè)房?jī)r(jià),預(yù)測(cè)股價(jià)等。
聚類:常見的無監(jiān)督算法,自定義需要分類的數(shù)量,算法自動(dòng)生成,如Kmeans
to be continued