六、機(jī)器學(xué)習(xí)基礎(chǔ)Ⅰ:機(jī)器學(xué)習(xí)的四個標(biāo)簽


文章代碼來源:《deep learning on keras》,非常好的一本書,大家如果英語好,推薦直接閱讀該書,如果時間不夠,可以看看此系列文章,文章為我自己翻譯的內(nèi)容加上自己的一些思考,水平有限,多有不足,請多指正,翻譯版權(quán)所有,若有轉(zhuǎn)載,請先聯(lián)系本人。
個人方向?yàn)閿?shù)值計(jì)算,日后會向深度學(xué)習(xí)和計(jì)算問題的融合方面靠近,若有相近專業(yè)人士,歡迎聯(lián)系。


系列文章:
一、搭建屬于你的第一個神經(jīng)網(wǎng)絡(luò)
二、訓(xùn)練完的網(wǎng)絡(luò)去哪里找
三、【keras實(shí)戰(zhàn)】波士頓房價預(yù)測
四、keras的function API
五、keras callbacks使用
六、機(jī)器學(xué)習(xí)基礎(chǔ)Ⅰ:機(jī)器學(xué)習(xí)的四個標(biāo)簽
七、機(jī)器學(xué)習(xí)基礎(chǔ)Ⅱ:評估機(jī)器學(xué)習(xí)模型
八、機(jī)器學(xué)習(xí)基礎(chǔ)Ⅲ:數(shù)據(jù)預(yù)處理、特征工程和特征學(xué)習(xí)
九、機(jī)器學(xué)習(xí)基礎(chǔ)Ⅳ:過擬合和欠擬合
十、機(jī)器學(xué)習(xí)基礎(chǔ)Ⅴ:機(jī)器學(xué)習(xí)的一般流程十一、計(jì)算機(jī)視覺中的深度學(xué)習(xí):卷積神經(jīng)網(wǎng)絡(luò)介紹
十二、計(jì)算機(jī)視覺中的深度學(xué)習(xí):從零開始訓(xùn)練卷積網(wǎng)絡(luò)
十三、計(jì)算機(jī)視覺中的深度學(xué)習(xí):使用預(yù)訓(xùn)練網(wǎng)絡(luò)
十四、計(jì)算機(jī)視覺中的神經(jīng)網(wǎng)絡(luò):可視化卷積網(wǎng)絡(luò)所學(xué)到的東西


通過之前的學(xué)習(xí),大家知道機(jī)器學(xué)習(xí)中的核心問題為過擬合。
學(xué)完這一章,大家能夠收獲:

  • 其它版本的一些機(jī)器學(xué)習(xí),除了回歸和分類問題。
  • 機(jī)器學(xué)習(xí)模型的正式評價程序,你們在之前已經(jīng)看到了其簡單的版本
  • 如何為機(jī)器學(xué)習(xí)備好數(shù)據(jù),什么是“特征工程”
  • 學(xué)習(xí)解決過擬合問題,我們在之前的幾個例子里面也看到了這個過擬合現(xiàn)象。

機(jī)器學(xué)習(xí)的四個標(biāo)簽

通過剛剛?cè)N問題,你應(yīng)該已經(jīng)熟悉了三種特別的機(jī)器學(xué)習(xí)問題:二分類、多分類、回歸問題。
然而這些問題都屬于監(jiān)督學(xué)習(xí)的范疇,在機(jī)器學(xué)習(xí)領(lǐng)域監(jiān)督學(xué)習(xí)只是其冰山一角,我們將機(jī)器學(xué)習(xí)通常分為四類:

  • 監(jiān)督學(xué)習(xí),近期圖像識別,語音識別等都聚焦于此。
  • 無監(jiān)督學(xué)習(xí),即不需要任何標(biāo)簽,可以用來數(shù)據(jù)可視化、數(shù)據(jù)壓縮、數(shù)據(jù)去噪或是簡單的更好理解手頭數(shù)據(jù)的表示,無監(jiān)督學(xué)習(xí)是數(shù)據(jù)分析的“bread and butter”基礎(chǔ),這在監(jiān)督學(xué)習(xí)之前使用是很有必要的?!熬S度下降”和“聚類”是熟知的無監(jiān)督學(xué)習(xí)類型。
  • 自監(jiān)督學(xué)習(xí),這實(shí)際上是監(jiān)督學(xué)習(xí)的一個特例,但它有足夠的不同,導(dǎo)致它可以單獨(dú)成一類。自監(jiān)督學(xué)習(xí)是沒有人為標(biāo)注的監(jiān)督學(xué)習(xí),然而它還是有一些標(biāo)簽的,畢竟學(xué)習(xí)過程中還是需要通過監(jiān)督學(xué)習(xí)某些東西來進(jìn)行,但他們是通過輸入數(shù)據(jù)自身通過某些啟發(fā)式算法生成的。你可以認(rèn)為這是無人參與的監(jiān)督學(xué)習(xí),例如自編碼機(jī)就屬于其中。注意這些分類其實(shí)是很模糊的。
  • 強(qiáng)化學(xué)習(xí)。近來這個領(lǐng)域廣受關(guān)注,是google的deepmind成功讓電腦打Atari游戲。機(jī)理自行搜索,目前它除了游戲領(lǐng)域還沒找到什么別的有重大意義的應(yīng)用,日后在自動駕駛、機(jī)器人、資源管理、教育上會發(fā)揮重大作用。

在這本書,我們將會主要集中注意力在監(jiān)督學(xué)習(xí)上,因?yàn)槟壳八侵髁?,我們還會在之后的章節(jié)看一下自監(jiān)督學(xué)習(xí)。
盡管監(jiān)督學(xué)習(xí)大部分都是有分類和回歸問題組成的,仍有一些其他的變種:

  • 序列生成,例如給一張圖片,我們生成文字來描述它。序列生成能夠重塑一些分類問題,如重復(fù)預(yù)測單詞或放進(jìn)句子。
  • 語法樹預(yù)測(給一個句子,預(yù)測其在語法樹中的分解)。
  • 物體識別:給定一張圖片,畫一個框框來把指定物體框起來,這能夠被表述為一個分類問題(給很多框,將每一個里面的內(nèi)容進(jìn)行分類。)或是看成是分類和回歸問題的聯(lián)合體。
  • 圖像分割:給定一張圖片,畫出特定物體的像素級別掩碼。

分類和回歸詞匯表

分類和回歸包含很多的專業(yè)名詞,在之前的例子中,你應(yīng)該見過他們,在接下來的章節(jié)里面,你會見得更多,他們都有準(zhǔn)確的機(jī)器學(xué)習(xí)范圍內(nèi)的定義,你應(yīng)當(dāng)熟悉他們:
sample or input,樣本或輸入:一個進(jìn)入你模型的數(shù)據(jù)點(diǎn)
prediction or output,預(yù)測或輸出:從你模型出去的東西
target,目標(biāo):正確的。你的模型理想情況下應(yīng)當(dāng)預(yù)測的,來自于一些額外源的數(shù)據(jù)。
prediction error or loss value,預(yù)測錯誤或損失值:用來衡量你的預(yù)測和目標(biāo)距離。
classes,類別:可能標(biāo)簽的集合用來在分類問題中選擇,例如當(dāng)貓狗圖像分類時,這兩種動物分屬兩類。
label,標(biāo)簽:不贅述。
ground-truth,or annotations,正確標(biāo)注:人為標(biāo)注正確的標(biāo)簽。
binary classification,二分類:一個將每一個樣本都分為互異的類型的任務(wù)。
multi-class classification,大量分類:分的類型大于2
multi-label classification,多標(biāo)簽分類:分類問題可以得到很多標(biāo)簽,例如一幅圖片中同時又貓和狗,那么標(biāo)簽同時給出貓、狗。
scalar regression,標(biāo)量回歸:目標(biāo)是一個連續(xù)的標(biāo)量值,房子價格預(yù)測只是一個好的例子:不同的價格形成了一個來連續(xù)的空間。
vector regression,向量回歸:目標(biāo)是一系列連續(xù)的值的集合,例如向量。如果你在做多個值的回歸,其實(shí)你就是在做向量回歸。
mini-batch or batch:一些馬上要被處理的小樣本。在GPU中為2的冪次效率會更高。訓(xùn)練的時候,一個mini-batch就可以更新一次權(quán)值。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容