論文:基于卷積神經(jīng)網(wǎng)絡(luò)遷移學(xué)習(xí)的數(shù)據(jù)高效分類方法

原文:Data-Efficient Classification of Birdcall Through Convolutional Neural Networks Transfer Learning

Deep learning Convolutional Neural Network (CNN) models are powerful classification models but require a large amount of training data. In niche domains such as bird acoustics,it is expensive and difficult to obtain a large number of training samples. One method of classifying data with a limited number of training samples is to employ transfer learning. In this research,we evaluated the effectiveness of birdcall classification using transfer learning from a larger base dataset (2814 samples in 46 classes) to a smaller target dataset (351 samples in 10 classes) using the ResNet-50 CNN. We obtained 79% average validation accuracy on the target dataset in 5-fold cross-validation. The methodology of transfer learning from an ImageNet-trained CNN to a project-specific and a much smaller set of classes and images was extended to the domain of spectrogram images, where the base dataset effectively played the role of the ImageNet.

生態(tài)學(xué)研究中,常用鳥叫聲的種類評(píng)價(jià)物種復(fù)雜度,而鳥叫聲數(shù)據(jù)不易收集,標(biāo)注昂貴,耗時(shí)。

so,遷移學(xué)習(xí) 來(lái)了。

Dataset

本文模仿了圖片分類中常用的base dataset---Image net,創(chuàng)建了一個(gè)“SoundNet”數(shù)據(jù)集(公開數(shù)據(jù)集,BirdCELF挑戰(zhàn)賽中使用的Xeno-Canto集的子集),其中包含了在距離巴西南部庫(kù)里蒂巴市250公里半徑內(nèi)記錄的鳥鳴。--------------------Source dataset

作者家鄉(xiāng)澳大利亞昆士蘭州常見的10種鳥類的叫聲,在Xeno-Canto網(wǎng)站上至少有20個(gè)人工注釋(且置信分?jǐn)?shù)很高)的記錄。數(shù)據(jù)集有10種鳥類的351個(gè)音頻樣本--------------------Target dataset

除了sourcet和target數(shù)據(jù)集之外,CNN模型還使用與sourcet和target數(shù)據(jù)集相似但來(lái)自不同域的Negative dataset進(jìn)行訓(xùn)練(公開)。該數(shù)據(jù)集有243個(gè)環(huán)境聲音的16930個(gè)聲音實(shí)例,這些聲音都不是鳥鳴。

將以上數(shù)據(jù)轉(zhuǎn)換為光譜圖。

Model

這項(xiàng)研究的重點(diǎn)是驗(yàn)證ImageNet式的遷移學(xué)習(xí),而不是發(fā)明一個(gè)更好的CNN聲音分類模型。因此,我們使用了的ResNet-50 CNN,這是一個(gè)50層深的CNN架構(gòu),用來(lái)對(duì)鳥鳴進(jìn)行分類。RESNET-50是第一個(gè)利用殘差學(xué)習(xí)的深度CNN架構(gòu)。RESNET-50已經(jīng)成功地提高了計(jì)算機(jī)視覺挑戰(zhàn)比賽中的準(zhǔn)確性,獲得了ImageNet大型視覺識(shí)別挑戰(zhàn)賽2015(ILSVRC,2015)和Microsoft Common Objects in Context 2015競(jìng)賽的一等獎(jiǎng)。

改進(jìn)模型

在ImageNet訓(xùn)練的ResNet-50模型和輸入灰度圖像(譜圖)之間增加一個(gè)可學(xué)習(xí)通道,將RetNet-50所期望的3通道RGB圖像的單通道灰度譜圖轉(zhuǎn)換為單通道灰度譜圖;

在丟棄原始ResNet-50中的ImageNet分類器層后,添加全局最大池化層,然后是0.5概率丟棄層,將ResNet-50的最后2維(具有2048個(gè)通道)熱圖輸出轉(zhuǎn)換為2048個(gè)特征向量;

所需的分類是通過(guò)添加完全連接的Sigmoid激活層(分類器層)來(lái)實(shí)現(xiàn)的,以適應(yīng)基礎(chǔ)或目標(biāo)數(shù)據(jù)集中的類數(shù)。

Base Dataset Training

我們將Keras中ResNet-50模型與TensorFlow Backend一起使用。該模型經(jīng)過(guò)訓(xùn)練以識(shí)別1000個(gè)不同的ImageNet對(duì)象類。原來(lái)的ImageNetTraded架構(gòu)被修改為分47個(gè)類別(46個(gè)類別的鳥鳴基本數(shù)據(jù)集+1個(gè)負(fù)的類別聲音數(shù)據(jù)集),方法是移除其1000個(gè)類別的頂部,添加全局2D最大池、0.5個(gè)dropout和一個(gè)47個(gè)神經(jīng)元完全連接層。具體地說(shuō),訓(xùn)練光譜圖被隨機(jī)裁剪成具有256行和256列。然后,網(wǎng)絡(luò)接受256×256×1的輸入圖像,其中灰度譜圖圖像通過(guò)可訓(xùn)練的1×1卷積層被轉(zhuǎn)換成ResNet CNN期望的三個(gè)顏色通道。

Target Dataset Training

在用46只鳥的基礎(chǔ)數(shù)據(jù)集訓(xùn)練ResNet-50模型之后,為了將學(xué)習(xí)從基礎(chǔ)數(shù)據(jù)集遷移到目標(biāo)10只鳥的數(shù)據(jù)集,ResNet-50被修改為分類11類(10類鳥叫基礎(chǔ)數(shù)據(jù)集+1個(gè)負(fù)類聲音數(shù)據(jù)集)。這是通過(guò)將最后一個(gè)密集連接的47個(gè)神經(jīng)元層替換為11個(gè)全連接層來(lái)實(shí)現(xiàn)的。訓(xùn)練流水線保持與前面47個(gè)類別的情況相同;即,使用類別加權(quán)的二進(jìn)制交叉熵?fù)p失函數(shù)進(jìn)行訓(xùn)練。然后,用來(lái)自目標(biāo)數(shù)據(jù)集的所有351個(gè)標(biāo)記的譜圖對(duì)ResNet-50進(jìn)行訓(xùn)練,這些譜圖分別被隨機(jī)分為72%(即90%的80%)、18%(即90%的20%)和10%的訓(xùn)練、驗(yàn)證和測(cè)試子集,以監(jiān)視訓(xùn)練過(guò)程并估計(jì)CNN的預(yù)測(cè)準(zhǔn)確性。此外,對(duì)于每個(gè)訓(xùn)練時(shí)期,從負(fù)數(shù)據(jù)集中隨機(jī)選擇175個(gè)樣本。執(zhí)行隨機(jī)五次交叉驗(yàn)證:重復(fù)完整訓(xùn)練(來(lái)自46只鳥的預(yù)先訓(xùn)練的ResNet-50)周期五次,其中每次使用不同的隨機(jī)種子來(lái)選擇訓(xùn)練、驗(yàn)證和測(cè)試圖像的不同子集。

Result

圖4(A)和圖4(B)分別給出了ResNet-50模型在基礎(chǔ)和目標(biāo)鳥鳴數(shù)據(jù)集上的訓(xùn)練過(guò)程。在圖4(B)中,較淺的顏色表示較高的點(diǎn)密度。對(duì)于這兩個(gè)數(shù)據(jù)集,ResNet-50在從光譜圖中隨機(jī)裁剪的256(高)×256(寬)圖像上進(jìn)行訓(xùn)練。

對(duì)于基礎(chǔ)數(shù)據(jù)集的訓(xùn)練,網(wǎng)絡(luò)達(dá)到了約82%的訓(xùn)練正確率和78%的驗(yàn)證正確率。精度在150個(gè)紀(jì)元之后開始趨于平臺(tái)期。在NVIDIA GTX 1080 Ti 上對(duì)ResNet-50模型進(jìn)行培訓(xùn)花費(fèi)了大約10個(gè)小時(shí)。

對(duì)于目標(biāo)數(shù)據(jù)集,網(wǎng)絡(luò)達(dá)到了大約89%的訓(xùn)練準(zhǔn)確率和79%的驗(yàn)證準(zhǔn)確率。精度在50個(gè)紀(jì)元后開始趨于平。在NVIDIA GTX 1080 Ti 對(duì)ResNet-50模型進(jìn)行培訓(xùn)花費(fèi)了大約2個(gè)小時(shí)。

兩種情況下的訓(xùn)練精度都僅比驗(yàn)證精度高出少量(<~9%)。這表明網(wǎng)絡(luò)沒有與訓(xùn)練數(shù)據(jù)擬合不足或過(guò)度擬合。請(qǐng)注意,只有額外的訓(xùn)練噪聲、隨機(jī)的行和列縮放以及大得多的負(fù)數(shù)據(jù)集才能防止ResNet-50模型嚴(yán)重過(guò)度擬合如此小的目標(biāo)數(shù)據(jù)集(10只鳥只有351張圖像)。

圖5顯示了目標(biāo)數(shù)據(jù)集的測(cè)試樣本的實(shí)際分類與預(yù)測(cè)分類的混淆矩陣(在五個(gè)訓(xùn)練/測(cè)試交叉驗(yàn)證上平均)。不出所料,負(fù)類(非鳥鳴類)的分類正確率最高。在目標(biāo)數(shù)據(jù)集的鳥鳴中,類別10(圖2(J)牙鲆)由于其非常明顯的鳥類叫聲特征而具有最高的正確分類,而類別7(圖2(G)Meliphaga gracilis)的正確分類最低。為了進(jìn)行測(cè)試,將每個(gè)測(cè)試圖像轉(zhuǎn)換為一系列50%列重疊的256×256圖像,然后使用最大類別預(yù)測(cè)值(針對(duì)11個(gè)類別中的每一個(gè))來(lái)分配測(cè)試圖像的分類預(yù)測(cè)。雖然這項(xiàng)研究假設(shè)每幅圖像只有一個(gè)鳥類物種,但將來(lái)可以使用相同的測(cè)試程序從同一圖像中提取多個(gè)鳥類物種,例如通過(guò)使用激活級(jí)別閾值。

CONCLUSION

在本研究中,我們?cè)u(píng)估了遷移學(xué)習(xí)在鳥類叫聲分類中的應(yīng)用。我們?cè)u(píng)估了從較大基數(shù)的鳥聲數(shù)據(jù)集(2814聲)到較小的目標(biāo)數(shù)據(jù)集(351聲)的遷移學(xué)習(xí)的應(yīng)用,因?yàn)楹茈y獲得特定鳥類的大量鳥鳴。除了開發(fā)跨領(lǐng)域和領(lǐng)域內(nèi)的知識(shí)轉(zhuǎn)移程序外,我們還開發(fā)了一種新的(至少對(duì)于聲音領(lǐng)域)正規(guī)化技術(shù),使用由環(huán)境聲音(非鳥鳴)組成的更大的負(fù)例池。大量的負(fù)樣本迫使訓(xùn)練將重點(diǎn)放在鳥鳴上,而不是非鳥類周圍的聲音上,這有助于防止大容量ResNet50 CNN對(duì)相對(duì)較少的訓(xùn)練樣本進(jìn)行過(guò)度擬合。由于ResNet-50在2015年ILSVRC和MS Coco 2015大賽中成功地進(jìn)行了圖像分類,我們使用了Deep CNN ResNet-50進(jìn)行特征提取和分類[39]。此外,ResNet-50已經(jīng)成功地對(duì)鳥類叫聲進(jìn)行了分類[40]。

我們通過(guò)微調(diào)ResNet-50將遷移學(xué)習(xí)從較大的基礎(chǔ)數(shù)據(jù)集應(yīng)用到較小的目標(biāo)數(shù)據(jù)集(僅351個(gè)樣本)。有效地,從較大的基礎(chǔ)數(shù)據(jù)集中提取的特征被用于對(duì)較小的目標(biāo)數(shù)據(jù)集進(jìn)行分類。在本研究中,我們使用數(shù)據(jù)效率高的少量鳥鳴樣本實(shí)現(xiàn)了79%的驗(yàn)證分類正確率。

僅供自學(xué)記錄使用,轉(zhuǎn)載注明出處。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

友情鏈接更多精彩內(nèi)容