21.深度學(xué)習(xí)之計算機視覺-5

21.1 SSD模型設(shè)計

  • 單發(fā)多框檢測模型的設(shè)計:它主要由一個基礎(chǔ)網(wǎng)絡(luò)塊和若干個多尺度特征塊串聯(lián)而成。


21.2 預(yù)測層

  • 設(shè)目標(biāo)的類別個數(shù)為q。
    • 每個錨框的類別個數(shù)將是q+1,其中類別0表示錨框只包含背景。
  • 在某個尺度下,設(shè)特征圖的高和寬分別為h和w,如果以其中每個單元為中心生成a個錨框,那么需要對hwa個錨框進行分類。
  • 如果使用全連接層作為輸出,很容易導(dǎo)致模型參數(shù)過多。
    • 網(wǎng)絡(luò)中的網(wǎng)絡(luò)(NiN)使用卷積層的通道來輸出類別預(yù)測的方法。
  • 單發(fā)多框檢測采用同樣的方法來降低模型復(fù)雜度。
  • 類別預(yù)測層
    • 具體來說,類別預(yù)測層使用一個保持輸入高和寬的卷積層。
    • 這樣一來,輸出和輸入在特征圖寬和高上的空間坐標(biāo)一一對應(yīng)。
    • 考慮輸出和輸入同一空間坐標(biāo)(x,y):
      • 輸出特征圖上(x,y)坐標(biāo)的通道里包含了以輸入特征圖(x,y)坐標(biāo)為中心生成的所有錨框的類別預(yù)測。
      • 因此輸出通道數(shù)為a(q+1),其中索引為i(q+1)+j(0≤j≤q)的通道代表了索引為i的錨框有關(guān)類別索引為j的預(yù)測。
  • 邊界框預(yù)測層
    • 邊界框預(yù)測層的設(shè)計與類別預(yù)測層的設(shè)計類似。
    • 唯一不同的是,這里需要為每個錨框預(yù)測4個偏移量,而不是q+1個類別。


  • 結(jié)多尺度的預(yù)測
    • 單發(fā)多框檢測根據(jù)多個尺度下的特征圖生成錨框并預(yù)測類別和偏移量。
    • 由于每個尺度上特征圖的形狀或以同一單元為中心生成的錨框個數(shù)都可能不同,因此不同尺度的預(yù)測輸出形狀可能不同。
  • 高和寬減半塊
    • 為了在多尺度檢測目標(biāo)
  • 基礎(chǔ)網(wǎng)絡(luò)塊
    • 基礎(chǔ)網(wǎng)絡(luò)塊用來從原始圖像中抽取特征
  • 完整模型
    • 包含5個模塊,每個模塊輸出的特征圖既用來生成錨框,又用來預(yù)測這些錨框的類別和偏移量。
    • 第一模塊為基礎(chǔ)網(wǎng)絡(luò)塊
    • 第二模塊至第四模塊為高和寬減半塊
    • 第五模塊使用全局最大池化層將高和寬降到1。

21.3 損失函數(shù)

  • 目標(biāo)檢測有兩種損失

    • 首先是錨箱類損失
      • 可以使用的交叉熵?fù)p失函數(shù)
      • Focal loss
    • 第二個損失是正錨箱偏移量損失
      • 使用??1范數(shù)損失
  • 將預(yù)測偏移量用到的L1范數(shù)損失替換為平滑L1范數(shù)損失。

    • 它在零點附近使用平方函數(shù)從而更加平滑,這是通過一個超參數(shù)σ來控制平滑區(qū)域的:


    • 當(dāng)σ很大時該損失類似于L1范數(shù)損失。

    • 當(dāng)它較小時,損失函數(shù)較平滑。


  • 在類別預(yù)測時

  • 設(shè)真實類別j的預(yù)測概率是pj,交叉熵?fù)p失為:


  • 還可以使用焦點損失(focal loss):給定正的超參數(shù)γ和α,該損失的定義為:


21.4 SSD預(yù)測

  • 怎樣得到預(yù)測的檢測結(jié)果?
    • 最后分別在所選的特征層上使用3x3卷積核預(yù)測不同錨框所屬的類別分?jǐn)?shù)及其預(yù)測的邊界框location。
    • 由于對于每個box需要預(yù)測該box屬于每個類別的置信度(假設(shè)有c類,包括背景,例如20class的數(shù)據(jù)集合,c=21)和該box對應(yīng)的預(yù)測邊界框的location(包含4個值,即該box的中心坐標(biāo)和寬高),則每個box需要預(yù)測c+4個值。
    • 所以對于某個所選的特征層,該層的卷積核個數(shù)為(c+4)x 該層的錨框個數(shù).最后將每個層得到的卷積結(jié)果進行拼接。
    • 對于得到的每個預(yù)測框,取其類別置信度的最大值,若該最大值大于置信度閾值,則最大值所對應(yīng)的類別即為該預(yù)測框的類別,否則過濾掉此框。
    • 對于保留的預(yù)測框根據(jù)它對應(yīng)的先驗框進行解碼得到其真實的位置參數(shù)(這里還需注意要防止預(yù)測框位置超出圖片),然后根據(jù)所屬類別置信度進行降序排列,取top-k個預(yù)測框,最后進行NMS,過濾掉重疊度較大的預(yù)測框,最后得到檢測結(jié)果。


大數(shù)據(jù)視頻推薦:
騰訊課堂
CSDN
大數(shù)據(jù)語音推薦:
企業(yè)級大數(shù)據(jù)技術(shù)應(yīng)用
大數(shù)據(jù)機器學(xué)習(xí)案例之推薦系統(tǒng)
自然語言處理
大數(shù)據(jù)基礎(chǔ)
人工智能:深度學(xué)習(xí)入門到精通

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容