讀論文系列:Object Detection CVPR2017 YOLOv2(附帶講YOLOv3)

YOLOv2/YOLO9000

YOLO9000: Better, Faster, Stronger

YOLOv2 是一個單純的改進型工作,在YOLO上集成了很多已有的trick(比如加了BN,anchor),因為是trick文章,這里就不做完整解讀了,可以參考這篇解讀,我覺得其中比較有新意的地方有兩個:

  • Dimension Clusters得到更好的anchor
  • YOLO9000:用WordTree整合ImageNet和COCO數(shù)據(jù)集聯(lián)合訓練Darknet(有種知識圖譜和DL結(jié)合的感覺),用多個softmax loss分別做不同層次的分類

改進點list:

  • Batch Normalization
  • 用448x448的圖片訓練分類器
  • 使用anchor
  • 聚類得到更好的初始anchor位置(使用IOU進行box距離判斷)
  • 直接預(yù)測box位置
  • 類似ResNet的passthrough feature疊加
  • 由于是全卷積網(wǎng)絡(luò),可以接收不同尺度輸入進行訓練
  • Darknet-19:大量使用3x3和1x1卷積,BN
  • 用wordtree整合ImageNet和COCO數(shù)據(jù)集,多標簽聯(lián)合訓練Darknet

YOLOv3

YOLOv3也是一個單純的改進性工作。。沒啥創(chuàng)新性,但是效果好_(:з」∠)_

作者也覺得這不算是一篇正式paper,只是一個工作報告,所以論文寫得跟玩兒似的

YOLOv3

改進點list

  • 使用更多的shotcut,構(gòu)造更深的darknet-53(ResNet提出來的)
YOLOv3網(wǎng)絡(luò)結(jié)構(gòu)
  • 使用三層feature map分別對應(yīng)不同尺度的anchor(SSD,F(xiàn)PN已經(jīng)這樣做過了)
  • 由于softmax分類loss前提假設(shè)是每個對象只屬于一個分類,對于有包含關(guān)系的類別,softmax沒那么適用,于是yolov3使用了邏輯回歸的方法做分類,同時回歸一個anchor屬于多個類的概率,ground truth值是0或1,分別代表一個anchor是否與ground truth box相匹配。
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容