??什么叫一個物體的中心落在某網格內,則相應網格負責檢測該物體
答:意思是指如果某個groundtruth的中心點落在該網格,則該網格負責對該物體的boundingbox進行回歸
區(qū)別于之前目標檢測的R-CNN系列,通過region proposal+分類的方式實現檢測的功能,YOLO沒有選擇滑動窗口或提取proposal的方式來訓練網絡,而是直接選用整張圖的訓練模式。其一次性預測多個Box位置和類別,實現端到端到目標檢測和識別,其最大的優(yōu)勢在于其速度很快,但精度上有所損失。相比于R-CNN系列,其能更好地區(qū)分出目標和背景區(qū)域。另外,YOLO相當于是一個實現回歸功能的CNN網絡,其預測出boundingbox的位置及confidence以及所屬類別的概率。
總體思路:將整張圖片劃分成n*n個單元,每個單元通過回歸產生B個boundingbox,對每個單元中的boundingbox進行篩選是通過IOU值的大小進行的,保留IOU值最大的那個boundingbox,最后對于整幅圖像上的boundingbox通過非極大值抑制的方式篩選出目標的檢測框。
訓練過程:
Step1:將圖片劃分成單元格
將整張圖片劃分成s*s個單元格(文中設置s=7),若有待檢測物體的中心落入該單元格中,則該單元格負責對該物體的檢測(??如何判斷物體中心是否落入該單元格)。每個單元格產生類別預測結果(文中為20類),每個單元格回歸產生B個boundingbox,每個boundingbox共享該單元格中的類別預測值。
每個預測的boundingbox包含5個參數——boundingbox的中心坐標(x,y)以及boundingbox的(width,height)以及一個confidence,其計算方式為:
此處的IOU表示的是該boundingbox與若干個groundtruth的IOU中值最大的那個。
注:class信息是針對每個單元格而言的,confidence信息是針對每個boundingbox而言的。下圖說明了所有預測值參數的計算方式:
其實現的網絡結構如下圖所示:(??最后如何從4096轉換成7*7*30)
Step2:損失函數設計
測試階段:
性能評估