YOLO:you only look once:Unified,Real-Time Object Detection

??什么叫一個物體的中心落在某網格內,則相應網格負責檢測該物體

答:意思是指如果某個groundtruth的中心點落在該網格,則該網格負責對該物體的boundingbox進行回歸

Construct of YOLO

區(qū)別于之前目標檢測的R-CNN系列,通過region proposal+分類的方式實現檢測的功能,YOLO沒有選擇滑動窗口或提取proposal的方式來訓練網絡,而是直接選用整張圖的訓練模式。其一次性預測多個Box位置和類別,實現端到端到目標檢測和識別,其最大的優(yōu)勢在于其速度很快,但精度上有所損失。相比于R-CNN系列,其能更好地區(qū)分出目標和背景區(qū)域。另外,YOLO相當于是一個實現回歸功能的CNN網絡,其預測出boundingbox的位置及confidence以及所屬類別的概率。

總體思路:將整張圖片劃分成n*n個單元,每個單元通過回歸產生B個boundingbox,對每個單元中的boundingbox進行篩選是通過IOU值的大小進行的,保留IOU值最大的那個boundingbox,最后對于整幅圖像上的boundingbox通過非極大值抑制的方式篩選出目標的檢測框。

訓練過程:

Step1:將圖片劃分成單元格

將整張圖片劃分成s*s個單元格(文中設置s=7),若有待檢測物體的中心落入該單元格中,則該單元格負責對該物體的檢測(??如何判斷物體中心是否落入該單元格)。每個單元格產生類別預測結果(文中為20類),每個單元格回歸產生B個boundingbox,每個boundingbox共享該單元格中的類別預測值。

每個預測的boundingbox包含5個參數——boundingbox的中心坐標(x,y)以及boundingbox的(width,height)以及一個confidence,其計算方式為:

confidence表達式

此處的IOU表示的是該boundingbox與若干個groundtruth的IOU中值最大的那個。

注:class信息是針對每個單元格而言的,confidence信息是針對每個boundingbox而言的。下圖說明了所有預測值參數的計算方式:

其實現的網絡結構如下圖所示:(??最后如何從4096轉換成7*7*30)

Network

Step2:損失函數設計

loss function

測試階段:

testing method

性能評估

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
【社區(qū)內容提示】社區(qū)部分內容疑似由AI輔助生成,瀏覽時請結合常識與多方信息審慎甄別。
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發(fā)布,文章內容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。

相關閱讀更多精彩內容

友情鏈接更多精彩內容