18.1 什么是目標(biāo)檢測(cè)
- 目標(biāo)檢測(cè)的任務(wù)是找出圖像中所有感興趣的目標(biāo)(物體),確定它們的類(lèi)別和位置
-
計(jì)算機(jī)視覺(jué)中關(guān)于圖像識(shí)別有四大類(lèi)任務(wù):
18.1.1 目標(biāo)檢測(cè)要解決的核心問(wèn)題
- 除了圖像分類(lèi)之外,目標(biāo)檢測(cè)要解決的核心問(wèn)題是:
- 目標(biāo)可能出現(xiàn)在圖像的任何位置。
- 目標(biāo)有各種不同的大小。
- 目標(biāo)可能有各種不同的形狀。
18.1.2 目標(biāo)檢測(cè)和邊界框
- 在圖像分類(lèi)任務(wù)里,假設(shè)圖像里只有一個(gè)主體目標(biāo),并關(guān)注如何識(shí)別該目標(biāo)的類(lèi)別。
- 目標(biāo)檢測(cè)在多個(gè)領(lǐng)域中被廣泛使用。例如:
- 在無(wú)人駕駛里,需要通過(guò)識(shí)別拍攝到的視頻圖像里的車(chē)輛、行人、道路和障礙的位置來(lái)規(guī)劃行進(jìn)線路。
- 機(jī)器人也常通過(guò)該任務(wù)來(lái)檢測(cè)感興趣的目標(biāo)。
-
安防領(lǐng)域則需要檢測(cè)異常目標(biāo),如歹徒或者炸彈。
18.2 邊界框
- 在目標(biāo)檢測(cè)里,通常使用邊界框(bounding box)來(lái)描述目標(biāo)位置。
-
邊界框是一個(gè)矩形框,可以由矩形左上角的x和y軸坐標(biāo)與右下角的x和y軸坐標(biāo)確定。
-
18.3 錨框
- 目標(biāo)檢測(cè)算法通常會(huì)在輸入圖像中采樣大量的區(qū)域,然后判斷這些區(qū)域中是否包含感興趣的目標(biāo),并調(diào)整區(qū)域邊緣從而更準(zhǔn)確地預(yù)測(cè)目標(biāo)的真實(shí)邊界框(ground-truth bounding box)
- 方法:
-
它以每個(gè)像素為中心生成多個(gè)大小和寬高比(aspect ratio)不同的邊界框。這些邊界框被稱(chēng)為錨框(anchor box)
-
18.3.1 生成多個(gè)錨框
假設(shè)輸入圖像高為h,寬為w。
分別以圖像的每個(gè)像素為中心生成不同形狀的錨框。
-
設(shè)大小為
-
且寬高比為r> 0,那么錨框的寬和高將分別為
當(dāng)中心位置給定時(shí),已知寬和高的錨框是確定的。
-
-
下面分別設(shè)定好一組大小
-
如果以每個(gè)像素為中心時(shí)使用所有的大小與寬高比的組合,輸入圖像將一共得到whnm個(gè)錨框。
- 雖然這些錨框可能覆蓋了所有的真實(shí)邊界框,但計(jì)算復(fù)雜度容易過(guò)高。
-
因此,通常只對(duì)包含S1 or r1的大小與寬高比的組合感興趣,即
-
也就是說(shuō),以相同像素為中心的錨框的數(shù)量為n+m-1
- 對(duì)于整個(gè)輸入圖像,將一共生成wh(n+m-1)個(gè)錨框。
大數(shù)據(jù)視頻推薦:
騰訊課堂
CSDN
大數(shù)據(jù)語(yǔ)音推薦:
企業(yè)級(jí)大數(shù)據(jù)技術(shù)應(yīng)用
大數(shù)據(jù)機(jī)器學(xué)習(xí)案例之推薦系統(tǒng)
自然語(yǔ)言處理
大數(shù)據(jù)基礎(chǔ)
人工智能:深度學(xué)習(xí)入門(mén)到精通
- 對(duì)于整個(gè)輸入圖像,將一共生成wh(n+m-1)個(gè)錨框。







