高速行駛過程中如何應用目標檢測實現(xiàn)提前感知?

前言

計算機視覺可以應用在很多不同的行業(yè)、不同的場景當中,而自動駕駛領域是這眾多的行業(yè)、場景里面之一。

當一個大問題到了非常具體的行業(yè)、到了一個具體的場景中時,那么對應產(chǎn)生的任務也需要具體落地,這些具體任務就形成了行業(yè)中的落地應用。

下面,我們通過幾個具體的案例,來看看目標檢測如何在自動駕駛領域中進行具體應用。

一、在高速行駛的過程中,目標在遠處時就需要提前被感知,這樣才能留給系統(tǒng)足夠的時間進行反應。

這該如何做到?

在車輛駕駛的過程中,一旦提高車速,攝像頭需要對遠方的目標有及時的感知能力。

而遠處的目標通常會以小目標的形式出現(xiàn),在目標檢測中檢測出小目標具備一定的困難。但是如果只有目標具有某個大小尺寸時才能檢測到,那么接下來給予系統(tǒng)反應的時間就會變得非常少,因為可能一眨眼的瞬間就會相撞,此時危險性極高。

在《Object detection with location-aware deformable convolution and backward attention filtering》中,作者使用了后向注意力過濾后的模型來對應這個問題。

如上圖所示,作者在對feature map進行上采樣的過程中,對之前的淺層feature進行了融合,這個融合并非element wide的相加,也不是concat的channel拼接。

作者設計了一個濾波器,使得上采樣的feature map和淺層feature map可以形成過濾掉“背景”的效果,如此一來,小尺寸的目標在更純凈,更少噪聲的feature map就能被網(wǎng)絡更好地識別出來。

二、在交通道路上,兩輛車在行駛,它們之間的距離有時候相近,有時候甚遠。

那么,該如何根據(jù)時間序列上的信息更好地檢測到對方的存在呢?

在較為空曠的交通道路上,車速一般都會比較快。兩輛高速行駛的車,它們之間的相對距離變化會比較大,攝像頭中采集到的目標就會在單位時間內(nèi)快速變大或快速變小。

如果能夠提前預判和推理到對方車輛的存在,那么車輛在行駛過程中就有更多時間進行決策。

例如,對方在自己左側車道中遠離(當前自己的車速更快),那么在自己下一次超車時,就需要額外小心,左側車道的車會不會忽然加速,出現(xiàn)追尾的事故。

在《Video Object Detection With Two-Path Convolutional LSTM Pyramid》中,作者采取了一種“雙路徑的卷積長短時記憶金字塔”網(wǎng)絡來應對這個問題。

通過雙路徑的金字塔結構,不同尺寸的feature可以在不同尺寸的感知區(qū)域中進行信息交換和信息流動;

而LSTM本身可以把時間信息從上一個時刻t-1帶到下一個時刻t,這又使得上一個時刻中不同尺度感知的記憶可以帶到當前時刻中不同尺度的記憶中。

由此,使得在時間流中,目標在快速尺度變換時,也能通過這種信息交換機制進行相關性的傳遞,更好地檢查到目標。

(上圖很直觀地對使用這種方式帶來的改進進行的可視化)

三、多個目標重疊在一起時,如果能有效地檢測到他們的存在,那么他們忽然分離時,系統(tǒng)也不會因此感到“意外”。

這是如何做到的?

在人群中,如果有一輛自行車被遮擋在人群中,僅僅露出了局部。自行車的移動速度比人群快。

此時,這個“整體目標”在以某個速度進行行進的過程就會忽然讓自行車離群。

如果能提前感知到自行車的存在,那么這有利于系統(tǒng)有足夠的時間反應和預判,減少感到“意外”。

在《Object detection with location-aware deformable convolution and backward attention filtering》中,作者提出了基于位置感知的可變卷積來對應這個問題。

與一般的可變卷積不同,基于位置感知的可變卷積的學習偏移量的卷積層使用的卷積核,可以和位置感知的可變形卷積核有不同的受視野:

1.可變形卷積網(wǎng)絡中,如果計劃使用的可變形卷積核是膨脹率為1的3*3卷積核,那么學習偏移量的卷積核也必須是使用標準的3*3卷積核;

2.位置感知的可變形卷積網(wǎng)絡中,雖然計劃使用的可變卷積核是膨脹率為2的3*3卷積核,但是學習偏移量的卷積核依然可以隨意選擇自己的受視野,

同時,基于位置感知的可變卷積在學習每個采樣點的偏移量時,卷積運算的中心點以采樣點為基礎:

1.可變形卷積網(wǎng)絡中,學習偏移量的卷積操作是以當前input feature map的輸入樣本點為中心的。

例如,假設當前坐標為(0,0),那么它的9個偏移量都是以(0,0)作為中心點進行卷積操作的。

2.位置感知的可變形卷積網(wǎng)絡中,學習偏移量的卷積操作是以可變性卷積核的采樣點為中心的。

例如,假設當前坐標為(0,0),根據(jù)膨脹率為2的情況下,那么它的9個偏移量都是以對應(0,0)(-2,-2)(-2,0)(-2,2)(0,-2)(0,2)(-2,2)(0,2)(2,2)的9個采樣點作為中心點進行卷積操作的。

基于位置感知的可變卷積,它的靈活性使得它能更好地捕捉到目標的“特征”,即便目標被局部遮擋時,也能有很好的檢測效果。

如上圖所示,作者的模型可以檢測到行人背后的自行車,這個連人肉眼都難以辨別的目標也被可靠地檢測出來,以保證盡可能全面的交通參與者都被檢測到,確保安全。

小結

計算機視覺在各行各業(yè)的不同場景中有著不同的應用,落到自動駕駛這個具體的領域中,也會使得任務被具體化。

針對一些特定的自動駕駛過程中關注的問題,研究方向也會變得細節(jié)化。

就如上文提及的,對小目標檢測的需求,對兩個目標運動時的參照物關系,以及對重疊目標檢測的訴求,都是自動駕駛領域比較關注的應用。

深藍投稿作者:四葉山桐

?著作權歸作者所有,轉載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。

相關閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容