https://arxiv.org/abs/2106.12204
Real-time Instance Segmentation with Discriminative Orientation Maps
作者:杜聞濤、項志宇等人(浙江大學信息與電子工程學院)
通訊作者網頁:https://person.zju.edu.cn/xiangzy/

盡管近年來實例分割取得了長足的進步,但設計具有實時性能的高精度算法仍然是一個挑戰(zhàn)。在本文中,我們提出了一個實時實例分割框架OrienMask。在一級目標檢測器YOLOv3上,添加一個 mask 頭來預測一些分辨方向圖(discriminative orientation maps),這些方向圖被明確定義為前景和背景像素的空間偏移向量。由于方向圖的辨別能力,可以在不需要額外前景分割的情況下恢復mask。所有與相同錨框大小匹配的實例共享一個公共方向圖。這種特殊的共享策略減少了mask預測的攤銷內存利用率,但不會損失mask粒度。給定NMS后幸存的邊框預測,實例mask可以從相應的方向圖以低復雜度同時構造。由于 mask 表示的簡潔設計及其與基于錨的目標檢測器的有效集成,我們的方法在實時條件下有效,同時保持了具有競爭力的準確性。在COCO基準測試上的實驗表明,OrienMask以42.7 fps的速度實現(xiàn)了34.8的 mask AP,使用單個RTX 2080 Ti進行評估。代碼在:https://github.com/duwt/OrienMask
1.引言
實例分割旨在對每個單獨的對象進行像素級的預測。它集成了實例級對象檢測[28,26,19,16]和像素級語義分割[21,6,7],形成了更細粒度的視覺感知任務。目前主要有兩種解決方案,即基于檢測的方法和基于分割的方法。前者通過額外的前景密集預測擴展了對象檢測器,而后者以自下而上的方式使用特定的每像素屬性或嵌入,以分離同一類別的實例。
這兩種模式都有明顯的缺點。傳統(tǒng)的基于檢測的方法,如Mask R-CNN[9]依靠特征池化操作將所有感興趣區(qū)域(ROI)投影到固定大小。由于后續(xù)的 mask 頭應用于每個區(qū)域proposal的豐富特征圖,因此速度在很大程度上受到限制,尤其是當對象密集出現(xiàn)時。此外,恒定的 mask 分辨率會給小目標帶來不必要的計算,并會丟失大目標的寶貴細節(jié)。相反,基于分割的方法[20,15]以像素對像素的方式保留細粒度的外觀和幾何結構。它們可以在基本場景中獲得令人滿意的結果,但在準確性上往往落后于基于檢測的方法。當對象的規(guī)模發(fā)生變化,類別的數(shù)量增加時,基于分割的方法中采用的像素級聚類的通用性仍然存在疑問。
為了滿足實時推理的要求,YOLACT[2]提出了一種特殊的 mask 構造方案,該方案將共享的非局部原型與實例級系數(shù)(instance-wise coefficients)做線性組合。它拋棄了早期基于檢測的方法中通常采用的RoI池化操作,直接從細粒度特征映射中組裝mask。根據這個范例,提出了一種改進的方法,名為BlendMask[4]。它用一組注意圖替換1D的實例級系數(shù)(instance-specific coefficients),這些注意圖提供額外的空間自適應信息,以豐富mask的細粒度細節(jié)。這些解決方案的成功表明,在基于檢測的方法中融入提供有用信息的全局特征具有巨大潛力。然而,這些方法的一個明顯缺陷在于生成組裝的 mask 時對RoI裁剪操作的依賴性,這可能會由于不準確的邊界框預測而帶來一些 mask 不完整性。
在這項工作中,我們試圖以另一種方式將細粒度表示與一階段檢測器做集成。具體來說,我們專注于緊湊的 mask 表示,以及與基于錨的檢測器YOLOv3[27]的有效集成,以實現(xiàn)實時性能。首先,提出了一種新的辨識方向圖,對多個 mask 進行獨立編碼,根據像素的正標簽或負標簽為像素分配向心或離心向量。這種設計完全不受任何其他語義分割或前景預測的影響,并且對于解碼整個mask來說是輕量級的。此外,考慮到目標的不同尺度會改變方向向量的大小分布,還考慮了多尺度設計。我們?yōu)榕c特定錨框尺寸匹配的實例分配不同的方向圖,以保證 mask 表示的完整性。OrienMask在目標檢測器上只增加了一個頭,其功能與框分配和預定義的錨尺寸緊密結合。在推理過程中,對于每個預測的邊界框,可以根據相應方向圖中的辨識向量快速構造其實例mask,如圖1所示。這個過程簡單而直接,只包括通過方向向量指示的空間目標來確定所有像素的二值標簽。我們工作的主要貢獻可以總結如下:

?????我們提出了一種輕量的、基于辨別方向的 mask 表示,用于實時實例分割。通過為前景和背景像素定義相反的方向向量,我們能夠在細粒度的雙通道圖中有效地編碼多個實例mask,而不需要顯式的前景分割。在推理中,給定實例的目標區(qū)域,它們的mask可以很容易并行地由方向圖構造。
?????為了處理各種大小的對象,我們提出了一種實例分組機制,其由基于錨框的檢測器導出。具有相似大小的每組實例被指定共享一個公用的類不可知方向圖。我們還擴展了標注的邊界框,以提供足夠的背景監(jiān)督。擴大的有效訓練區(qū)域不僅平衡了正樣本和負樣本的數(shù)量,而且有助于在邊界區(qū)域區(qū)分它們。
?????我們將辨別方向圖集成到基于快速定位的檢測器YOLOv3中,并端到端實現(xiàn)模型OrienMask。實驗表明,在COCO基準測試上,它能夠以42.7fps的速度實現(xiàn)34.8Mask AP,在最先進的實時方法中具有相當?shù)母偁幜Α?/p>
2.????相關工作
先檢測再分割的方法
基于目標檢測器生成的候選框,先檢測再分割方法從
特征圖中提取可靠的ROI,然后獲得細粒度的實例表示。在兩級檢測器Fatser R-CNN[28]的成功推動下,Mask R-CNN[9]增加了一個與邊界框回歸并行的 mask 預測分支,并使用RoIAlign來修復空間量化引起的不對齊。之后,提出了PANet[18],以加強自底向上路徑中的消息傳遞,并從各個級別融合池化特征。HTC[5]將Mask R-CNN擴展為級聯(lián)結構,將Mask和box分支交錯,同時保持語義特征融合。 Mask Scoring R-CNN[10]沒有使用檢測器的置信度,而是預測一個額外的分數(shù),以準確地表示 mask 質量。然而,由于第二階段計算量大,這些方法很難滿足實時推理的要求。
檢測和分割方法
得益于緊湊的單階段目標檢測體系結構[19,16,27,13,8,30],檢測和分割方法結合隱式實例特定表示從全局特征圖中定制mask。在YOLACT[2]中,作為這一范式的里程碑,一系列 mask 系數(shù)(coefficients)與邊框預測一起產生。然后將它們與一組高分辨率原型相乘,生成實例mask。Chen等人[4]重新考慮了特征分辨率和系數(shù)維度之間的權衡,并提出了BlendMask,它將每個實例的一些注意力映射與一組共享基礎相結合。受條件參數(shù)化卷積[38]的啟發(fā),CondInst[29]預測實例感知卷積核權重,并將其應用于高分辨率特征映射。由于靈活的框架和細粒度的表示,這些方法在速度和準確性之間保持了良好的平衡。與之相比,我們的OrienMask采用了一種顯式的、有辨識的特征共享機制來表示mask,而不是隱式的參數(shù)化形式,它更簡潔且具有很強的可解釋性。
其他mask表示
除了邊界框和前景概率圖,一些緊湊的mask表示也有助于實例分割。例如,Jetley等人[11]部署了一個自動編碼器,將 mask 壓縮為低維向量,該向量可以合并到檢測器中。Xu等人[37]將一個實例描述為一系列內中心半徑,并將其編碼為切比雪夫多項式系數(shù)。為了獲得更高的精度,PolarMask[36]提出了極性中心和極性IoU損失。Peng等人[25]以基于學習的形式實現(xiàn)了snake算法,并提出了循環(huán)卷積來迭代地將采樣點回歸到輪廓位置。作為一種有效的表示,像素偏移及其變體在分割前景內分離實例時很受歡迎。Uhrig等人[31]通過預測深度類和離散方向部署模板匹配,將相同語義標簽的像素分配給不同的實例中心。Box2Pix[32]根據偏移向量將前景像素與預測的框中心進行匹配。類似地,Li等人[14]基于檢測中心周圍的自適應投票區(qū)域合并前景像素。Neven等人[22]提出了一種針對特定類別種子和sigma圖以及密集偏移向量的聯(lián)合優(yōu)化方案。在已知聚類帶寬的情況下,按順序恢復mask。PersonLab[24]利用短程和中程偏移向量來解碼人物姿勢,然后通過遠程偏移對前景像素進行聚類。Novotny等人[23]提出了一種半卷積算子,將坐標添加到學習嵌入的一部分。PointGroup[12]將偏移描述符擴展到3D實例分割,在3D實例分割中,相同類別的點被逐步分組。我們的方法也從空間偏移描述符中得到啟發(fā)。然而,與上述主要使用空間偏移將分割的前景像素分配給實例的方法不同,我們的方向圖是自辨別的(self-discriminative)。它能夠同時過濾掉背景區(qū)域和單獨的實例。為了實現(xiàn)這一目標,定義了特殊的有效訓練區(qū)域,并考慮了正樣本和負樣本的不同方向向量。此外,這些細粒度方向圖與探測器的錨框緊密結合,保留了不同尺寸的 mask 完整性,并簡化了回歸。
3 OrienMask
3.1. 整體架構
OrienMask的網絡架構主要基于基于錨的檢測器YOLOv3[27],主干為Darknet-53。如圖2所示,我們添加了一個額外的OrienHead來預測方向圖,這是整個框架的關鍵部分。將獲得的邊界框和方向圖結合起來進行mask構建。


YOLOv3使用9個邊界框預設(priors),并在3個尺度上均勻分配它們。給定高度為H和寬度為W的圖像作為輸入的圖像,輸出步幅尺度下的邊界框頭生成
邊界框預測,其中A表示每個網格單元的錨數(shù)量。OrienHead將特征金字塔網絡(FPN)之后最大的特征圖P2作為輸入,然后預測雙通道固定分辨率
的3A方向圖,分別匹配3A個不同的錨框大小(matching with 3A different anchor sizes respectively)??紤]到處理高分辨率特征圖非常耗時,我們的OrienHead設計為輕量級。它是三個3×3和1×1卷積層交替交織,輸入通道為128和256。(It is interleaved with three 3 × 3 and 1 × 1 convolution layers of input channels 128 and 256 alternatively.)在標準的非極大抑制之后,每個邊界框都會根據其錨框大小與方向圖配對。如圖2右側所示,其方向向量在收縮的邊界框內結束的所有像素構成前景mask。(all pixels whose orientation vectors end within a contracted bounding box form a foreground mask.)
3.2. 基于方向的 mask 表示
方向圖存儲多個實例在水平和垂直方向上的像素級空間偏移。訓練階段的一些關鍵概念如圖3所示,將詳細解釋。

有效訓練區(qū)域
我們首先擴展由標注的邊界框包圍的區(qū)域,以形成有效的訓練區(qū)域。在訓練期間,任何擴展區(qū)域之外的像素都會被忽略,這意味著它們不參與損失計算。所有剩余的有效像素根據是否被實例mask覆蓋分為兩部分,即正樣本和負樣本。由于正樣本的數(shù)量是恒定的,當有效訓練區(qū)域擴展時,將統(tǒng)計更多的負樣本,因此應確定適當?shù)臄U展比率以平衡正樣本和負樣本的數(shù)量。同時,這種擴展也為區(qū)分實例邊界附近的像素提供了足夠的指導。
方向向量
為了在 mask 構建過程中容易區(qū)分正負樣本,定義了正負樣本的方向向量,使其指向相反的方向。具體來說,首先為每個實例指定一個基本位置,在我們的實驗中,邊界框質心是一個更好的選擇。方向圖上的正樣本指向基本位置,而負樣本應指向離心方向上有效訓練區(qū)域邊界上的位置(The positive samples on the orientation map are defined pointing to the base position while the negative ones should point to the boarder of the valid training area in centrifugal directions.)。將基準位置表示為,在位置
處的像素
的目標方向向量
可以表示為:
? ? (1)
? ? (2)
上標和
分別表示水平方向和垂直方向。
中的元素表示有效訓練區(qū)域的最左、最右、最頂和最底坐標。所有正樣本相比其它方向都具有最高優(yōu)先級,從而盡可能保持 mask 完整性。(All positive samples have the highest priority to override other orientations so that the mask completeness is preserved as much as possible) 如果一個負樣本被多個有效的訓練區(qū)域重疊,我們只需取平均值以避免分歧。
由于方向向量被局部定義為指向某些相鄰目的位置的空間偏移,因此它們在內部位置的兩個方向上都會平滑變化。當不同情況下的有效訓練區(qū)域重疊時,和諧可能會受到輕微干擾,但整體統(tǒng)一性仍然保持。對于位于 mask 邊界上的每一對相鄰像素,正像素被拉到基本位置,而負像素被推到擴展邊界的外側。因此,這些位置的一個梯度方向等于基本位置和有效訓練區(qū)域的相應邊界之間的距離,這明顯大于其他內部位置的一個像素差。我們在第4.3節(jié)中的實驗證明,學習到的方向圖保留了這一特性,這有助于準確描繪實例mask。
(Since orientation vectors are locally defined as spatial?offsets pointing to some neighboring destinations, they vary?smoothly in both directions within the interior places. The?harmony may be slightly disturbed when valid training areas of different instances overlap but the overall unity is still?maintained. For each pair of neighboring pixels locating?across the mask boundary, the positive is pulled to the base?position while the negative is pushed towards outside to the?expanded boarder. Thus one direction of gradients at these?positions equals to the distance between the base position?and the corresponding boarder of valid training area, which?is significantly larger than one pixel difference in other interior places. Our experiments in Section 4.3 do prove that?the learned orientation maps retain this property, which is?helpful to accurately delineate instance masks.?)
實例分組
雖然簡單地將所有實例mask堆疊到一個雙通道方向圖上對于實時考慮很有吸引力,但它可能無法處理某些實例重疊的場景,例如一個人戴著領帶。為了緩解這個問題,我們引入了一種實例分組機制。注意到YOLOv3根據與這些預設邊界框的交并比將對象指定給不同的錨框大小,我們自然地將此指定遷移到mask表示中。具體來說,根據匹配的錨框大小將實例劃分為多個組,并將每組實例mask指定給一個獨立的方向圖。
(Although simply stacking all instance?masks onto a two-channel orientation map is fascinating for?real-time considerations, it could fail in handling some instance overlapping scenarios, such as a person wearing a tie.?To alleviate this problem, we introduce an instance grouping mechanism. Noticing that YOLOv3 assigns objects to?different anchor sizes based on the intersection over unions?with those bounding box priors, we naturally transfer this?assignment to our mask representation. To be specific, instances are divided into several groups according to the anchor sizes that they are matched, and each group of instance?masks are assigned to an independent orientation map.)
除了解決由不同長寬比或比例的對象引起的重疊問題外,實例分組機制還有更多其他優(yōu)點。由于更大的物體通常需要更大的感受野,這種安排有利于使每個方向圖適應適當?shù)某叨?。同時,可以在較小的時間間隔內對分組實例的方向向量進行歸一化,使各組的大小分布不發(fā)生顯著變化,這有利于網絡訓練。此外,我們的設計也符合這樣的觀察:一幅圖像可能包含許多小實例,但只有幾個大實例。因此,它可以保存盡可能多的對象。
(Besides solving the overlapping problem caused by objects of different aspect ratios or scales, the instance grouping mechanism has more additional advantages. Since bigger objects often require larger receptive field, this arrangement is beneficial to adapt each orientation map to appropriate scale. Meanwhile, the orientation vectors of grouped instances can be normalized within a small interval so that the?magnitude distribution of each group does not vary significantly, which is good for the network training. Moreover,?our design also complies with the observation that an image may contain many small instances but only a few large?ones. Hence it can preserve as many objects as possible.?)
3.3.? Mask 構建
mask構建過程涉及兩個元素:預測的邊界框和方向圖
?;叵胍幌?,每個邊界框預測都有一個錨框大小,每個錨框大小都與方向圖關聯(lián)。因此,每個邊界框都必須與方向圖匹配。假設
和
已經配對,我們根據等式(1)中的定義,以B的質心為基本位置。然后定義一個以基本位置為中心的矩形目標區(qū)域,其大小與
的寬度和高度成正比。如果我們將基位置表示為
,邊界框的大小表示為
,則構造的 mask
可以表示為:
? ? (3)
這里存儲每個像素的坐標,
是定義目標區(qū)域的收縮因子。簡而言之,如果一個方向向量指向基本位置周圍特定領域內的某個地方,則相應的像素屬于給定實例的前景。這個簡單的過程只需要point-wise算術或邏輯運算。對于NMS中幸存的所有邊界框, mask 構建過程可以輕松并行執(zhí)行,而無需前景分割。此外,它不需要任何RoI裁剪操作,并直接考慮整個方向圖,因此幾乎不會因不準確的框預測而導致精度泄漏。
3.4 損失函數(shù)
損失函數(shù)由兩部分組成,分別為目標檢測和方向圖提供監(jiān)督。它可以表示為:
? ? (4)
其中是平衡這兩項的超參數(shù)。
完全是從官方YOLOv3復制而來,文獻中沒有任何技巧。
對于,我們計算有效訓練區(qū)域內每個像素的平滑L1損失,然后分別取正樣本和負樣本的平均值。此外,我們根據
將它們乘以實例數(shù)
。完整的表達式寫為:

其中,和
是正樣本和負樣本的指示函數(shù)(indicator functions)。
表示在像素
處預測的方向向量,而
是相應的真值。為了提高數(shù)值穩(wěn)定性并減少不同尺度的方差,
和
是通過它們的錨框大小
歸一化的,而不是直接以像素來衡量。
對每個尺度分別計算,最后進行求和。雖然網絡輸出的方向圖是輸入圖形尺寸的1/4,我們是將其上采樣到原始尺寸后再計算和匯總損失。同樣,在根據方向圖以構建mask之前,也會使用雙線性插值。
4????實驗
我們在具有挑戰(zhàn)性的MS COCO數(shù)據集[17]上進行實驗,并用標準指標評估預測。按照常規(guī)做法,所有模型均接受了118k train2017圖像的訓練,并在5k val2017圖像或20k test dev子集圖像上進行了測試。
訓練細節(jié)? ? 對于網絡結構,我們保留了YOLOv3的官方實現(xiàn),并如上所述擴展了完全卷積的OrienHead。主干darknet-53由一個預訓練檢測器初始化,網絡端到端訓練。我們使用動量為0.9、權重衰減為0.0005的隨機梯度下降(SGD)優(yōu)化器。批次大小為16,同步批次標準化用于我們的最終模型,但不用于消融研究。初始學習率為0.001,在迭代520k和660k時分別除以10。所有模型都經過100個epoch的訓練,輸入分辨率為544×544。應用了多種數(shù)據增強,例如顏色抖動、隨機調整大小和水平翻轉。
推理細節(jié)????與YOLACT[2]類似,輸入圖像直接調整為544×544,不使用測試數(shù)據增強。默認情況下,推斷速度在RTX 2080 Ti上進行評估,并以每秒幀數(shù)(FPS)進行測量。
4.1. 消融研究
在我們的消融實驗中,檢測器的實現(xiàn)是固定的。我們調整我們方法的其他超參數(shù),以獲得最佳配置。為了將OrienHead與檢測器更緊密地結合在一起,還將對基礎模型進行一些額外的改進。
有效訓練區(qū)
對于方向圖,負樣本的定義與有效訓練區(qū)域的邊界密切相關。假設每個有效訓練區(qū)域的大小與其邊界框成正比,我們將擴展比r從1.0更改到1.6,步幅為0.2。如表1所示的實驗結果,當r=1.2時,我們的模型達到最佳性能,較小或較大的擴展比都會使AP有所下降。我們注意到,隨著有效訓練區(qū)域的擴大,負樣本的數(shù)量及其方向向量的幅度同時增加。適度的擴展比可以使正負樣本數(shù)量平衡,同時在邊界附近保持足夠的差異(differentiation)。它還保持負樣本的適當數(shù)值分布。這兩個方面都有助于我們的模型更好地收斂。

方向損失的權重
在等式(4)的損失函數(shù)中,和
分別用于提供邊框級和像素級監(jiān)督。為了將這兩項聯(lián)系在一起,我們探索了從5到20的方向損失權重
,并得到了表2中的結果。隨著λ變大, mask AP度量逐漸增加。然而,我們發(fā)現(xiàn)當應用大于20的權重時,訓練過程變得不穩(wěn)定,性能飽和。因此,在我們隨后的實驗中采用λ=20。此外,我們還觀察到方向損失權重的調整并沒有顯著干擾邊框級性能,甚至有一些積極的影響,這表明OrienHead在一定程度上保持了網絡的穩(wěn)定性。

方向目標區(qū)域
對于在NMS中幸存下來的任何邊界框,只需收集方向向量指向該邊框基本位置附近的所有像素,而無需進行任何其他操作(如RoI裁剪),即可構建mask。(For any bounding box that survives NMS, the mask is simply constructed by collecting all pixels whose orientation vectors point to somewhere close to its base position, without any other operations like RoI cropping) 邊界框通過比例因子收縮,以形成方向目標區(qū)域,從而與不同縱橫比或尺度的物體兼容。這里我們選擇收縮比從0.4到0.8。從表3中,我們發(fā)現(xiàn)性能對收縮比敏感,當
=0.6時,性能最好??梢詾槊拷M實例進行更具體的參數(shù)調整,以實現(xiàn)更高的AP。

其他改進
我們進一步探索了一些措施,以更好地將OrienHead與檢測器集成,并提高整體性能。這些措施逐步實施,結果如表4所示。對于方向定義,我們首先選擇網格中心作為基準位置,這與檢測器中的邊框回歸規(guī)則保持一致。由于長方體質心更準確地定位實例,因此我們采用它作為基準位置。這種改進將maskAP度量從32.5提高到33.3。然后,我們受到下一代YOLO框架[1,Yolov4]的啟發(fā),采用了更大的錨框,這被證明更適合給定的輸入分辨率。需要注意的是,沒有額外的訓練技巧,我們仍然保持純YOLOv3的其他設置。得益于較大的錨,性能提高了0.5 AP。在早期的實驗中,我們按照標準FPN為OrienHead生成P2,但預測的方向圖與來自多個尺度的邊框預測相關。為了將這兩個輸出緊密關聯(lián)起來,我們合并了多尺度金字塔特征來預測方向圖,同時在后續(xù)層中保持相同的網絡結構,如圖2中的虛線所示。由此產生的模型再次超越了之前的模型,其額外計算成本可以忽略不計。

4.2. 與最新方法的比較
我們首先在規(guī)范的COCO測試開發(fā)基準上評估我們的OrienMask,并選擇一系列有代表性的框架進行比較。從表5中顯示的定量結果中,我們發(fā)現(xiàn),與具有類似輸入分辨率的方法(如YOLACT和CenterMask)以及一些旨在簡化 mask 表示的方法(如PolarMask和MEInst)相比,OrienMask速度更快、精度更高。我們承認OrienMask落后于一些非實時方法,它們要么具有更高的輸入圖像分辨率,要么具有更復雜的管道。當考慮到推理速度要快兩倍甚至三倍時,在準確性上接受一些犧牲似乎是合理的。

由于實時實例分割是我們工作的主要動機,我們進一步將OrienMask與能夠在COCO val2017上進行實時推理的最先進方法進行了比較。所有模型都采用了相對較淺的主干和較小的輸入分辨率,這使得比較公平且有說服力。如表6所示,我們的方法優(yōu)于YOLACT,超出5.6AP,但速度要慢4.0 fps。除此之外,OrienMask在速度比較方面是領先的方法,在mask AP度量方面優(yōu)于大多數(shù)同類方法。它在效率和準確性之間達到了很好的平衡。我們還計算用于 mask 構建的top特征映射的內存占用,并將結果記錄在“空間”列中。為簡潔起見,假設所有方法的輸入分辨率固定為544×544。統(tǒng)計數(shù)據表明,我們的方法占用最少的內存資源來構造mask,這證明了它在保持良好的mask質量的同時,成功地減少了冗余。

4.3. 討論
我們定性分析了我們方法的一些基本特性,包含優(yōu)點和局限性。
方向圖
我們選取兩個預測的方向圖來挖掘我們的 mask 表示機制。如圖4所示,每個方向圖的注意力都被具有特定錨定大小的對象抓住。兩個孩子和一塊滑板根據他們的大小而不是類別被分配到兩張方向圖上。我們展示了兩個方向的梯度圖及對兩者的按位求和,它們在實例邊界附近表現(xiàn)出明顯的difference。還可以觀察到,梯度圖的兩個組件集中在實例的不同區(qū)域,即,左側和右側部分在Gx中突出顯示,而頂部和底部部分在Gy中突出顯示。將這兩個互補的方向圖結合在一起,可以描繪出物體的完整輪廓,然后安全地收集每個實例的所有內部像素。這些可視化模式以及高質量的預測mask驗證了我們基于方向的mask表示的有效性。

定性結果
如圖5所示,我們的方法在分離相鄰實例和精確描繪其mask方面表現(xiàn)良好。由于避免RoI裁剪,并根據方向圖中的矢量直接收集前景像素,我們的 mask 構建過程對不準確的邊界框預測有很大的容忍度。同時,我們的方法也適用于一些復雜的對象重疊場景,尤其是當一個或多個小對象位于一個大對象上時。這在圖5的幾個圖像中得到了說明,例如戴領帶的人、放在桌子上的食物、人前面的棒球手套等等。由于實例分組機制,匹配不同錨框大小的對象不會相互干擾,并且它們的mask完全保留。此外,我們沒有為OrienHead引入任何像素級的分類信息。類不可知的方向圖無論屬于哪一類,都能以令人滿意的質量恢復 mask 。

失敗案例
盡管OrienMask在大多數(shù)情況下都運行良好,但我們觀察到兩個典型故障,如圖5最后一列所示。第一種情況是兩個類別相同、大小相似的實例嚴重重疊。方向圖無法區(qū)分它們,因為兩個mask的像素指向幾乎相同的基本位置。第二個失敗是由于實例之間的一些背景像素嚴重對抗,尤其是當基本位置靠近其mask邊界時。例如,圖5右下角的兩只長頸鹿都傾向于將中間部分向外推,這會意外地使一些背景像素錯誤地侵入另一個目標區(qū)域??偟膩碚f,由 mask 表示的不完整性引起的這些錯誤是不尋常的,并且只在有限的情況下發(fā)生。
The second failure happens due to the severe confrontation of some background pixels between instances, especially when the base positions locate close to their mask boundaries. For example, two giraffes in the bottom right corner of Figure 5 both tend to push the intermediate part outwards, which accidentally makes some background pixels intrude into another target region by mistake. Overall, these errors caused by the incompleteness of mask representation are unusual and only occur in limited cases.
5.結論
在這項工作中,提出了一種實時實例分割框架OrienMask,它將辨別性的方向圖與基于錨的檢測器相結合。除了前景像素的向心向量之外,我們進一步考慮方向圖中的負樣本,從而可以同時完成背景濾除和實例分離。還提出了一種實例分組機制,每個方向圖專門用于具有相同錨大小的分組對象。(An instance grouping mechanism is also presented and each orientation map specializes in grouped objects with the same anchor size.?)給定由預測框指示的目標區(qū)域,可以從相應的方向圖有效地構建mask,而無需進行明確的前景預測。在COCO上的實驗表明,所提出的OrienMask在實時條件下可以達到有競爭力的精度。