[CVPR2020]論文翻譯: ContourNet: Taking a Further Step toward Accurate Arbitrary-shaped SceneText Dete...

幻燈片1.PNG
幻燈片2.PNG
幻燈片3.PNG
幻燈片4.PNG
幻燈片5.PNG
幻燈片6.PNG
幻燈片7.PNG

Abstract

場景文本檢測見證了最近幾年的快速發(fā)展。但是,仍然存在兩個主要挑戰(zhàn):1)許多方法在其文本表示形式中存在誤報; 2)場景文本的大尺度差異使網(wǎng)絡很難學習樣本。在本文中,我們提出了ContourNet,它可以有效地解決這兩個問題,并向準確的任意形狀的文本檢測邁出了一步。首先,提出了一種對尺度不敏感的自適應區(qū)域候選網(wǎng)絡(Adaptive-RPN),通過僅關注預測邊界框與真實邊界框之間的“交集”(IoU)值來生成文本提議。然后,一個新穎的局部正交紋理感知模塊(LOTM)在兩個正交方向上對候選特征的局部紋理信息進行建模,并用一組輪廓點表示文本區(qū)域??紤]到強單向或弱正交激活通常是由假陽性圖案(例如條紋)的單調(diào)紋理特征引起的,因此我們的方法僅通過在兩個正交方向上輸出具有高響應值的預測來有效地抑制這些假陽性。這樣可以更準確地描述文本區(qū)域。在三個具有挑戰(zhàn)性的數(shù)據(jù)集(Total-Text,CTW1500和ICDAR2015)上進行的廣泛實驗驗證了我們的方法達到了最先進的性能??梢詮?a target="_blank">https://github.com/wangyuxin87/ContourNet獲得代碼。

Introduction

場景文本檢測是一項用于檢測復雜背景中的文本區(qū)域,并用邊框?qū)⑵錁擞浀娜蝿铡蚀_的檢測結(jié)果使廣泛的實際應用受益,并且是端到端文本識別的基本步驟[36,5,39,24]。

受益于深度學習的發(fā)展,場景文字檢測任務最近提出的方法已經(jīng)取得了重大進步。同時,研究重點已從水平文本[48,14]轉(zhuǎn)到多向文本[25,49]和更具挑戰(zhàn)性的任意形狀文本[34,35](例如彎曲文本)。然而,由于場景文本的特定屬性,例如顏色,紋理,尺度等的大差異,在任意形狀的場景文本檢測中仍然存在兩個挑戰(zhàn)。

第一個挑戰(zhàn)是誤報(FP) ,這在最近的研究中并未引起足夠的重視[38],被認為是更精確的任意形狀場景文本檢測的關鍵瓶頸之一。最近基于CNN的方法通過使用k×k卷積核在任意方向上共同對紋理信息進行建模[46,43]。但是,此操作對某些特定情況敏感,這些情況包含與文本區(qū)域相似的紋理特征,并且傾向于對這些情況執(zhí)行相同的高響應(請參見圖1的頂部)。SPCNET [38]將這個問題歸結(jié)為缺乏上下文信息線索和不準確的分類分數(shù),因此提出了一種文本上下文模塊來補償全局語義特征,并且通過分割圖進一步糾正了邊界框。Li-uet等人[21]用四個頂點的置信度對檢測結(jié)果進行重新評分,以監(jiān)督邊界框的緊湊性 。與這些方法不同,我們僅使用局部紋理信息來處理FP,這是一種更直接的方法,并且包含較少的計算。如圖1底部所示,我們的動機主要來自以下兩個觀察:1)具有強單向紋理特征的FPs在其正交方向上被弱激活(例如,一些垂直條紋); 2)通過同時考慮正交方向的響應,可以有效地抑制FP。因此,沿著兩個正交方向?qū)y理信息建模是合理的。受傳統(tǒng)邊緣檢測算子(例如Sobel等)的啟發(fā),我們方法中啟發(fā)性地使用水平和垂直方向。

第二個挑戰(zhàn)是場景文本的大尺度變化。與普通對象相比,場景文本中的尺度變化要大得多,這使得基于CNN的方法難以學習樣本。為了解決這個問題,MSR [43]使用了一個多尺度網(wǎng)絡,以強大的方式表現(xiàn)出各種尺度的文本。 DSRN [36]將這個問題歸因于多尺度文本的不一致激活,因此提出了一種雙向操作來將卷積特征映射到尺度不變空間。這些方法通過多尺度特征的聚合解決了大尺度方差問題,與這些方法不同, 我們關注形狀信息,并使用尺度不變度量來優(yōu)化網(wǎng)絡。

本文提出了一種新穎的文本檢測器,可以有效解決這兩個問題,實現(xiàn)準確的任意形狀場景文本檢測,稱為ContourNet。如圖2所示,在給定輸入圖像的情況下,自適應區(qū)域候選網(wǎng)絡(Adaptive-RPN)首先通過自動學習文本區(qū)域上指示文本實例的空間擴展的一組邊界點來生成文本候選區(qū)域。Adaptive-RPN的訓練對象由預測的和真實的邊界框之間的IoU值驅(qū)動,該IoU值與比例尺無關[27,49]。因此,與傳統(tǒng)的RPN方法相比,自適應RPN對場景文本的大規(guī)模變化不敏感,并且可以自動考慮文本區(qū)域的形狀信息以實現(xiàn)更精細的定位[26,8]。為了捕獲文本輪廓區(qū)域中明顯的紋理特征,我們提出了一個局部正交紋理感知模塊(LOTM),以兩個正交方向?qū)μ嶙h特征的局部紋理信息進行建模,并在兩個不同的熱圖中使用輪廓點表示文本區(qū)域,僅在特定方向上響應紋理特征。最后,點重新評分算法(Point Rescoring Algorithm)通過同時考慮兩個正交方向上的響應,可以有效過濾具有強單向或弱正交激活的預測。通過這種方式,可以檢測文本區(qū)域并用一組高質(zhì)量的輪廓點表示。

本文的貢獻有三點:
1)通過對兩個正交方向上的局部紋理信息建模,提出了一種新穎的FP抑制方法,這是一種更直接的方法,與以前的方法相比,計算量更少。
2)所提出的Adaptive-RPN有效地解決大尺度差異的問題,并實現(xiàn)了文本區(qū)域的精細定位,可以很容易地嵌入到現(xiàn)有方法中。
3)在沒有外部數(shù)據(jù)進行訓練的情況下,該方法在Total-Text和CTW1500數(shù)據(jù)集的F度量中分別達到85.4%和83.9%,速度分別為3.8 FPS和4.5 FPS,性能遠優(yōu)于最近的同類方法.

2. Related Works

長期以來,場景文本檢測一直是一個熱門的研究主題,提出了許多方法[48,30,44,46,25,42,34,32,33]。傳統(tǒng)上,基于連接組件(CC)和基于滑動窗口的方法已廣泛用于文本定位[48,30,44]。隨著深度學習成為最有前途的機器學習工具[40,17,18,47],場景文本檢測近年來取得了顯著進步。這些方法可以分為兩類:基于回歸的方法和基于分割的方法。

基于回歸的方法[29,49]受到通用對象檢測方法[7,19,8]的啟發(fā),通過預測錨點或像素的偏移量來定位文本框。 Lyuet等人[25]采用與SSD類似的架構(gòu),并重建具有預測角點的文本實例。 Wanget等人[35]使用遞歸神經(jīng)網(wǎng)絡(RNN)進行文本區(qū)域細化,并自適應預測幾對點以表示任意形狀的文本。與這些方法不同的是,EAST [49]和DDR [10]通過對預定義錨點進行細化來定位文本區(qū)域,EAST [49]和DDR [10]提出了一種新的方法來進行準確有效的文本檢測,該方法將偏移量從邊界或頂點直接回歸到當前點?;谶@些直接回歸方法,LOMO [46]提出了一個迭代優(yōu)化模塊,以迭代地優(yōu)化超長文本的裝訂框提議,然后預測中心線,文本區(qū)域和邊框偏移量以重建文本實例。

基于分割的方法[23] ,34]
主要受到FCN的啟發(fā)[22]?;谧钚路侄蔚姆椒ㄍǔJ褂貌煌谋硎拘问絹砻枋鑫谋緟^(qū)域,然后通過特定的后處理來重建文本實例。 PixelLink [4]通過分離屬于不同文本實例的鏈接來預測像素之間的連接并定位文本區(qū)域。為了處理鄰近的文本,Tianet等人[32]。設計一個兩步聚類,以從分割圖中分割出密集的文本實例。 PSENet [34]逐步以一定規(guī)模擴展內(nèi)核,以分開文本實例。
我們的方法融合了基于回歸的方法和基于分割的方法的優(yōu)點,該方法采用兩階段體系結(jié)構(gòu),并用輪廓點表示文本區(qū)域。 得益于Adaptive-RPN和FP抑制,與以前的方法相比,我們的方法有效地處理了大規(guī)模方差問題,并提供了更準確的文本區(qū)域描述。

3. Proposed Method

所提出的方法主要由三部分組成:Adaptive-RPN, Local Orthogonal Texture-aware Module (LOTM)and Point Re-scoring Algorithm(自適應RPN,LOTM和點重新評分算法)。 在本節(jié)中,我們首先簡要描述所提出方法的總體流程,然后分別詳細介紹這三個部分的動機和實現(xiàn)。


3.1. Overall pipeline

我們的ContourNet的體系結(jié)構(gòu)如圖2所示。首先,構(gòu)建骨干網(wǎng)絡以生成共享特征圖。受FPN [16]的啟發(fā),F(xiàn)PN可以為多尺度目標獲得強大的語義特征,我們通過在解碼層中實現(xiàn)橫向連接來構(gòu)建具有FPN類架構(gòu)的骨干。接下來,我們提出了在3.2節(jié)中描述的Adaptive-RPN, 通過限制幾個修正點的空間范圍。LOTM的輸入是通過使用可變形RoI池化[50]和雙線性插值到共享特征圖獲得的提議特征。然后,LOTM通過分別在水平和垂直方向上對局部紋理信息進行建模,從候選特征中解碼輪廓點。最后,通過同時考慮兩個方向的響應,使用Point Re-scoring算法來過濾FP。 LOTM和積分重新計分算法的細節(jié)分別在第3.3節(jié)和第3.4節(jié)中介紹。 Box branch中的邊界框回歸和分類(文本/非文本)類似于其他兩階段方法,用于進一步細化邊界框。

3.2. Adaptive Region Proposal Network

3.3. Local Orthogonal Texture-aware Module

受傳統(tǒng)邊緣檢測算子(例如Sobel等)的啟發(fā),在深度學習成為最有前途的機器學習工具之前,它們已經(jīng)取得了卓越的性能,我們巧妙地將傳統(tǒng)邊緣檢測算子的思想整合到LOTM中,并用一組輪廓點表示文本區(qū)域。這些包含強紋理特征的點可以準確地定位具有任意形狀的文本(如圖5所示的矩形和不規(guī)則形狀)。


如圖4所示,LOTM包含兩個平行的分支。在頂部分支中,我們滑動一個大小為1 x k 的卷積核,來覆蓋特征圖,以建模水平方向的局部紋理信息,僅關注k個范圍區(qū)域中的紋理特征。這種局部運算在我們的實驗中被證明是強大的,并且由于計算量小,也保持了我們方法的效率。以類似的方式,通過大小為k×1的卷積核對紋理特征的垂直方向建模來構(gòu)造底部分支。通過一個超參數(shù)來控制紋理特征的感受野的大小,這在Sec.4的實驗中進行了討論。最后,在兩個方向上實現(xiàn)兩個Sigmoid層,以將熱圖歸一化為[0,1]。通過這種方式,可以在兩個正交方向上檢測文本區(qū)域,并在兩個不同的熱圖中用輪廓點表示文本區(qū)域,這兩個熱圖中的任何一個僅在特定方向上響應紋理特征。

3.4. Point Re-scoring Algorithm

由于可以通過考慮兩個正交方向上的響應值來有效地抑制假陽性預測,因此通過點重新評分算法進一步處理了來自LOTM的兩個熱圖。 如算法1中所示,首先通過非極大抑制(NMS)處理不同熱圖中的點,以實現(xiàn)更緊湊的表示。 然后,為了抑制具有強單向或弱正交響應的預測,我們僅選擇兩個熱圖中具有不同響應的點作為候選。 最終,可以用由這些高質(zhì)量輪廓點組成的多邊形來表示文本區(qū)域。分別在水平和垂直方向上進行NMS操作。 我們將θ設置為0.5,以在召回率和精度之間取得更好的折衷。

3.5. Training Objective

為了學習ContourNet,損失函數(shù)表述為:

4. Experiments

4.1. Datasets

ICDAR2015 [12]是ICDAR 2015 Robust Reading Competition的Challenge4中提出的數(shù)據(jù)集。 它總共包含1500個圖像(1000個訓練圖像和500個測試圖像),并在單詞級別標注有標記為4個頂點的注釋。與以前的僅包含水平文本的數(shù)據(jù)集不同,此基準中的文本具有任意方向。

CTW1500[45]是用于曲線文本檢測的數(shù)據(jù)集。 它包含用于訓練的1000張圖像和用于測試的500張圖像。 這些文本在文本行級別標記有14個邊界點。

Total-Text[3]是一個新的具有挑戰(zhàn)性的數(shù)據(jù)集。 與CTW1500不同,此數(shù)據(jù)集中的注釋以單詞級別標記。 該數(shù)據(jù)集包括水平,多向和彎曲文本。 它包含用于訓練的1255張圖像和用于測試的300張圖像。

4.2. Implementation Details

我們使用在ImageNet進行預訓練的ResNet50 [9]作為骨干網(wǎng)。該模型在Pytorch中實現(xiàn),并使用Adam optimizer [13]在1個NVIDIA TITANX GPU上進行了訓練。我們僅使用每個數(shù)據(jù)集的官方訓練圖像來訓練我們的模型。數(shù)據(jù)擴充包括隨機旋轉(zhuǎn),隨機水平翻轉(zhuǎn)和隨機裁剪。模型總共訓練了18萬次迭代。學習率從2.5×1e-3開始,在進行120k和160k迭代后依次乘以0.1。我們使用0.9動量和0.0001權(quán)重衰減。在我們的訓練階段使用了多尺度訓練。圖片的短邊設置為{400,600, 720,1000,1200},長邊保持為2000。在訓練過程中會忽略標有“DO NOT CARE”的模糊文本。

由于所有數(shù)據(jù)集均使用多邊形注釋,因此可以進行重建任意形狀的文本,我們使用iScipy中的distance transf orm edt來獲得兩點寬的邊緣。邊緣上的所有點均視為輪廓點,并用于訓練我們的模型??梢酝ㄟ^在ground-truth多邊形上使用類似等式(2)中的max-min function來獲得Adaptive-RPN中的標簽。在訓練過程中,我們使用相同的監(jiān)督優(yōu)化了LOTM中的兩個熱圖。

在測試階段,我們使用單一尺度圖像作為輸入,并通過官方評估協(xié)議評估我們的結(jié)果。由于不同尺度的測試圖像對檢測性能有很大的影響[3??5,20],因此我們將TotalText和CTW1500數(shù)據(jù)集中的圖像縮放為720×1280,并將ICDAR 2015的分辨率固定為1200×2000。Alpha-Shape算法[ 1]用于根據(jù)輪廓點候選生成邊界框。

4.3. Ablation Study

我們對CTW1500和TotalText數(shù)據(jù)集進行了一些消融研究,以驗證Adaptive-RPN和LOTM的有效性。 所有模型都僅使用官方訓練圖像進行訓練。

Adaptive-RPN:我們首先研究自適應RPN的性能與預定義點數(shù)之間的關系。 如表1所示,以9個預定義點實施的Adaptive-RPN在F值方面的改進為0.6%。 在其余的實驗中,我們將預定義點數(shù)設置為9。

為了驗證所提出的Adaptive-RPN的性能增益,我們在CTW1500和Total-Text上進行了一些消融實驗。 LOTM已在所有模型中實現(xiàn)。如表2的頂部所示,Adaptive-RPN在Total-Text和CTW1500上的F度量分別提高了0.9%和0.8%。為了進一步證明在大方差尺度上檢測文本的改進,我們根據(jù)這兩個數(shù)據(jù)集的大小分布將結(jié)果進一步分為三部分。我們僅認為屬于同一類別的對是更好的比較方法(例如,小尺寸的預測邊界框與小尺寸的ground-truth邊界框匹配。請注意,兩種方法中被忽略的對的數(shù)量幾乎相同,這對結(jié)果影響很小。)如表2的底部所示,在檢測大小不一的文本時,Adaptive-RPN在F量測方面優(yōu)于常規(guī)RPN。

LOTM:為了評估提出的LOTM的有效性,我們在Total-Text上進行了幾次實驗。首先,我們進行了幾次實驗以研究性能和LOTM中卷積核的大小之間的關系。如表3所示,以1×3和3×1大小實現(xiàn)的模型實現(xiàn)了最高的性能(F量度為85.4%)。當我們進一步增加感受野的大小時,性能下降。我們推斷,包含更多噪聲的較大感受野對性能有害,這進一步證明了局部紋理信息建模的有效性。在其余的實驗中,我們將卷積核的大小設置為3。

其次,我們評估了正交建模的有效性。如表4所示,僅沿單個方向建模紋理信息是一種功能較弱的方法(F測度為85.4%對80.6%)。與在任意方向上共同建模紋理信息相比,LOTM在召回率,精度和F量度上分別獲得了1.2%,1.6%和1.4%的顯著改善。


4.4. Comparisons with State-of-the-Art Methods

我們將我們的方法與Total-Text,CTW1500和ICDAR2015上最新的方法進行了比較,以證明其對任意形狀文本檢測的有效性。

4.4.1 Evaluation on Curved Text Benchmark

我們在Total-Text上評估提出的方法,以測試其對彎曲文本的性能。

如表5所示,在Adaptive-RPN和假陽性抑制的幫助下,該方法獲得了83.9的最新結(jié)果。 沒有外部數(shù)據(jù)的召回率,精確度和F值分別為%,86.9%和85.4%,優(yōu)于現(xiàn)有的最新方法(例如LOMO [46],PAN [34],PSE [33]) 同時,它也達到了令人印象深刻的速度(3.8 FPS)。盡管CRAFT [2]使用了額外的字符級注釋來訓練他們的模型,我們的方法僅使用原始注釋進行訓練比CRAFT [2]F測量高1.8 %。 此外,LOMO [46]使用外部圖像訓練其模型,并在多尺度上進一步測試其結(jié)果。 我們的方法僅使用官方數(shù)據(jù)進行訓練,并且在單一規(guī)模上進行了測試,在F量度方面優(yōu)于LOMO [46] 2.1%。 彎曲文本檢測結(jié)果的可視化效果如圖5(a)所示。

4.4.2 Evaluation on Long Curved Text Benchmark

為了顯示我們的ContourNet在長彎曲文本上的性能,我們將其與在文本行級別注釋的最新CTW1500數(shù)據(jù)集的性能進行了比較。如表6所示,該方法比其他同類方法要好得多 包括CTD + TLOC [45],MSR [43],TextSnake [23],它們專為彎曲文本而設計。盡管在LOMO [46]中對文本區(qū)域進行了細化,但在表示長文本方面卻取得了令人鼓舞的結(jié)果,而我們的Contour-Net得益于自適應 -RPN,獲得更高的性能(F量度為83.9%比80.8%)。 與也使用輪廓點描述文本區(qū)域的MSR [43]相比,我們的方法在recal-l和F-measure方面均具有優(yōu)勢,而無需外部數(shù)據(jù)進行訓練,相對改進分別達到5.8%和2.4% 。 此外,該方法在此數(shù)據(jù)集上以4.5 FPS的速度運行,比最新方法要快。 長彎曲文本檢測結(jié)果的可視化效果如圖5(b)所示。

4.4.3 Evaluation on Multi-oriented Text Benchmark

我們在ICDAR 2015上評估了我們的方法,以測試其在多方位文本中的性能。 RoIAlign [8]用于在該數(shù)據(jù)集上生成投標特征。表7中顯示了一些實驗結(jié)果。 我們的方法在F測度上達到86.9%,僅比Wanget等人低[35]。 (F測度為87.6%)。 但是,他們在其骨干網(wǎng)中實現(xiàn)了擠壓和激勵(SE)塊[11],這對于重新校準通道方式的特征響應而言更為強大。 當不使用SE塊實現(xiàn)時,他們的方法在F度量中達到86.8%,低于我們的方法。 多方向文本檢測結(jié)果的可視化如圖5(c)所示。

4.5. Effectiveness of ContourNet

我們在以下兩個方面進一步證明了我們方法的有效性。 補充部分中顯示了有關此部分的更多討論。

Adaptive-RPN的有效性。由于場景文本檢測中存在大規(guī)模方差問題,因此常規(guī)RPN在回歸距離較大或目標框與默認框的比例具有較大差異時會獲得文本區(qū)域的粗略定位。受益于對形狀信息和尺度不變訓練對象的了解,提出的Adaptive-RPN在這些情況下表現(xiàn)更好,并實現(xiàn)了文本區(qū)域的更好定位。補充材料說明了常規(guī)RPN和本文提出的Adaptive-RPN的一些定性例子。

假陽性抑制的有效性。
1)量化。點重新計分算法中的θ值會影響被抑制的FP與造成假陰性(FN)的比率。當θ從0.1到0.9時,比率值相當大(詳細圖表顯示在補充表中)。因此,我們的方法在抑制FP方面比導致FN更為有效。
2)定性分析。雖然引起FN的情況很少,但值得一提的是,在正交方向上都具有強紋理信息的正點能夠準確表示文本(參見圖1)。
3)采用常規(guī)RPN,我們的方法在Total-Text和CTW1500的F-measure方面可以達到84.5%和83.1%,超過了表5和表6中的大多數(shù)方法。雖然很難驗證哪種表示形式更適合于任意形狀的文本檢測(例如,區(qū)域預測[35,34],輪廓點[43],自適應點[35]等),但FP問題是統(tǒng)一的挑戰(zhàn)。每種方法都很難做到。在這方面,我們的方法比以前的方法有了很大的改進。

5. Conclusion

在本文中,我們提出了一種新穎的場景文本檢測方法(ContourNet)來處理文本表示中的誤報和大尺度方差問題。 Con-tourNet主要由Adaptive-RPN,LOTM和Point Re-scoring算法三部分組成。 Adaptive-RPN通過限制幾個語義點的空間擴展來定位文本的初步建議。 LOTM在兩個正交方向上對局部紋理信息進行建模,并用輪廓點表示文本區(qū)域。點重新評分算法通過同時考慮兩個正交方向上的響應值來過濾FP。 我們的方法的有效性已在多個公共基準上得到了證明,包括長的,彎曲的和多方向的文本案例。 在以后的工作中,我們傾向于開發(fā)端到端的文本閱讀系統(tǒng)。

Acknowledgments

This work is supported by the National Key Researchand Development Program of China (2017YFC0820600),the National Nature Science Foundation of China(61525206, U1936210), the Youth Innovation PromotionAssociation Chinese Academy of Sciences (2017209), theFundamental Research Funds for the Central Universitiesunder Grant WK2100100030.

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。

友情鏈接更多精彩內(nèi)容