Abstract
近年來,基于分割的方法在場景文本檢測中非常流行,因為分割結(jié)果可以更準(zhǔn)確地描述各種形狀的場景文本,例如彎曲文本。但是,二值化的后處理對于基于分割的檢測至關(guān)重要,該檢測將通過分段方法生成的概率圖轉(zhuǎn)換為文本的邊界框/區(qū)域。在本文中,我們提出了一個名為微分二值化(DB)的模塊,該模塊可以在分割網(wǎng)絡(luò)中執(zhí)行二值化過程。通過與DB模塊一起進行優(yōu)化,分割網(wǎng)絡(luò)可以自適應(yīng)地設(shè)置二值化的閾值,這不僅簡化了后處理,而且還增強了文本檢測的性能?;诤唵蔚姆指罹W(wǎng)絡(luò),我們在五個基準(zhǔn)數(shù)據(jù)集上驗證了DB的性能改進,DB算法在檢測準(zhǔn)確性和速度方面均始終達到最先進的結(jié)果。特別是對于輕量級的主干網(wǎng)絡(luò),DB的性能改進意義重大,因此我們可以在檢測精度和效率之間尋求理想的折衷方案。具體來說,使用ResNet-18的主干,我們的檢測器在MSRA-TD500數(shù)據(jù)集上以62 FPS的速度達到了82.8的F值。代碼地址https://github.com/MhLiao/DB。

Introduction
近年來,由于其廣泛的實際應(yīng)用,例如圖像/視頻理解,視覺搜索,自動駕駛和盲人輔助。閱讀場景圖像中的文本已成為一個活躍的研究領(lǐng)域。
作為場景文本讀取的關(guān)鍵組成部分,旨在定位每個文本實例的邊界框或區(qū)域的場景文本檢測仍然是一項艱巨的任務(wù),因為場景文本通常具有各種比例和形狀,包括水平,多方向和彎曲文本。
最近,基于分割的文本檢測吸引了很多關(guān)注,因為它可以描述各種形狀的文本,
這得益于它可以從像素級別的預(yù)測結(jié)果中得到預(yù)測的結(jié)果。但是,大多數(shù)基于分割的方法都需要復(fù)雜的后處理,才能將像素級預(yù)測結(jié)果分組到檢測到的文本實例中,從而導(dǎo)致推理過程中大量的時間成本。以兩種用于場景文本檢測的最新技術(shù)為例:
PSENet(Wang et al.2019a)提出了漸進式尺度擴展的后處理以改善檢測準(zhǔn)確性。像素嵌入(Tian et al.2019)用于根據(jù)分割結(jié)果對像素進行聚類,它必須計算像素之間的特征距離。

本文的主要貢獻是所提出的DB模塊是可區(qū)分的,這使得CNN中的二值化過程可以端到端地訓(xùn)練。通過將用于語義分割的簡單網(wǎng)絡(luò)與所提出的DB模塊相結(jié)合,我們提出了一種健壯且快速的場景文本檢測器。從使用DB模塊的性能評估中觀察到,我們發(fā)現(xiàn)我們的檢測器比以前的基于最新分段的方法具有幾個突出的優(yōu)勢。
- 我們的方法在五個場景文本基準(zhǔn)數(shù)據(jù)集均實現(xiàn)了更好的性能(包括水平,多方位且彎曲的文本。)
- 我們的方法比以前的領(lǐng)先方法執(zhí)行得快得多,因為DB可以提供高度健壯的二值化圖,從而極大地簡化了后處理。
- DB在使用輕量級骨干網(wǎng)時效果很好,在使用ResNet-18的骨干網(wǎng)絡(luò)時大大提高了檢測性能。
- 由于DB可以在推理階段刪除而不犧牲性能,因此沒有額外的內(nèi)存/時間測試成本。
Relate Work
最近的場景文本檢測方法可以大致分為兩類:基于回歸的方法和基于分割的方法。
基于回歸的方法是一系列模型,這些模型直接使文本實例的邊界框回歸。TextBoxes(Liao et al.2017)修改了錨點和
基于SSD的卷積核的規(guī)模(Liu等。2016)用于文本檢測。 TextBoxes ++(Liao,Shi,and Bai 2018)和DMPNet(Liu and Jin 2017)應(yīng)用四邊形回歸檢測多向文本。 SSTD(He et al.2017a)提出了一種注意機制來粗略識別文本區(qū)域。 RRD(Liao et al.2018)通過使用旋轉(zhuǎn)不變特征進行分類和使用旋轉(zhuǎn)敏感特征進行回歸來將分類和回歸分離,以更好地應(yīng)對多方向和長文本實例。EAST(Zhou et al.2017)和DeepReg(He et al。2017b)對多向文本實例的回歸是采用像素級的無anchor方法。 SegLink(Shi,Bai和Belongie(2017)回歸了分割邊界框并預(yù)測了它們的連接,以處理長文本實例。 DeRPN(Xie et al.2019b)提出了一個維度分解區(qū)域提議網(wǎng)絡(luò),以處理場景文本檢測中的比例問題。基于回歸的方法通常采用簡單的后處理算法(例如非最大抑制)。但是,大多數(shù)都是有限的代表不規(guī)則形狀的精確邊界框,例如彎曲的形狀。
基于分割的方法通常將像素級預(yù)測和后處理算法結(jié)合起來以獲取邊界框。 Zhang等人(2016)通過語義分割和基于MSER的算法檢測了多方向文本。在(Xue,Lu,and Zhan 2018)中使用文本邊框來分割文本實例,Mask TextSpotter(Lyu等人2018a; Liao等人2019)基于Mask R-CNN以實例分割的方式檢測到任意形狀的文本實例。
PSENet(Wang et al.2019a)提出了通過不同尺度的kernel來對文本實例進行分割來逐步擴展尺度的方法。(Tian et al.2019)提出了像素嵌入技術(shù),以將分割結(jié)果中的像素聚類。PSENet(Wang等人2019a)和SAE(Tian等人2019)為分割結(jié)果提出了新的后處理算法,從而降低了推理速度。相反,我們的方法著重于通過將二值化過程包括在訓(xùn)練周期中來改善分割結(jié)果,而不會降低推理速度。
快速的場景文本檢測方法著重于準(zhǔn)確性和推理速度。TextBoxes(Liao等,2017),TextBoxes ++(Liao,Shi和Bai 2018),SegLink(Shi,Bai和Belongie 2017)和RRD(Liao等2018)。
通過遵循SSD(Liu et al.2016)的檢測架構(gòu)實現(xiàn)了快速文本檢測。 EAST(Zhou et al.2017)提出應(yīng)用PVANet(Kim et al.2016)來提高速度。它們中的大多數(shù)不能處理不規(guī)則形狀(例如彎曲形狀)的文本實例。與以前的快速場景文本檢測器相比,我們的方法不僅運行速度更快,而且可以檢測任意形狀的文本實例。
Methodology
我們提出的方法的框架如圖3所示。首先,將輸入圖像輸入到特征金字塔backbone中。 其次,將金字塔特征上采樣到相同的比例,并級聯(lián)以生成特征F。 然后,特征F用于預(yù)測概率圖(P)和閾值圖(T)。 此后,通過P和F計算近似二元映射(B')。 在訓(xùn)練期間,對概率圖,閾值圖和近似二元圖進行監(jiān)督,其中概率圖和近似二元映射共享相同的監(jiān)督。 在推理期間,可以通過邊界框公式模塊從近似二元圖或概率圖輕松獲得邊界框。

Binarization
Standard binarization
給定一個由分割網(wǎng)絡(luò)生成的概率圖P∈R(H×W),其中H和W表示該圖的高度和寬度,必須將其轉(zhuǎn)換為二進制圖P∈R(H×W),其中值為1的像素被視為有效的文本區(qū)域。 通常,此二值化過程可以描述如下:
Differentiable binarization
等式1中描述的標(biāo)準(zhǔn)二值化是不可區(qū)分的。 因此,在訓(xùn)練期間無法與分割網(wǎng)絡(luò)一起對其進行優(yōu)化。 為了解決這個問題,我們建議使用近似階躍函數(shù)執(zhí)行二值化:

此近似二值化函數(shù)的作用類似于標(biāo)準(zhǔn)二值化函數(shù)(請參見圖4),但是可微分,因此可以在訓(xùn)練期間與分割網(wǎng)絡(luò)一起進行優(yōu)化。 具有自適應(yīng)閾值的可微二值化不僅可以幫助從背景區(qū)域區(qū)分文本,還可以分離緊密連接的文本實例。 圖7示出了一些例子。


DB改進性能的原因可以通過梯度的反向傳播來解釋。

Adaptive threshold
從外觀上看,圖1中的閾值圖類似于(Xue,Lu,和Zhan 2018)中的文本邊框圖。 但是,閾值圖的動機和用法與文本邊框圖不同。 在圖6中顯示了帶有/不帶有監(jiān)督的閾值圖。即使沒有監(jiān)督閾值圖,閾值圖也會突出顯示文本邊框區(qū)域。 這表明類似邊界的閾值圖有利于最終結(jié)果。 因此,我們在閾值圖上應(yīng)用了類似邊界的監(jiān)督,以提供更好的指導(dǎo)。

Deformable convolution
可變形卷積(Dai等人,2017年; Zhu等人,2019年)可以為模型提供一個靈活的感受野,這對極端長寬比的文本實例特別有利。 隨后(Zhu et al.2019),在ResNet-18或ResNet-50主干中的conv3,conv4和conv5階段的所有3×3卷積層中應(yīng)用了可調(diào)節(jié)的可變形卷積(He et al.2016a)。
Label generation


Optimization


Experiment
Datasets
SynthText(Gupta,Vedaldi和Zisserman 2016)是一個合成數(shù)據(jù)集,包含80萬張圖像。 這些圖像是從8k背景圖像合成的。 該數(shù)據(jù)集僅用于預(yù)訓(xùn)練我們的模型。
MLT-2017 dataset是一個多語言數(shù)據(jù)集。
它包括代表6種不同腳本的9種語言。該數(shù)據(jù)集中有7200張訓(xùn)練圖像,1800張驗證圖像和9000張測試圖像。我們在微調(diào)期間使用訓(xùn)練集和驗證集。
ICDAR 2015 dataset(Karatzas等,2015)由1000幅訓(xùn)練圖像和500幅測試圖像組成,這些圖像由Google眼鏡捕獲,分辨率為720×1280。文本實例是單詞級別標(biāo)記。
MSRA-TD500 dataset(Yao等人,2012)是包含英語和中文的多語言數(shù)據(jù)集。有300張訓(xùn)練圖像和200張測試圖像。文本實例在文本行級別標(biāo)記。按照先前的方法(Zhou等,2017; Lyu等,2018b; Long等,2018),我們包括了HUST-TR400的額外400張訓(xùn)練圖像(Yao,Bai和Liu 2014)。
CTW1500 datasetCTW1500(Liu et al.2019a)是專注于彎曲文本的數(shù)據(jù)集。它包含1000個訓(xùn)練圖像和500個測試圖像。文本實例在文本行級別中進行注釋。
Total-Text datasetTotal-Text(Chng和Chan 2017)是一個數(shù)據(jù)集,包含各種形狀的文本,包括水平,多方向和彎曲。包含1255個訓(xùn)練圖像和300個測試圖像。文本實例在單詞級別標(biāo)記。
Implementation details

訓(xùn)練數(shù)據(jù)的數(shù)據(jù)擴充包括:(1)角度范圍為(?10?,10?)的隨機旋轉(zhuǎn); (2)隨機裁剪; (3)隨機翻轉(zhuǎn)。 將所有處理后的圖像重新調(diào)整為640×640大小,以提高訓(xùn)練效率。
在推理期間,我們保持測試圖像的縱橫比,并通過為每個數(shù)據(jù)集設(shè)置合適的高度來重新調(diào)整輸入圖像的大小。 batch size大小為1,在單個線程中使用單個1080ti GPU來測試推理速度。推理時間成本包括模型前向傳播時間成本和后處理時間成本。 后處理時間成本約為推理時間的30%。
Ablation study
我們對MSRA-TD500數(shù)據(jù)集和CTW1500數(shù)據(jù)集進行了消融研究,以顯示我們提出的可微分二值化,可變形卷積和不同backbone的有效性。詳細的實驗結(jié)果顯示在Tab 1中。
可微分二值化 如圖1所示,我們可以看到我們提出的DB在兩個數(shù)據(jù)集上顯著提高了ResNet-18和ResNet-50的性能。對于ResNet-18主干網(wǎng)絡(luò),DB在MSRA-TD500數(shù)據(jù)集和CTW1500數(shù)據(jù)集上進行F度量后,性能分別提高了3.7%和4.9%。對于ResNet-50主干網(wǎng)絡(luò),DB帶來了3.2%(在MSRA-TD500數(shù)據(jù)集上)和4.6%(在CTW1500數(shù)據(jù)集上)的改進。此外,由于可以在推斷期間刪除DB,因此其速度與沒有DB的速度相同。
可變形的卷積如圖1所示,可變形卷積還可以帶來1.5-5.0的性能提升,因為它為骨干網(wǎng)提供了一個靈活的感受野,而額外的時間成本卻很少。對于MSRA-TD500數(shù)據(jù)集,可變形卷積使F度量增加1.5%(對于ResNet-18)和5.0%(對于ResNet-50)。對于CTW1500數(shù)據(jù)集,可變形卷積實現(xiàn)了3.6%(使用ResNet-18)和4.9%(使用ResNet-50)的改進。

Supervision of threshold map盡管帶有/不帶有監(jiān)督的閾值圖在外觀上相似,但監(jiān)督可以帶來性能提升。 如圖2所示,對MLT-2017數(shù)據(jù)集的監(jiān)督改進了0.7%(ResNet-18)和2.6%(ResNet-50)。
Backbone我們提出的具有ResNet-50主干的檢測器比ResNet-18具有更好的性能,但運行速度較慢。 具體來說,最好的ResNet-50模型比最好的ResNet-18模型好2.1%(在MSRA-TD500數(shù)據(jù)集上)和2.4%(在CTW1500數(shù)據(jù)集上),而時間成本卻大約翻倍。

Comparisons with previous methods
我們將我們提出的方法與以前的方法在五個標(biāo)準(zhǔn)基準(zhǔn)上進行了比較,其中包括兩個用于彎曲文本的基準(zhǔn),一個用于多方向文本的基準(zhǔn)以及兩個用于長文本行的多語言基準(zhǔn)。 圖7中顯示了一些定性結(jié)果。


Curved text detection我們在兩個彎曲文本基準(zhǔn)(Total-Text和CTW1500)上證明了我們方法的形狀魯棒性。如圖3,4所示,我們的方法在準(zhǔn)確性和速度上都達到了最先進的性能。具體來說,“ DB-ResNet-50”在Total-Text和CTW1500數(shù)據(jù)集上的性能分別比以前的最新方法高1.1%和1.2%。 “ DB-ResNet-50”的運行速度比以前的所有方法都要快,并且通過使用ResNet-18主干網(wǎng)可以進一步提高速度,而性能下降很小。與最近在全文本上運行3.9 FPS的基于分段的檢測器(Wang等人,2019a)相比,“ DB-ResNet-50(800)”快了8.2倍,“ DB-ResNet-18(800)”快了12.8倍
Multi-oriented text detection ICDAR 2015數(shù)據(jù)集是一個多向文本數(shù)據(jù)集,其中包含許多小型和低分辨率文本實例。在圖5中,我們可以看到“ DB-ResNet-50(1152)”在準(zhǔn)確性方面達到了最先進的性能。與之前最快的方法(Zhou等人,2017)相比,“ DB-ResNet-50(736)”的準(zhǔn)確性高出7.2%,運行速度快了兩倍。對于“ DB-ResNet-18(736)”,將ResNet-18應(yīng)用于主干時,速度可以為48 fps,f值為82.3。
Multi-language text detection我們的方法在多語言文本檢測方面很強大。如圖6,7所示,“ DB-ResNet-50”在準(zhǔn)確性和速度上均優(yōu)于以前的方法。就準(zhǔn)確性而言,“ DB-ResNet-50”在MSRA-TD500和MLT-2017數(shù)據(jù)集上分別比以前的最新方法高1.9%和3.8%。就速度而言,“ DB-ResNet-50”是MSRA-TD500數(shù)據(jù)集上先前最快的方法(Liao等人,2018)的3.2倍。與先前的最新方法(Liu等人,2018)(82.8 vs 83.0)相比,“ DB-ResNet-18(736)”具有輕量級backbone,可以達到比較的精度,并且運行速度為62 FPS ,它是MSRA-TD500上最快的方法(Liao等人,2018)的6.2倍。通過減小輸入大小,速度可以進一步提高到82 FPS(“ ResNet-18(512)”)。



Limitation
我們方法的局限性在于它不能處理“文本在文本內(nèi)部”的情況,這意味著一個文本實例在另一個文本實例內(nèi)部。 盡管縮小的文本區(qū)域?qū)τ谖谋緦嵗辉诹硪粋€文本實例的中心區(qū)域的情況很有幫助,但是當(dāng)文本實例恰好位于另一個文本實例的中心區(qū)域時,它會失敗。 這是基于分割的場景文本檢測器的常見限制。
Conclusion
在本文中,我們提出了一種用于檢測任意形狀場景文本的新穎框架,其中包括在分割網(wǎng)絡(luò)中提出的可微分二值化過程(DB)。 實驗證明,在速度和準(zhǔn)確性方面,我們的方法(ResNet-50主干)在五個標(biāo)準(zhǔn)場景文本基準(zhǔn)上始終優(yōu)于最新方法。 特別是,即使使用輕量級的backbone(ResNet-18),我們的方法也可以以實時推理速度在所有測試數(shù)據(jù)集上實現(xiàn)競爭性能。 將來,我們有興趣將我們的方法擴展為端對端文本識別的方法。