Abstract

近年來，基于分割的方法在場景文本檢測中非常流行，因為分割結(jié)果可以更準(zhǔn)確地描述各種形狀的場景文本，例如彎曲文本。但是，二值化的后處理對于基于分割的檢測至關(guān)重要，該檢測將通過分段方法生成的概率圖轉(zhuǎn)換為文本的邊界框/區(qū)域。在本文中，我們提出了一個名為微分二值化（DB）的模塊，該模塊可以在分割網(wǎng)絡(luò)中執(zhí)行二值化過程。通過與DB模塊一起進行優(yōu)化，分割網(wǎng)絡(luò)可以自適應(yīng)地設(shè)置二值化的閾值，這不僅簡化了后處理，而且還增強了文本檢測的性能?；诤唵蔚姆指罹W(wǎng)絡(luò)，我們在五個基準(zhǔn)數(shù)據(jù)集上驗證了DB的性能改進，DB算法在檢測準(zhǔn)確性和速度方面均始終達到最先進的結(jié)果。特別是對于輕量級的主干網(wǎng)絡(luò)，DB的性能改進意義重大，因此我們可以在檢測精度和效率之間尋求理想的折衷方案。具體來說，使用ResNet-18的主干，我們的檢測器在MSRA-TD500數(shù)據(jù)集上以62 FPS的速度達到了82.8的F值。代碼地址https：//github.com/MhLiao/DB。

Introduction

近年來，由于其廣泛的實際應(yīng)用，例如圖像/視頻理解，視覺搜索，自動駕駛和盲人輔助。閱讀場景圖像中的文本已成為一個活躍的研究領(lǐng)域。
作為場景文本讀取的關(guān)鍵組成部分，旨在定位每個文本實例的邊界框或區(qū)域的場景文本檢測仍然是一項艱巨的任務(wù)，因為場景文本通常具有各種比例和形狀，包括水平，多方向和彎曲文本。
最近，基于分割的文本檢測吸引了很多關(guān)注，因為它可以描述各種形狀的文本，
這得益于它可以從像素級別的預(yù)測結(jié)果中得到預(yù)測的結(jié)果。但是，大多數(shù)基于分割的方法都需要復(fù)雜的后處理，才能將像素級預(yù)測結(jié)果分組到檢測到的文本實例中，從而導(dǎo)致推理過程中大量的時間成本。以兩種用于場景文本檢測的最新技術(shù)為例：
PSENet（Wang et al.2019a）提出了漸進式尺度擴展的后處理以改善檢測準(zhǔn)確性。像素嵌入（Tian et al.2019）用于根據(jù)分割結(jié)果對像素進行聚類，它必須計算像素之間的特征距離。

現(xiàn)有的大多數(shù)檢測方法都使用如圖2所示的類似后處理pipline（遵循藍色箭頭）：首先，它們設(shè)置了固定的閾值將分割網(wǎng)絡(luò)生成的概率圖轉(zhuǎn)換為二進制圖像。然后，一些啟發(fā)式技術(shù)（如像素聚類）用于將像素分組為文本實例?；蛘撸覀兊膒ipeline（遵循圖2中的紅色箭頭）旨在將二值化操作插入到分割網(wǎng)絡(luò)中以進行聯(lián)合優(yōu)化。以這種方式，可以自適應(yīng)地預(yù)測圖像的每個位置處的閾值，這可以將像素是前景還是背景完全區(qū)分開。但是，標(biāo)準(zhǔn)的二值化函數(shù)是不可微的，相反，我們提出了一種二值化的近似函數(shù)，稱為可微分二值化（DB），當(dāng)與分段網(wǎng)絡(luò)一起訓(xùn)練時，該函數(shù)是完全可微的。

本文的主要貢獻是所提出的DB模塊是可區(qū)分的，這使得CNN中的二值化過程可以端到端地訓(xùn)練。通過將用于語義分割的簡單網(wǎng)絡(luò)與所提出的DB模塊相結(jié)合，我們提出了一種健壯且快速的場景文本檢測器。從使用DB模塊的性能評估中觀察到，我們發(fā)現(xiàn)我們的檢測器比以前的基于最新分段的方法具有幾個突出的優(yōu)勢。

我們的方法在五個場景文本基準(zhǔn)數(shù)據(jù)集均實現(xiàn)了更好的性能(包括水平，多方位且彎曲的文本。)
我們的方法比以前的領(lǐng)先方法執(zhí)行得快得多，因為DB可以提供高度健壯的二值化圖，從而極大地簡化了后處理。
DB在使用輕量級骨干網(wǎng)時效果很好，在使用ResNet-18的骨干網(wǎng)絡(luò)時大大提高了檢測性能。
由于DB可以在推理階段刪除而不犧牲性能，因此沒有額外的內(nèi)存/時間測試成本。

Relate Work

最近的場景文本檢測方法可以大致分為兩類：基于回歸的方法和基于分割的方法。
基于回歸的方法是一系列模型，這些模型直接使文本實例的邊界框回歸。TextBoxes（Liao et al.2017）修改了錨點和
基于SSD的卷積核的規(guī)模（Liu等。2016）用于文本檢測。 TextBoxes ++（Liao，Shi，and Bai 2018）和DMPNet（Liu and Jin 2017）應(yīng)用四邊形回歸檢測多向文本。 SSTD（He et al.2017a）提出了一種注意機制來粗略識別文本區(qū)域。 RRD（Liao et al.2018）通過使用旋轉(zhuǎn)不變特征進行分類和使用旋轉(zhuǎn)敏感特征進行回歸來將分類和回歸分離，以更好地應(yīng)對多方向和長文本實例。EAST（Zhou et al.2017）和DeepReg（He et al。2017b）對多向文本實例的回歸是采用像素級的無anchor方法。 SegLink（Shi，Bai和Belongie（2017）回歸了分割邊界框并預(yù)測了它們的連接，以處理長文本實例。 DeRPN（Xie et al.2019b）提出了一個維度分解區(qū)域提議網(wǎng)絡(luò)，以處理場景文本檢測中的比例問題。基于回歸的方法通常采用簡單的后處理算法（例如非最大抑制）。但是，大多數(shù)都是有限的代表不規(guī)則形狀的精確邊界框，例如彎曲的形狀。
基于分割的方法通常將像素級預(yù)測和后處理算法結(jié)合起來以獲取邊界框。 Zhang等人（2016）通過語義分割和基于MSER的算法檢測了多方向文本。在（Xue，Lu，and Zhan 2018）中使用文本邊框來分割文本實例，Mask TextSpotter（Lyu等人2018a; Liao等人2019）基于Mask R-CNN以實例分割的方式檢測到任意形狀的文本實例。
PSENet（Wang et al.2019a）提出了通過不同尺度的kernel來對文本實例進行分割來逐步擴展尺度的方法。（Tian et al.2019）提出了像素嵌入技術(shù)，以將分割結(jié)果中的像素聚類。PSENet（Wang等人2019a）和SAE（Tian等人2019）為分割結(jié)果提出了新的后處理算法，從而降低了推理速度。相反，我們的方法著重于通過將二值化過程包括在訓(xùn)練周期中來改善分割結(jié)果，而不會降低推理速度。
快速的場景文本檢測方法著重于準(zhǔn)確性和推理速度。TextBoxes（Liao等，2017），TextBoxes ++（Liao，Shi和Bai 2018），SegLink（Shi，Bai和Belongie 2017）和RRD（Liao等2018）。
通過遵循SSD（Liu et al.2016）的檢測架構(gòu)實現(xiàn)了快速文本檢測。 EAST（Zhou et al.2017）提出應(yīng)用PVANet（Kim et al.2016）來提高速度。它們中的大多數(shù)不能處理不規(guī)則形狀（例如彎曲形狀）的文本實例。與以前的快速場景文本檢測器相比，我們的方法不僅運行速度更快，而且可以檢測任意形狀的文本實例。

Methodology

我們提出的方法的框架如圖3所示。首先，將輸入圖像輸入到特征金字塔backbone中。其次，將金字塔特征上采樣到相同的比例，并級聯(lián)以生成特征F。然后，特征F用于預(yù)測概率圖（P）和閾值圖（T）。此后，通過P和F計算近似二元映射（B'）。在訓(xùn)練期間，對概率圖，閾值圖和近似二元圖進行監(jiān)督，其中概率圖和近似二元映射共享相同的監(jiān)督。在推理期間，可以通過邊界框公式模塊從近似二元圖或概率圖輕松獲得邊界框。

Binarization

Standard binarization

給定一個由分割網(wǎng)絡(luò)生成的概率圖P∈R(H×W)，其中H和W表示該圖的高度和寬度，必須將其轉(zhuǎn)換為二進制圖P∈R(H×W)，其中值為1的像素被視為有效的文本區(qū)域。通常，此二值化過程可以描述如下：

Differentiable binarization

等式1中描述的標(biāo)準(zhǔn)二值化是不可區(qū)分的。因此，在訓(xùn)練期間無法與分割網(wǎng)絡(luò)一起對其進行優(yōu)化。為了解決這個問題，我們建議使用近似階躍函數(shù)執(zhí)行二值化：

此近似二值化函數(shù)的作用類似于標(biāo)準(zhǔn)二值化函數(shù)（請參見圖4），但是可微分，因此可以在訓(xùn)練期間與分割網(wǎng)絡(luò)一起進行優(yōu)化。具有自適應(yīng)閾值的可微二值化不僅可以幫助從背景區(qū)域區(qū)分文本，還可以分離緊密連接的文本實例。圖7示出了一些例子。

DB改進性能的原因可以通過梯度的反向傳播來解釋。

Adaptive threshold

從外觀上看，圖1中的閾值圖類似于（Xue，Lu，和Zhan 2018）中的文本邊框圖。但是，閾值圖的動機和用法與文本邊框圖不同。在圖6中顯示了帶有/不帶有監(jiān)督的閾值圖。即使沒有監(jiān)督閾值圖，閾值圖也會突出顯示文本邊框區(qū)域。這表明類似邊界的閾值圖有利于最終結(jié)果。因此，我們在閾值圖上應(yīng)用了類似邊界的監(jiān)督，以提供更好的指導(dǎo)。

“實驗”部分討論了有關(guān)監(jiān)督的消融研究。對于其用法，（Xue，Lu和Zhan 2018）中的文本邊界圖用于拆分文本實例，而我們的閾值圖用作二值化的閾值。

Deformable convolution

可變形卷積（Dai等人，2017年; Zhu等人，2019年）可以為模型提供一個靈活的感受野，這對極端長寬比的文本實例特別有利。隨后（Zhu et al.2019），在ResNet-18或ResNet-50主干中的conv3，conv4和conv5階段的所有3×3卷積層中應(yīng)用了可調(diào)節(jié)的可變形卷積（He et al.2016a）。

Label generation

Optimization

Experiment

Datasets

SynthText（Gupta，Vedaldi和Zisserman 2016）是一個合成數(shù)據(jù)集，包含80萬張圖像。這些圖像是從8k背景圖像合成的。該數(shù)據(jù)集僅用于預(yù)訓(xùn)練我們的模型。
MLT-2017 dataset是一個多語言數(shù)據(jù)集。
它包括代表6種不同腳本的9種語言。該數(shù)據(jù)集中有7200張訓(xùn)練圖像，1800張驗證圖像和9000張測試圖像。我們在微調(diào)期間使用訓(xùn)練集和驗證集。
ICDAR 2015 dataset（Karatzas等，2015）由1000幅訓(xùn)練圖像和500幅測試圖像組成，這些圖像由Google眼鏡捕獲，分辨率為720×1280。文本實例是單詞級別標(biāo)記。
MSRA-TD500 dataset（Yao等人，2012）是包含英語和中文的多語言數(shù)據(jù)集。有300張訓(xùn)練圖像和200張測試圖像。文本實例在文本行級別標(biāo)記。按照先前的方法（Zhou等，2017; Lyu等，2018b; Long等，2018），我們包括了HUST-TR400的額外400張訓(xùn)練圖像（Yao，Bai和Liu 2014）。
CTW1500 datasetCTW1500（Liu et al.2019a）是專注于彎曲文本的數(shù)據(jù)集。它包含1000個訓(xùn)練圖像和500個測試圖像。文本實例在文本行級別中進行注釋。
Total-Text datasetTotal-Text（Chng和Chan 2017）是一個數(shù)據(jù)集，包含各種形狀的文本，包括水平，多方向和彎曲。包含1255個訓(xùn)練圖像和300個測試圖像。文本實例在單詞級別標(biāo)記。

Implementation details

訓(xùn)練數(shù)據(jù)的數(shù)據(jù)擴充包括：（1）角度范圍為（?10?，10?）的隨機旋轉(zhuǎn)；（2）隨機裁剪；（3）隨機翻轉(zhuǎn)。將所有處理后的圖像重新調(diào)整為640×640大小，以提高訓(xùn)練效率。
在推理期間，我們保持測試圖像的縱橫比，并通過為每個數(shù)據(jù)集設(shè)置合適的高度來重新調(diào)整輸入圖像的大小。 batch size大小為1，在單個線程中使用單個1080ti GPU來測試推理速度。推理時間成本包括模型前向傳播時間成本和后處理時間成本。后處理時間成本約為推理時間的30％。

Ablation study

我們對MSRA-TD500數(shù)據(jù)集和CTW1500數(shù)據(jù)集進行了消融研究，以顯示我們提出的可微分二值化，可變形卷積和不同backbone的有效性。詳細的實驗結(jié)果顯示在Tab 1中。
可微分二值化 如圖1所示，我們可以看到我們提出的DB在兩個數(shù)據(jù)集上顯著提高了ResNet-18和ResNet-50的性能。對于ResNet-18主干網(wǎng)絡(luò)，DB在MSRA-TD500數(shù)據(jù)集和CTW1500數(shù)據(jù)集上進行F度量后，性能分別提高了3.7％和4.9％。對于ResNet-50主干網(wǎng)絡(luò)，DB帶來了3.2％（在MSRA-TD500數(shù)據(jù)集上）和4.6％（在CTW1500數(shù)據(jù)集上）的改進。此外，由于可以在推斷期間刪除DB，因此其速度與沒有DB的速度相同。
可變形的卷積如圖1所示，可變形卷積還可以帶來1.5-5.0的性能提升，因為它為骨干網(wǎng)提供了一個靈活的感受野，而額外的時間成本卻很少。對于MSRA-TD500數(shù)據(jù)集，可變形卷積使F度量增加1.5％（對于ResNet-18）和5.0％（對于ResNet-50）。對于CTW1500數(shù)據(jù)集，可變形卷積實現(xiàn)了3.6％（使用ResNet-18）和4.9％（使用ResNet-50）的改進。

Supervision of threshold map盡管帶有/不帶有監(jiān)督的閾值圖在外觀上相似，但監(jiān)督可以帶來性能提升。如圖2所示，對MLT-2017數(shù)據(jù)集的監(jiān)督改進了0.7％（ResNet-18）和2.6％（ResNet-50）。
Backbone我們提出的具有ResNet-50主干的檢測器比ResNet-18具有更好的性能，但運行速度較慢。具體來說，最好的ResNet-50模型比最好的ResNet-18模型好2.1％（在MSRA-TD500數(shù)據(jù)集上）和2.4％（在CTW1500數(shù)據(jù)集上），而時間成本卻大約翻倍。

Comparisons with previous methods

我們將我們提出的方法與以前的方法在五個標(biāo)準(zhǔn)基準(zhǔn)上進行了比較，其中包括兩個用于彎曲文本的基準(zhǔn)，一個用于多方向文本的基準(zhǔn)以及兩個用于長文本行的多語言基準(zhǔn)。圖7中顯示了一些定性結(jié)果。

Curved text detection我們在兩個彎曲文本基準(zhǔn)（Total-Text和CTW1500）上證明了我們方法的形狀魯棒性。如圖3，4所示，我們的方法在準(zhǔn)確性和速度上都達到了最先進的性能。具體來說，“ DB-ResNet-50”在Total-Text和CTW1500數(shù)據(jù)集上的性能分別比以前的最新方法高1.1％和1.2％。 “ DB-ResNet-50”的運行速度比以前的所有方法都要快，并且通過使用ResNet-18主干網(wǎng)可以進一步提高速度，而性能下降很小。與最近在全文本上運行3.9 FPS的基于分段的檢測器（Wang等人，2019a）相比，“ DB-ResNet-50（800）”快了8.2倍，“ DB-ResNet-18（800）”快了12.8倍
Multi-oriented text detection ICDAR 2015數(shù)據(jù)集是一個多向文本數(shù)據(jù)集，其中包含許多小型和低分辨率文本實例。在圖5中，我們可以看到“ DB-ResNet-50（1152）”在準(zhǔn)確性方面達到了最先進的性能。與之前最快的方法（Zhou等人，2017）相比，“ DB-ResNet-50（736）”的準(zhǔn)確性高出7.2％，運行速度快了兩倍。對于“ DB-ResNet-18（736）”，將ResNet-18應(yīng)用于主干時，速度可以為48 fps，f值為82.3。
Multi-language text detection我們的方法在多語言文本檢測方面很強大。如圖6，7所示，“ DB-ResNet-50”在準(zhǔn)確性和速度上均優(yōu)于以前的方法。就準(zhǔn)確性而言，“ DB-ResNet-50”在MSRA-TD500和MLT-2017數(shù)據(jù)集上分別比以前的最新方法高1.9％和3.8％。就速度而言，“ DB-ResNet-50”是MSRA-TD500數(shù)據(jù)集上先前最快的方法（Liao等人，2018）的3.2倍。與先前的最新方法（Liu等人，2018）（82.8 vs 83.0）相比，“ DB-ResNet-18（736）”具有輕量級backbone，可以達到比較的精度，并且運行速度為62 FPS ，它是MSRA-TD500上最快的方法（Liao等人，2018）的6.2倍。通過減小輸入大小，速度可以進一步提高到82 FPS（“ ResNet-18（512）”）。

Limitation

我們方法的局限性在于它不能處理“文本在文本內(nèi)部”的情況，這意味著一個文本實例在另一個文本實例內(nèi)部。盡管縮小的文本區(qū)域?qū)τ谖谋緦嵗辉诹硪粋€文本實例的中心區(qū)域的情況很有幫助，但是當(dāng)文本實例恰好位于另一個文本實例的中心區(qū)域時，它會失敗。這是基于分割的場景文本檢測器的常見限制。

Conclusion

在本文中，我們提出了一種用于檢測任意形狀場景文本的新穎框架，其中包括在分割網(wǎng)絡(luò)中提出的可微分二值化過程（DB）。實驗證明，在速度和準(zhǔn)確性方面，我們的方法（ResNet-50主干）在五個標(biāo)準(zhǔn)場景文本基準(zhǔn)上始終優(yōu)于最新方法。特別是，即使使用輕量級的backbone（ResNet-18），我們的方法也可以以實時推理速度在所有測試數(shù)據(jù)集上實現(xiàn)競爭性能。將來，我們有興趣將我們的方法擴展為端對端文本識別的方法。

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

[AAAI2020]論文翻譯DB:Real-time Scene Text Detection with Differentiable Binarization

[AAAI2020]論文翻譯DB:Real-time Scene Text Detection with Differentiable Binarization

Abstract

Introduction

Relate Work

Methodology

Binarization

Standard binarization

Differentiable binarization

Adaptive threshold

Deformable convolution

Label generation

Optimization

Experiment

Datasets

Implementation details

Ablation study

Comparisons with previous methods

Limitation

Conclusion

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

[AAAI2020]論文翻譯DB:Real-time Scene Text Detection with Differentiable Binarization

Abstract

Introduction

Relate Work

Methodology

Binarization

Standard binarization

Differentiable binarization

Adaptive threshold

Deformable convolution

Label generation

Optimization

Experiment

Datasets

Implementation details

Ablation study

Comparisons with previous methods

Limitation

Conclusion

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av