Abstract
最近,端到端場(chǎng)景文本識(shí)別已成為一個(gè)流行的研究主題,因?yàn)樗哂腥謨?yōu)化的優(yōu)點(diǎn)和在實(shí)際應(yīng)用中的高可維護(hù)性。大多數(shù)方法試圖開(kāi)發(fā)各種感興趣的區(qū)域(RoI)操作,以將檢測(cè)部分和序列識(shí)別部分連接到兩階段的文本識(shí)別框架中。然而,在這樣的框架中,識(shí)別部分對(duì)檢測(cè)到的結(jié)果高度敏感(例如,文本輪廓的緊湊性)。為了解決這個(gè)問(wèn)題,在本文中,我們提出了一種新穎的“Mask Attention Guided One-stage”文本識(shí)別框架,稱為MANGO,在該框架中無(wú)需RoI操作就可以直接識(shí)別字符序列。具體而言:
- 開(kāi)發(fā)了位置感知mask注意力模塊,以生成每個(gè)文本實(shí)例及其字符的注意力權(quán)重。
- 它允許將圖像中的不同文本實(shí)例分配在不同的特征圖通道上,這些通道進(jìn)一步分組為一批實(shí)例特征。
- 最后,使用輕量級(jí)序列解碼器來(lái)生成字符序列。
值得注意的是,MANGO自有地適應(yīng)于任意形狀的文本識(shí)別,并且僅使用粗略的位置信息(例如矩形邊界框)和文本注釋就可以進(jìn)行端到端的訓(xùn)練。實(shí)驗(yàn)結(jié)果表明,該方法在規(guī)則和不規(guī)則文本識(shí)別基準(zhǔn)(即ICDAR 2013,ICDAR 2015,Total-Text和SCUT-CTW1500)上均達(dá)到了有競(jìng)爭(zhēng)力甚至最新性能。
1 Introduction
場(chǎng)景文本識(shí)別由于其各種實(shí)際應(yīng)用而備受關(guān)注,例如發(fā)票/收據(jù)理解中的關(guān)鍵實(shí)體識(shí)別,電子商務(wù)系統(tǒng)中的產(chǎn)品名稱識(shí)別以及智能運(yùn)輸系統(tǒng)中的車(chē)牌識(shí)別。傳統(tǒng)的場(chǎng)景文字識(shí)別系統(tǒng)通常分三步進(jìn)行:定位文字區(qū)域,從原始圖像中裁剪文字區(qū)域并將其識(shí)別為字符序列。然而盡管這種文本識(shí)別模型帶來(lái)了許多可考慮的問(wèn)題,例如:
(1)錯(cuò)誤將在多個(gè)單獨(dú)的任務(wù)之間累
(2)維護(hù)多個(gè)單獨(dú)的模型的成本很高
(3)該模型難以適應(yīng)各種應(yīng)用程序。
因此,提出了許多工作以端到端的方式來(lái)最終優(yōu)化文本識(shí)別過(guò)程。這些方法通常使用各種興趣區(qū)域(RoI)操作以可微分的方式橋接文本檢測(cè)和識(shí)別部分,從而形成了兩階段框架。粗略地說(shuō),早期的端到端方法將軸對(duì)齊的矩形RoI用作連接模塊。這些方法處理不規(guī)則的(例如,透視圖或彎曲的)文本實(shí)例能力有限,因?yàn)檫@種類型的RoI可能會(huì)帶來(lái)背景或其他文本的干擾。為了解決這個(gè)問(wèn)題,后來(lái)的方法(設(shè)計(jì)了一些形狀自適應(yīng)RoI機(jī)制來(lái)提取不規(guī)則物體。文本實(shí)例并將其校正為規(guī)則形狀。

圖1:傳統(tǒng)的兩階段文本識(shí)別過(guò)程和提出的MANGO的圖示。 圖(a)顯示了通過(guò)RoI操作連接檢測(cè)和識(shí)別部分的兩階段文本識(shí)別策略。 圖(b)是一種提出的單階段文本識(shí)別方法,它可以直接輸出最終的字符序列。
在兩階段方法中,識(shí)別部分高度依賴于定位結(jié)果,這就要求檢測(cè)部分必須能夠捕獲準(zhǔn)確的文本邊界以消除背景干擾。因此,訓(xùn)練魯棒的文本檢測(cè)模型依賴于準(zhǔn)確的檢測(cè)注釋,例如在不規(guī)則文本識(shí)別中使用的多邊形或蒙版注釋。自然地,標(biāo)記這種注釋是費(fèi)力且昂貴的。另一方面,要確保緊緊封閉的文本區(qū)域(由檢測(cè)注釋進(jìn)行監(jiān)督)對(duì)于以下識(shí)別任務(wù)而言是最佳形式,這并不容易。例如,在圖1(a)中,緊密的文本邊界可能會(huì)擦除字符的邊緣紋理并導(dǎo)致錯(cuò)誤的結(jié)果。通常,需要手動(dòng)擴(kuò)展這些嚴(yán)格的檢測(cè)結(jié)果,以適應(yīng)實(shí)際應(yīng)用中的識(shí)別。此外,在proposals之后執(zhí)行帶有非極大抑制(NMS)的復(fù)雜RoI操作也很耗時(shí),尤其是對(duì)于任意形狀的區(qū)域。盡管(Xing et al.2019)提出了一種單階段采用字符分割策略的字符級(jí)別的識(shí)別框架,但很難擴(kuò)展到具有更多字符類別(例如漢字)的情況。它還會(huì)丟失角色之間的關(guān)鍵上下文信息。
實(shí)際上,當(dāng)人們閱讀時(shí),他們不需要描繪文本實(shí)例的準(zhǔn)確輪廓。通過(guò)視覺(jué)注意力關(guān)注的粗略文本位置來(lái)識(shí)別文本實(shí)例就足夠了。在這里,我們將場(chǎng)景文本識(shí)別重新考慮為注意力和閱讀的問(wèn)題,即,一次直接讀出粗略注意的文本區(qū)域的文本內(nèi)容。
在本文中,我們提出了一種名為MANGO的“Mask Attention Guided One stage”文本監(jiān)視程序,稱為MANGO,這是一種緊湊而強(qiáng)大的單階段框架,可直接從圖像中同時(shí)預(yù)測(cè)所有文本,而無(wú)需進(jìn)行任何RoI操作。具體來(lái)說(shuō),我們引入了一個(gè)位置感知蒙版注意力(PMA)模塊以在文本區(qū)域上生成空間注意力,該模塊包含實(shí)例級(jí)蒙版注意力(IMA)部分和字符級(jí)蒙版注意力(CMA)部分。 IMA和CMA分別負(fù)責(zé)感知圖像中文本和字符的位置??梢酝ㄟ^(guò)位置感知注意力譜直接提取文本實(shí)例的特征,而不必進(jìn)行顯式的裁剪操作,這盡可能保留了全局空間信息。
在這里,使用動(dòng)態(tài)卷積將不同文本實(shí)例的特征映射到不同的特征譜通道(Wang等人,2020c),如圖1(b)所示。之后,應(yīng)用輕量級(jí)序列解碼器一次批量生成字符序列特征。
請(qǐng)注意,MANGO可以僅使用粗略的位置信息(例如,矩形邊界框,甚至是文本實(shí)例的中心點(diǎn))進(jìn)行端到端優(yōu)化,還可以使用序列注釋。 受益于PMA,該框架可以自適應(yīng)地識(shí)別各種不規(guī)則文本,而無(wú)需任何糾正機(jī)制,并且還能夠了解任意形狀的文本的閱讀順序。
本文的主要貢獻(xiàn)如下:
(1)我們提出了一種名為MANGO的緊湊而強(qiáng)大的一階段文本識(shí)別框架, 該框架可以以端到端的方式進(jìn)行訓(xùn)練。
(2)我們開(kāi)發(fā)了位置感知蒙版注意力模塊,以將文本實(shí)例特征生成為一個(gè)batch,并與最終字符序列建立一對(duì)一的映射。 只能使用粗略的文本位置信息和文本注釋來(lái)訓(xùn)練該模塊。
(3)廣泛的實(shí)驗(yàn)表明,我們的方法在規(guī)則和不規(guī)則文本基準(zhǔn)上均獲得了有競(jìng)爭(zhēng)甚至最新的性能。
2 Related Works
早期場(chǎng)景文本發(fā)現(xiàn)方法(Liao,Shi,and Bai 2018; Liao et al.2017; Wang et al.2012)通常首先使用訓(xùn)練有素的檢測(cè)器來(lái)定位每個(gè)文本,例如(Liao et al.2017; Zhou et al.2017; He et al.2017; Ma et al.2018; Xu et al.2019; Baek et al.2019),然后使用序列解碼器識(shí)別裁剪后的文本區(qū)域(Shi et al.2016; Shi,Bai和Yao 2017; Cheng et al.2017; Zhan and Lu 2019; Luo,Jin and Sun 2019)。為了充分利用文本檢測(cè)和文本識(shí)別之間的互補(bǔ)性,已經(jīng)提出了一些工作以端到端的方式優(yōu)化場(chǎng)景文本發(fā)現(xiàn)框架,其中使用了模塊連接器(例如RoI Pooling(Ren等人,2015a))在(Li,Wang,and Shen 2017; Wang,Li,and Shen 2019)中,(He等人2018)中使用的RoI-Align和(Liu等人2018)中使用的RoI-Rotate的開(kāi)發(fā)是為了文本檢測(cè)和文本識(shí)別部分。請(qǐng)注意,這些方法無(wú)法發(fā)現(xiàn)任意形狀的文本。
為了解決不規(guī)則問(wèn)題,已經(jīng)提出了許多最近的工作來(lái)設(shè)計(jì)各種自適應(yīng)RoI操作以發(fā)現(xiàn)任意形狀的文本。 Sun等人(2018年)采用了透視圖RoI轉(zhuǎn)換模塊來(lái)糾正透視圖文本,但是該策略仍然難以處理彎曲度較大的文本。 (Liao et al.2019)提出了受兩階段Mask-RCNN啟發(fā)的mask textspotter,用于逐個(gè)字符地檢測(cè)任意形狀的文本,但是這種方法會(huì)丟失字符的上下文信息,并且需要字符級(jí)位置注釋。 Qin等人(2019)直接采用Mask-RCNN和基于注意力的文本識(shí)別器,該模型使用RoI-Masking模塊在識(shí)別之前消除了背景干擾。 (Feng et al.2019)將文本實(shí)例視為一組特征塊,并采用RoI-Slide操作來(lái)重建直線特征圖。 (Qiao et al。2020)和(Wang et al。2020a)都檢測(cè)到文本周?chē)年P(guān)鍵點(diǎn),并應(yīng)用薄板樣條變換(Bookstein 1989)糾正不規(guī)則實(shí)例。為了獲得彎曲文本的平滑特征(Liu et al.2020),使用Bezier曲線表示文本實(shí)例的上下邊界,并提出了Bezier-Align操作以獲取校正后的特征圖。
上述方法在兩階段框架中實(shí)現(xiàn)了端到端場(chǎng)景文本點(diǎn),其中需要設(shè)計(jì)基于RoI的連接器(例如RoI-Align,RoI-Slide和Bezier-Align等),以實(shí)現(xiàn)以下目的:明確裁剪特征圖。
在兩階段框架中,性能很大程度上取決于RoI操作獲得的文本邊界精度。但是,這些復(fù)雜的多邊形注釋通常很昂貴,并且并不總是適合識(shí)別部分,如前所述。
2.2 One-stage End-to-end Scene Text Spotting
在一般的對(duì)象定位領(lǐng)域,許多最新進(jìn)展證明了在對(duì)象檢測(cè)中研究的一階段框架的效率和有效性(Redmon等人2016; Liu等人2016; Lin等人2017b; Tian等人2019;段等人(2019)或?qū)嵗指睿╓ang等人2019b; Tian,Shen和Chen 2020; Wang等人2020c; Xie等人2020; Chen等人2020)。但是,場(chǎng)景文本發(fā)現(xiàn)是一項(xiàng)更具挑戰(zhàn)性的任務(wù),因?yàn)樗婕靶蛄凶R(shí)別問(wèn)題而不是單個(gè)對(duì)象分類。這是因?yàn)閳?chǎng)景文本具有許多特殊特征:任意形狀(例如,曲線,傾斜或透視圖等),數(shù)百萬(wàn)個(gè)字符組合,甚至是不受限制的閱讀順序(例如,從右到左)。最近,(Xing et al.2019)提出了一種通過(guò)直接分割單個(gè)字符的一種舞臺(tái)場(chǎng)景文本識(shí)別方法。但是,它丟失了各個(gè)字符之間的序列上下文信息,并且很難傳遞給更多的字符類。據(jù)我們所知,以前沒(méi)有工作可以在一個(gè)階段的框架中處理序列級(jí)別的場(chǎng)景文本發(fā)現(xiàn)任務(wù)。
3 Methodology

圖2:MANGO的工作流程。 我們以S = 6為例。 將輸入特征輸入到位置感知蒙版注意力模塊中,以將實(shí)例/字符的不同特征映射到不同通道。 識(shí)別器最終一次全部輸出字符序列。 Centerline Segmentation分支用于生成所有文本實(shí)例的粗略位置。 前綴“ R-”和“ C-”分別表示網(wǎng)格的行和列。
3.1 Overview
我們提出了一個(gè)名為MANGO的單階段場(chǎng)景文本查找器,如圖2所示。其深層特征是通過(guò)ResNet-50(He等人,2016)和特征金字塔網(wǎng)絡(luò)(FPN)(Lin等人,2017a)的主干提取的。 然后將生成的特征圖饋送到三個(gè)可學(xué)習(xí)的模塊中:
(1)用于學(xué)習(xí)單個(gè)文本實(shí)例的位置感知蒙版注意力(PMA)模塊,其中包括實(shí)例級(jí)蒙版注意力( IMA)子模塊和字符級(jí)掩碼注意力(CMA)子模塊。
(2)識(shí)別器用于將注意力實(shí)例特征解碼為字符序列。
(3)全局文本中心線分割模塊,用于在推理階段提供粗略的文本位置信息。
3.2 Position-aware Mask Attention Module
單階段的文本識(shí)別問(wèn)題可以視為原始圖像中的純文本識(shí)別任務(wù)。關(guān)鍵步驟是在文本實(shí)例到最終字符序列之間以固定順序建立直接的一對(duì)一映射。在這里,我們開(kāi)發(fā)了位置感知注意力(PMA)模塊,以便為接下來(lái)的序列解碼模塊一次捕獲所有表示文本的特征。受(Wang等人2019b)中使用的網(wǎng)格映射策略的啟發(fā),我們發(fā)現(xiàn)可以將不同的實(shí)例映射到不同的特定通道中,并實(shí)現(xiàn)實(shí)例到特征的映射。也就是說(shuō),我們首先將輸入圖像劃分為S×S的網(wǎng)格。然后,通過(guò)提出的PMA模塊將網(wǎng)格周?chē)男畔⒂成涞教卣鲌D的特定通道中。
具體來(lái)說(shuō),我們將特征提取后獲得的特征圖表示為x∈RC×H×W,其中C,H和W分別表示為特征圖的通道數(shù)量,寬度和高度。然后我們將特征圖x送入PMA(包括IMA和CMA模塊)模塊,以生成文本實(shí)例的特征表示(如下所述)。
Instance-level Mask Attention
MA負(fù)責(zé)生成實(shí)例級(jí)注意力蒙版遮罩,并將不同實(shí)例的特征分配給不同的特征圖通道。 它是通過(guò)在切片網(wǎng)格上操作一組動(dòng)態(tài)卷積內(nèi)核(Wang等人2020c)來(lái)實(shí)現(xiàn)的,表示為GS×S×C。卷積核大小設(shè)置為1×1。
因此可以通過(guò)將這些卷積核應(yīng)用于原始特征圖來(lái)生成實(shí)例級(jí)注意力掩碼:

要學(xué)習(xí)動(dòng)態(tài)卷積核G,我們需要在文本實(shí)例和網(wǎng)格之間進(jìn)行網(wǎng)格匹配。 與一般的對(duì)象檢測(cè)或?qū)嵗指钊蝿?wù)不同,文本實(shí)例通常以較大的縱橫比甚至嚴(yán)重彎曲。 直接使用文本邊界框的中心進(jìn)行網(wǎng)格匹配是不合理的。

如果有兩個(gè)實(shí)例占用同一個(gè)網(wǎng)格,我們只需選擇一個(gè)占用率較大的實(shí)例。
Character-level Mask Attention
正如許多工作 (Chenget等人2017; Xing等人2019)所表明的那樣,字符級(jí)位置信息可以幫助提高識(shí)別性能。 這激勵(lì)我們?cè)O(shè)計(jì)全局字符級(jí)注意力子模塊,以為后續(xù)的識(shí)別任務(wù)提供細(xì)粒度的特征。
如圖2所示,CMA首先將原始特征圖x和實(shí)例級(jí)注意力蒙版xins連接在一起,然后是兩個(gè)卷積層(卷積核大小= 3×3)遵循下式來(lái)預(yù)測(cè)字符級(jí)注意力蒙版:

3.3 Sequence Decoding Module
由于將不同文本實(shí)例的注意蒙版分配給不同的特征通道,因此我們可以將文本實(shí)例打包為一批。 一個(gè)簡(jiǎn)單的想法是進(jìn)行(Wang等人2020b)中使用的注意力融合操作,以生成批處理的連續(xù)特征xseq,即

然后,我們可以將文本識(shí)別問(wèn)題轉(zhuǎn)換為純序列分類問(wèn)題。 后面的序列解碼網(wǎng)絡(luò)負(fù)責(zé)生成一批字符序列(S2)。 具體來(lái)說(shuō),我們?cè)趚seq上添加了兩層雙向長(zhǎng)短期記憶(BiLSTM)(Hochreiter和Schmidhuber 1997)來(lái)捕獲順序關(guān)系,最后通過(guò)完全連接的(FC)層輸出字符序列。

(包括26個(gè)字母,10個(gè)數(shù)字,32個(gè)ASCII標(biāo)點(diǎn)符號(hào)和1個(gè)EOS符號(hào))。 具體而言,如果預(yù)測(cè)的字符串的長(zhǎng)度小于L,則其余的預(yù)測(cè)將使用EOS符號(hào)進(jìn)行補(bǔ)充。
3.4 Text Centerline Segmentation
該模型現(xiàn)在能夠分別輸出S2網(wǎng)格的所有預(yù)測(cè)序列。 但是,如果圖像中有兩個(gè)以上的文本實(shí)例,我們?nèi)匀恍枰赋瞿膫€(gè)網(wǎng)格對(duì)應(yīng)于那些識(shí)別結(jié)果。
由于我們的方法不依賴準(zhǔn)確的邊界信息,因此我們可以應(yīng)用任何文本檢測(cè)策略(例如RPN(Ren等人2015b)和YOLO(Redmon等人。 2016)),以獲取文本實(shí)例的粗略的幾何信息。 考慮到場(chǎng)景文本可能是任意形狀的,我們遵循大多數(shù)基于分割的文本檢測(cè)方法(Long等人2018; Wang等人2019a)來(lái)學(xué)習(xí)單個(gè)文本實(shí)例的全局文本中心線區(qū)域分割(或縮小ground truth)。
3.5 Optimization
IMA和CMA模塊都用于使網(wǎng)絡(luò)聚焦于特定的實(shí)例和字符位置,這在理論上只能通過(guò)最后的識(shí)別部分來(lái)學(xué)習(xí)。 但是,在復(fù)雜的場(chǎng)景文本場(chǎng)景中,如果沒(méi)有位置信息的輔助,網(wǎng)絡(luò)可能難以收斂。 但是,我們發(fā)現(xiàn),如果模型已經(jīng)在合成數(shù)據(jù)集上進(jìn)行了預(yù)先的字符級(jí)監(jiān)督,則可以輕松轉(zhuǎn)移模型。 因此,可以分兩步對(duì)模型進(jìn)行優(yōu)化。
首先,我們可以將IMA和CMA的學(xué)習(xí)視為純分割任務(wù)。 結(jié)合中心線區(qū)域分割,所有分割任務(wù)都使用二進(jìn)制Dice系數(shù)損失進(jìn)行訓(xùn)練(Milletari,Navab和Ahmadi 2016),而識(shí)別任務(wù)僅使用交叉熵?fù)p失。 全局優(yōu)化可以寫(xiě)成

請(qǐng)注意,預(yù)訓(xùn)練步驟實(shí)際上是一次性的任務(wù),然后將主要學(xué)習(xí)CMA和IMA以適應(yīng)該識(shí)別任務(wù)。 與以前需要平衡檢測(cè)和識(shí)別權(quán)重的方法相比,MANGO的端到端結(jié)果主要由最終識(shí)別任務(wù)監(jiān)督。
3.6 Inference
在推斷階段,網(wǎng)絡(luò)輸出一批(S×S)概率矩陣(L×M)。 根據(jù)中心線分割任務(wù)的預(yù)測(cè),我們可以確定哪些網(wǎng)格應(yīng)視為有效。 我們首先進(jìn)行“廣度優(yōu)先搜索”(BFS),以找到各個(gè)相連的區(qū)域。 在此過(guò)程中,可以過(guò)濾許多類似文本的紋理。 由于每個(gè)連接區(qū)域可能與多個(gè)網(wǎng)格相交,因此我們采用字符加權(quán)投票策略來(lái)生成最終的字符串,如圖3所示。
具體來(lái)說(shuō),我們計(jì)算連接區(qū)域i與網(wǎng)格j之間的連接率oi,j作為每個(gè)字符的權(quán)重。 對(duì)于實(shí)例i的第k個(gè)字符,其字符加權(quán)投票結(jié)果通過(guò)

在這里,占用率提供了每個(gè)網(wǎng)格的置信度,并且多個(gè)輸出融合可以生成更可靠的結(jié)果。 具有最大占用率的網(wǎng)格將被視為粗糙的輸出位置,可以根據(jù)特定任務(wù)將其替換為任何形式。
4 Experiments
4.1 Datasets
我們列出了本文使用的數(shù)據(jù)集如下:訓(xùn)練數(shù)據(jù)。我們使用SynthText 800k(Gupta,Vedaldi和Zisserman 2016)作為預(yù)訓(xùn)練數(shù)據(jù)集。利用實(shí)例級(jí)注釋和字符級(jí)注釋對(duì)PMA模塊進(jìn)行預(yù)訓(xùn)練。在微調(diào)階段,我們旨在獲得一個(gè)支持常規(guī)和非常規(guī)場(chǎng)景文本讀取的通用文本點(diǎn)。在這里,我們構(gòu)建了一個(gè)用于微調(diào)的通用數(shù)據(jù)集,其中包括來(lái)自Curved SynthText的150k圖像(Liu等人2020),從COCO-Text過(guò)濾的13k圖像(Veitet等人2016),從ICDAR-MLT過(guò)濾的7k圖像(Nayefet等人2019)以及ICDAR2013(Karatzas等人2013),ICDAR2015(Karatzas等人2015)和Total-Text(Ch'ng and Chan 2017)中的所有訓(xùn)練圖像。請(qǐng)注意,這里我們僅使用實(shí)例級(jí)別的注釋來(lái)訓(xùn)練網(wǎng)絡(luò)。測(cè)試數(shù)據(jù)集。我們?cè)趦蓚€(gè)標(biāo)準(zhǔn)文本點(diǎn)標(biāo)基準(zhǔn)ICDAR2013(Karatzas等人2013)(IC13)和ICDAR2015(Karatzas等人2015)(IC15)中評(píng)估了我們的方法,其中主要包含水平和透視文本,以及兩個(gè)不規(guī)則的基準(zhǔn)Total-Text(Ch'ng和Chan 2017)和SCUT-CTW1500(Liu等人2019)(CTW1500),其中包含許多彎曲文本。車(chē)牌識(shí)別數(shù)據(jù)集CCPD中我們方法的能力(Xuet al.2018)。
4.2 Implementation Details
所有實(shí)驗(yàn)均在Pytorch中使用8×32 GB-Tesla-V100 GPU進(jìn)行。網(wǎng)絡(luò)詳細(xì)信息。特征提取器使用ResNet-50(He等人2016)和FPN(Lin等人2017a)從不同的特征圖中獲取融合特征水平。這里,C = 256的(4×)特征圖用于執(zhí)行后續(xù)的訓(xùn)練和測(cè)試任務(wù).Lis設(shè)置為25以覆蓋大多數(shù)場(chǎng)景文本單詞。 BiLSTM模塊有256個(gè)隱藏單元,訓(xùn)練詳細(xì)信息,所有模型均由SGDoptimizer進(jìn)行訓(xùn)練,批處理大小= 2,動(dòng)量= 0.9和重量衰減= 1×10?4。在預(yù)訓(xùn)練階段,以10個(gè)周期的初始學(xué)習(xí)比率1×10-2訓(xùn)練網(wǎng)絡(luò)。每3個(gè)周期將學(xué)習(xí)率除以10.在微調(diào)階段,初始學(xué)習(xí)率設(shè)置為1×10-3。為了平衡每批中的合成圖像和真實(shí)圖像的數(shù)量,我們將Curved SynthText數(shù)據(jù)集與其他真實(shí)數(shù)據(jù)集的采樣比率保持為1:1。微調(diào)過(guò)程持續(xù)250k次迭代,其中學(xué)習(xí)率在120k迭代和200k迭代時(shí)除以10.我們還對(duì)所有訓(xùn)練過(guò)程進(jìn)行數(shù)據(jù)擴(kuò)充,包括1)將輸入圖像的較長(zhǎng)邊隨機(jī)縮放為長(zhǎng)度在[720,1800]范圍內(nèi),2)將圖像隨機(jī)旋轉(zhuǎn)[-15°,15°]范圍內(nèi)的角度,以及3)對(duì)輸入圖像應(yīng)用隨機(jī)的亮度,抖動(dòng)和對(duì)比度。在不同的數(shù)據(jù)集中,我們將IC15的評(píng)估值設(shè)置為S = 60,將IC13,Total-Text和CTW1500的評(píng)估值設(shè)置為S = 40。我們將所有權(quán)重參數(shù)簡(jiǎn)單地設(shè)置為λ1=λ2=λ3=λ= 1。測(cè)試細(xì)節(jié)。由于輸入圖像的尺寸是重要的重要影響性能,因此我們將報(bào)告不同輸入比例下的性能,即保持原始比例和將圖像的較長(zhǎng)邊調(diào)整為固定值。所有圖像都在單一尺度上進(jìn)行測(cè)試。由于當(dāng)前的實(shí)現(xiàn)方式僅提供了粗略的定位,因此,我們通過(guò)考慮IoU> 0.1的所有檢測(cè)結(jié)果,修改(Wang,Babenko和Belongie 2011)的端到端評(píng)估指標(biāo)。在這種情況下,由于某些低等級(jí)的建議匹配而導(dǎo)致精度下降,先前方法的性能甚至?xí)陆怠?/p>
4.3 Results on Text Spotting Benchmarks
常規(guī)文本的評(píng)估我們首先根據(jù)常規(guī)評(píng)估指標(biāo)(Karatzas等,2015)對(duì)IC13和IC15的方法進(jìn)行評(píng)估,然后基于三種不同的lexi-cons(強(qiáng))對(duì)兩個(gè)評(píng)估項(xiàng)目(端到端''和單詞斑點(diǎn)'')進(jìn)行評(píng)估,弱和通用)。表1顯示了評(píng)估結(jié)果。與使用常規(guī)詞典評(píng)估的先前方法相比,我們的方法在“通用”項(xiàng)目上獲得了最佳結(jié)果(除了IC15的端到端通用結(jié)果之外),并在其余評(píng)估項(xiàng)目上獲得了競(jìng)爭(zhēng)結(jié)果(強(qiáng)”和“弱”)。與最近使用特定詞典的最新MaskMaskTextSpotter(Liao et al.2019)相比,我們的方法在所有評(píng)估項(xiàng)目上均明顯優(yōu)于該方法。盡管推理速度很高,但FOTS的FPS最高(幀數(shù)第二),它無(wú)法處理不正常的情況。與基于不規(guī)則的方法相比,我們的方法獲得了最高的FPS。不規(guī)則文本的評(píng)估我們?cè)赥otal-Text上測(cè)試了我們的方法,如表2所示。我們發(fā)現(xiàn)我們的方法比最先進(jìn)的方法高出3.2%和5.3 “無(wú)”和“滿”指標(biāo)中的百分比。請(qǐng)注意,即使沒(méi)有明確的糾正機(jī)制,我們的模型也只能在識(shí)別監(jiān)督的驅(qū)動(dòng)下才能很好地處理不規(guī)則文本。盡管在1280的測(cè)試規(guī)模下,推理速度約為ABCNet的1/2,但我們的方法取得了顯著的性能提升。我們還在CTW1500上評(píng)估了我們的方法。報(bào)告端到端結(jié)果的作品很少,因?yàn)樗饕屑?jí)文本注釋。為了適應(yīng)這種情況,我們?cè)贑TW1500的訓(xùn)練集上對(duì)檢測(cè)分支進(jìn)行了重新訓(xùn)練,以學(xué)習(xí)線級(jí)中心線分割,并確定主干和其他分支的權(quán)重。請(qǐng)注意,識(shí)別不會(huì)受到影響,仍然會(huì)輸出單詞級(jí)序列。最終結(jié)果將根據(jù)推斷的連接區(qū)域簡(jiǎn)單地從左到右連接起來(lái)。漢字設(shè)置為NOT CARE。結(jié)果如表3所示。我們發(fā)現(xiàn),在“無(wú)”和“滿”度量標(biāo)準(zhǔn)下,我們的方法明顯比以前的提升了1.9%和4.6%。因此,我們相信,如果只有行級(jí)注解的數(shù)據(jù)足夠多,我們的模型就可以很好地適應(yīng)這種情況。
4.4 Visualization Analysis
圖4可視化了IC15和Total-Text上的端到端文本發(fā)現(xiàn)結(jié)果。 我們?cè)敿?xì)顯示了字符投票之前每個(gè)正網(wǎng)格(oi,j> 0.3)的預(yù)測(cè)結(jié)果。 我們看到我們的模型可以正確地專注于相應(yīng)的位置并學(xué)習(xí)任意形狀(例如彎曲或垂直)文本實(shí)例的字符序列的復(fù)雜讀取順序。 采取字符投票策略后,將生成具有最高置信度的單詞。我們還用可視化的CMA演示了CTW1500的一些結(jié)果,如圖5所示。請(qǐng)注意,我們僅根據(jù)數(shù)據(jù)集的位置微調(diào)線級(jí)分割部分 標(biāo)簽,同時(shí)固定其余部分。在這里,我們通過(guò)將所有網(wǎng)格的注意圖覆蓋在相同的字符位置(k)上來(lái)可視化CMA的特征圖:

4.5 Ablation Studies
網(wǎng)格編號(hào)的消除網(wǎng)格編號(hào)S2是影響最終結(jié)果的關(guān)鍵參數(shù)。如果太小,則占據(jù)相同網(wǎng)格的文本太多。否則,太大的S會(huì)導(dǎo)致更多的計(jì)算成本。在這里,我們進(jìn)行實(shí)驗(yàn)以找到不同數(shù)據(jù)集的S的可行值。從表4中,我們發(fā)現(xiàn)IC13和TotalText的bestS均為40。 IC15的值為60。這是因?yàn)镮C15包含更多密集和較小的實(shí)例??偠灾?dāng)S> = 40時(shí),總體性能隨沙的增加而穩(wěn)定。當(dāng)然,F(xiàn)PS隨S的增加而略有下降。信息。為了證明這一點(diǎn),我們還進(jìn)行了實(shí)驗(yàn),以矩形邊框的形式轉(zhuǎn)移所有本地化注釋。我們僅采用RPN頭作為檢測(cè)分支。表5顯示了IC15和Total-Text的結(jié)果。即使進(jìn)行嚴(yán)格的位置監(jiān)控,MANGO的性能也只能降低0%到3%,并且可以與最新技術(shù)相比。請(qǐng)注意,粗略位置僅用于網(wǎng)格選擇,因此可以根據(jù)特定任務(wù)的要求盡可能簡(jiǎn)化它。
4.6 Challenging License Plate Recognitionwithout Position Annotations
為了證明模型的泛化能力,我們進(jìn)行了實(shí)驗(yàn)以評(píng)估CCPD公共數(shù)據(jù)集上的端到端車(chē)牌識(shí)別結(jié)果(Xu et al.2018)。為了公平起見(jiàn),我們遵循相同的實(shí)驗(yàn)設(shè)置,并使用帶有250k圖像的數(shù)據(jù)集的初始版本。 CCPD-Base數(shù)據(jù)集分為兩個(gè)相等的部分:用于訓(xùn)練的100k樣本和用于測(cè)試的100k樣本。有6個(gè)復(fù)雜的測(cè)試集(包括DB,F(xiàn)N,旋轉(zhuǎn),傾斜,天氣和挑戰(zhàn))用于評(píng)估算法的魯棒性,總共有50k張圖像。由于CCPD中的每個(gè)圖像僅包含一個(gè)板,因此可以通過(guò)刪除來(lái)進(jìn)一步簡(jiǎn)化我們的模型檢測(cè)分支直接預(yù)測(cè)最終字符序列。因此,網(wǎng)格數(shù)減少為S = 1,最大序列長(zhǎng)度設(shè)置為L(zhǎng) =8。我們直接對(duì)模型進(jìn)行微調(diào)(已通過(guò)SynthText進(jìn)行了預(yù)訓(xùn)練)在CCPD訓(xùn)練集上僅使用序列級(jí)注釋,然后評(píng)估上述七個(gè)測(cè)試數(shù)據(jù)集的最終識(shí)別準(zhǔn)確性。測(cè)試階段是對(duì)尺寸為720×1160的原始圖像執(zhí)行的。
表6顯示了端到端識(shí)別結(jié)果。盡管所提出的方法不是為車(chē)牌識(shí)別任務(wù)設(shè)計(jì)的,但仍然可以輕松地轉(zhuǎn)移到這種情況下。我們看到,提出的模型在7個(gè)測(cè)試集中的5個(gè)中優(yōu)于以前的方法,并達(dá)到了最高的平均精度。圖6顯示了CCPD測(cè)試集的一些可視化結(jié)果。故障樣本主要來(lái)自圖像太模糊而無(wú)法識(shí)別的情況。該實(shí)驗(yàn)表明,在許多情況下,只有一個(gè)文本實(shí)例(例如,工業(yè)印刷識(shí)別或儀表?yè)鼙P(pán)識(shí)別),可以使用良好的端到端模型無(wú)需檢測(cè)注釋即可獲得。
5 Conclusion
在本文中,我們提出了一種名為MANGO的新穎的單階段場(chǎng)景文本查找器。 該模型刪除了RoI操作,并設(shè)計(jì)了位置感知注意模塊來(lái)粗略定位文本序列。 之后,應(yīng)用輕量級(jí)序列解碼器以將所有最終字符序列成批獲取。 實(shí)驗(yàn)表明,我們的方法可以在流行基準(zhǔn)上獲得具有競(jìng)爭(zhēng)力的,甚至最先進(jìn)的結(jié)果。