幻燈片1.PNG

幻燈片2.PNG

幻燈片3.PNG

幻燈片4.PNG

幻燈片5.PNG

幻燈片6.PNG

幻燈片7.PNG

Abstract

最近，端到端場(chǎng)景文本識(shí)別已成為一個(gè)流行的研究主題，因?yàn)樗哂腥謨?yōu)化的優(yōu)點(diǎn)和在實(shí)際應(yīng)用中的高可維護(hù)性。大多數(shù)方法試圖開(kāi)發(fā)各種感興趣的區(qū)域（RoI）操作，以將檢測(cè)部分和序列識(shí)別部分連接到兩階段的文本識(shí)別框架中。然而，在這樣的框架中，識(shí)別部分對(duì)檢測(cè)到的結(jié)果高度敏感（例如，文本輪廓的緊湊性）。為了解決這個(gè)問(wèn)題，在本文中，我們提出了一種新穎的“Mask Attention Guided One-stage”文本識(shí)別框架，稱為MANGO，在該框架中無(wú)需RoI操作就可以直接識(shí)別字符序列。具體而言:

開(kāi)發(fā)了位置感知mask注意力模塊，以生成每個(gè)文本實(shí)例及其字符的注意力權(quán)重。
它允許將圖像中的不同文本實(shí)例分配在不同的特征圖通道上，這些通道進(jìn)一步分組為一批實(shí)例特征。
最后，使用輕量級(jí)序列解碼器來(lái)生成字符序列。

值得注意的是，MANGO自有地適應(yīng)于任意形狀的文本識(shí)別，并且僅使用粗略的位置信息（例如矩形邊界框）和文本注釋就可以進(jìn)行端到端的訓(xùn)練。實(shí)驗(yàn)結(jié)果表明，該方法在規(guī)則和不規(guī)則文本識(shí)別基準(zhǔn)（即ICDAR 2013，ICDAR 2015，Total-Text和SCUT-CTW1500）上均達(dá)到了有競(jìng)爭(zhēng)力甚至最新性能。

1 Introduction

場(chǎng)景文本識(shí)別由于其各種實(shí)際應(yīng)用而備受關(guān)注，例如發(fā)票/收據(jù)理解中的關(guān)鍵實(shí)體識(shí)別，電子商務(wù)系統(tǒng)中的產(chǎn)品名稱識(shí)別以及智能運(yùn)輸系統(tǒng)中的車(chē)牌識(shí)別。傳統(tǒng)的場(chǎng)景文字識(shí)別系統(tǒng)通常分三步進(jìn)行：定位文字區(qū)域，從原始圖像中裁剪文字區(qū)域并將其識(shí)別為字符序列。然而盡管這種文本識(shí)別模型帶來(lái)了許多可考慮的問(wèn)題，例如：
（1）錯(cuò)誤將在多個(gè)單獨(dú)的任務(wù)之間累
（2）維護(hù)多個(gè)單獨(dú)的模型的成本很高
（3）該模型難以適應(yīng)各種應(yīng)用程序。

因此，提出了許多工作以端到端的方式來(lái)最終優(yōu)化文本識(shí)別過(guò)程。這些方法通常使用各種興趣區(qū)域（RoI）操作以可微分的方式橋接文本檢測(cè)和識(shí)別部分，從而形成了兩階段框架。粗略地說(shuō)，早期的端到端方法將軸對(duì)齊的矩形RoI用作連接模塊。這些方法處理不規(guī)則的（例如，透視圖或彎曲的）文本實(shí)例能力有限，因?yàn)檫@種類型的RoI可能會(huì)帶來(lái)背景或其他文本的干擾。為了解決這個(gè)問(wèn)題，后來(lái)的方法（設(shè)計(jì)了一些形狀自適應(yīng)RoI機(jī)制來(lái)提取不規(guī)則物體。文本實(shí)例并將其校正為規(guī)則形狀。

圖1：傳統(tǒng)的兩階段文本識(shí)別過(guò)程和提出的MANGO的圖示。圖（a）顯示了通過(guò)RoI操作連接檢測(cè)和識(shí)別部分的兩階段文本識(shí)別策略。圖（b）是一種提出的單階段文本識(shí)別方法，它可以直接輸出最終的字符序列。

在兩階段方法中，識(shí)別部分高度依賴于定位結(jié)果，這就要求檢測(cè)部分必須能夠捕獲準(zhǔn)確的文本邊界以消除背景干擾。因此，訓(xùn)練魯棒的文本檢測(cè)模型依賴于準(zhǔn)確的檢測(cè)注釋，例如在不規(guī)則文本識(shí)別中使用的多邊形或蒙版注釋。自然地，標(biāo)記這種注釋是費(fèi)力且昂貴的。另一方面，要確保緊緊封閉的文本區(qū)域（由檢測(cè)注釋進(jìn)行監(jiān)督）對(duì)于以下識(shí)別任務(wù)而言是最佳形式，這并不容易。例如，在圖1（a）中，緊密的文本邊界可能會(huì)擦除字符的邊緣紋理并導(dǎo)致錯(cuò)誤的結(jié)果。通常，需要手動(dòng)擴(kuò)展這些嚴(yán)格的檢測(cè)結(jié)果，以適應(yīng)實(shí)際應(yīng)用中的識(shí)別。此外，在proposals之后執(zhí)行帶有非極大抑制（NMS）的復(fù)雜RoI操作也很耗時(shí)，尤其是對(duì)于任意形狀的區(qū)域。盡管（Xing et al.2019）提出了一種單階段采用字符分割策略的字符級(jí)別的識(shí)別框架，但很難擴(kuò)展到具有更多字符類別（例如漢字）的情況。它還會(huì)丟失角色之間的關(guān)鍵上下文信息。

實(shí)際上，當(dāng)人們閱讀時(shí)，他們不需要描繪文本實(shí)例的準(zhǔn)確輪廓。通過(guò)視覺(jué)注意力關(guān)注的粗略文本位置來(lái)識(shí)別文本實(shí)例就足夠了。在這里，我們將場(chǎng)景文本識(shí)別重新考慮為注意力和閱讀的問(wèn)題，即，一次直接讀出粗略注意的文本區(qū)域的文本內(nèi)容。

在本文中，我們提出了一種名為MANGO的“Mask Attention Guided One stage”文本監(jiān)視程序，稱為MANGO，這是一種緊湊而強(qiáng)大的單階段框架，可直接從圖像中同時(shí)預(yù)測(cè)所有文本，而無(wú)需進(jìn)行任何RoI操作。具體來(lái)說(shuō)，我們引入了一個(gè)位置感知蒙版注意力（PMA）模塊以在文本區(qū)域上生成空間注意力，該模塊包含實(shí)例級(jí)蒙版注意力（IMA）部分和字符級(jí)蒙版注意力（CMA）部分。 IMA和CMA分別負(fù)責(zé)感知圖像中文本和字符的位置?？梢酝ㄟ^(guò)位置感知注意力譜直接提取文本實(shí)例的特征，而不必進(jìn)行顯式的裁剪操作，這盡可能保留了全局空間信息。
在這里，使用動(dòng)態(tài)卷積將不同文本實(shí)例的特征映射到不同的特征譜通道（Wang等人，2020c），如圖1（b）所示。之后，應(yīng)用輕量級(jí)序列解碼器一次批量生成字符序列特征。

請(qǐng)注意，MANGO可以僅使用粗略的位置信息（例如，矩形邊界框，甚至是文本實(shí)例的中心點(diǎn)）進(jìn)行端到端優(yōu)化，還可以使用序列注釋。受益于PMA，該框架可以自適應(yīng)地識(shí)別各種不規(guī)則文本，而無(wú)需任何糾正機(jī)制，并且還能夠了解任意形狀的文本的閱讀順序。

本文的主要貢獻(xiàn)如下：
（1）我們提出了一種名為MANGO的緊湊而強(qiáng)大的一階段文本識(shí)別框架, 該框架可以以端到端的方式進(jìn)行訓(xùn)練。
（2）我們開(kāi)發(fā)了位置感知蒙版注意力模塊，以將文本實(shí)例特征生成為一個(gè)batch，并與最終字符序列建立一對(duì)一的映射。只能使用粗略的文本位置信息和文本注釋來(lái)訓(xùn)練該模塊。
（3）廣泛的實(shí)驗(yàn)表明，我們的方法在規(guī)則和不規(guī)則文本基準(zhǔn)上均獲得了有競(jìng)爭(zhēng)甚至最新的性能。

2 Related Works

早期場(chǎng)景文本發(fā)現(xiàn)方法（Liao，Shi，and Bai 2018; Liao et al.2017; Wang et al.2012）通常首先使用訓(xùn)練有素的檢測(cè)器來(lái)定位每個(gè)文本，例如（Liao et al.2017; Zhou et al.2017; He et al.2017; Ma et al.2018; Xu et al.2019; Baek et al.2019），然后使用序列解碼器識(shí)別裁剪后的文本區(qū)域（Shi et al.2016; Shi，Bai和Yao 2017; Cheng et al.2017; Zhan and Lu 2019; Luo，Jin and Sun 2019）。為了充分利用文本檢測(cè)和文本識(shí)別之間的互補(bǔ)性，已經(jīng)提出了一些工作以端到端的方式優(yōu)化場(chǎng)景文本發(fā)現(xiàn)框架，其中使用了模塊連接器（例如RoI Pooling（Ren等人，2015a））在（Li，Wang，and Shen 2017; Wang，Li，and Shen 2019）中，（He等人2018）中使用的RoI-Align和（Liu等人2018）中使用的RoI-Rotate的開(kāi)發(fā)是為了文本檢測(cè)和文本識(shí)別部分。請(qǐng)注意，這些方法無(wú)法發(fā)現(xiàn)任意形狀的文本。
為了解決不規(guī)則問(wèn)題，已經(jīng)提出了許多最近的工作來(lái)設(shè)計(jì)各種自適應(yīng)RoI操作以發(fā)現(xiàn)任意形狀的文本。 Sun等人（2018年）采用了透視圖RoI轉(zhuǎn)換模塊來(lái)糾正透視圖文本，但是該策略仍然難以處理彎曲度較大的文本。（Liao et al.2019）提出了受兩階段Mask-RCNN啟發(fā)的mask textspotter，用于逐個(gè)字符地檢測(cè)任意形狀的文本，但是這種方法會(huì)丟失字符的上下文信息，并且需要字符級(jí)位置注釋。 Qin等人（2019）直接采用Mask-RCNN和基于注意力的文本識(shí)別器，該模型使用RoI-Masking模塊在識(shí)別之前消除了背景干擾。（Feng et al.2019）將文本實(shí)例視為一組特征塊，并采用RoI-Slide操作來(lái)重建直線特征圖。（Qiao et al。2020）和（Wang et al。2020a）都檢測(cè)到文本周?chē)年P(guān)鍵點(diǎn)，并應(yīng)用薄板樣條變換（Bookstein 1989）糾正不規(guī)則實(shí)例。為了獲得彎曲文本的平滑特征（Liu et al.2020），使用Bezier曲線表示文本實(shí)例的上下邊界，并提出了Bezier-Align操作以獲取校正后的特征圖。
上述方法在兩階段框架中實(shí)現(xiàn)了端到端場(chǎng)景文本點(diǎn)，其中需要設(shè)計(jì)基于RoI的連接器（例如RoI-Align，RoI-Slide和Bezier-Align等），以實(shí)現(xiàn)以下目的：明確裁剪特征圖。
在兩階段框架中，性能很大程度上取決于RoI操作獲得的文本邊界精度。但是，這些復(fù)雜的多邊形注釋通常很昂貴，并且并不總是適合識(shí)別部分，如前所述。

2.2 One-stage End-to-end Scene Text Spotting

在一般的對(duì)象定位領(lǐng)域，許多最新進(jìn)展證明了在對(duì)象檢測(cè)中研究的一階段框架的效率和有效性（Redmon等人2016; Liu等人2016; Lin等人2017b; Tian等人2019;段等人（2019）或?qū)嵗指睿╓ang等人2019b; Tian，Shen和Chen 2020; Wang等人2020c; Xie等人2020; Chen等人2020）。但是，場(chǎng)景文本發(fā)現(xiàn)是一項(xiàng)更具挑戰(zhàn)性的任務(wù)，因?yàn)樗婕靶蛄凶R(shí)別問(wèn)題而不是單個(gè)對(duì)象分類。這是因?yàn)閳?chǎng)景文本具有許多特殊特征：任意形狀（例如，曲線，傾斜或透視圖等），數(shù)百萬(wàn)個(gè)字符組合，甚至是不受限制的閱讀順序（例如，從右到左）。最近，（Xing et al.2019）提出了一種通過(guò)直接分割單個(gè)字符的一種舞臺(tái)場(chǎng)景文本識(shí)別方法。但是，它丟失了各個(gè)字符之間的序列上下文信息，并且很難傳遞給更多的字符類。據(jù)我們所知，以前沒(méi)有工作可以在一個(gè)階段的框架中處理序列級(jí)別的場(chǎng)景文本發(fā)現(xiàn)任務(wù)。

3 Methodology

圖2：MANGO的工作流程。我們以S ＝ 6為例。將輸入特征輸入到位置感知蒙版注意力模塊中，以將實(shí)例/字符的不同特征映射到不同通道。識(shí)別器最終一次全部輸出字符序列。 Centerline Segmentation分支用于生成所有文本實(shí)例的粗略位置。前綴“ R-”和“ C-”分別表示網(wǎng)格的行和列。

3.1 Overview

我們提出了一個(gè)名為MANGO的單階段場(chǎng)景文本查找器，如圖2所示。其深層特征是通過(guò)ResNet-50（He等人，2016）和特征金字塔網(wǎng)絡(luò)（FPN）（Lin等人，2017a）的主干提取的。然后將生成的特征圖饋送到三個(gè)可學(xué)習(xí)的模塊中：
（1）用于學(xué)習(xí)單個(gè)文本實(shí)例的位置感知蒙版注意力（PMA）模塊，其中包括實(shí)例級(jí)蒙版注意力（ IMA）子模塊和字符級(jí)掩碼注意力（CMA）子模塊。
（2）識(shí)別器用于將注意力實(shí)例特征解碼為字符序列。
（3）全局文本中心線分割模塊，用于在推理階段提供粗略的文本位置信息。

3.2 Position-aware Mask Attention Module

單階段的文本識(shí)別問(wèn)題可以視為原始圖像中的純文本識(shí)別任務(wù)。關(guān)鍵步驟是在文本實(shí)例到最終字符序列之間以固定順序建立直接的一對(duì)一映射。在這里，我們開(kāi)發(fā)了位置感知注意力（PMA）模塊，以便為接下來(lái)的序列解碼模塊一次捕獲所有表示文本的特征。受（Wang等人2019b）中使用的網(wǎng)格映射策略的啟發(fā)，我們發(fā)現(xiàn)可以將不同的實(shí)例映射到不同的特定通道中，并實(shí)現(xiàn)實(shí)例到特征的映射。也就是說(shuō)，我們首先將輸入圖像劃分為S×S的網(wǎng)格。然后，通過(guò)提出的PMA模塊將網(wǎng)格周?chē)男畔⒂成涞教卣鲌D的特定通道中。

具體來(lái)說(shuō)，我們將特征提取后獲得的特征圖表示為x∈R^C×H×W，其中C，H和W分別表示為特征圖的通道數(shù)量，寬度和高度。然后我們將特征圖x送入PMA（包括IMA和CMA模塊）模塊，以生成文本實(shí)例的特征表示（如下所述）。

Instance-level Mask Attention
MA負(fù)責(zé)生成實(shí)例級(jí)注意力蒙版遮罩，并將不同實(shí)例的特征分配給不同的特征圖通道。它是通過(guò)在切片網(wǎng)格上操作一組動(dòng)態(tài)卷積內(nèi)核（Wang等人2020c）來(lái)實(shí)現(xiàn)的，表示為G^S×S×C。卷積核大小設(shè)置為1×1。

因此可以通過(guò)將這些卷積核應(yīng)用于原始特征圖來(lái)生成實(shí)例級(jí)注意力掩碼：

要學(xué)習(xí)動(dòng)態(tài)卷積核G，我們需要在文本實(shí)例和網(wǎng)格之間進(jìn)行網(wǎng)格匹配。與一般的對(duì)象檢測(cè)或?qū)嵗指钊蝿?wù)不同，文本實(shí)例通常以較大的縱橫比甚至嚴(yán)重彎曲。直接使用文本邊界框的中心進(jìn)行網(wǎng)格匹配是不合理的。

如果有兩個(gè)實(shí)例占用同一個(gè)網(wǎng)格，我們只需選擇一個(gè)占用率較大的實(shí)例。

Character-level Mask Attention
正如許多工作（Chenget等人2017; Xing等人2019）所表明的那樣，字符級(jí)位置信息可以幫助提高識(shí)別性能。這激勵(lì)我們?cè)O(shè)計(jì)全局字符級(jí)注意力子模塊，以為后續(xù)的識(shí)別任務(wù)提供細(xì)粒度的特征。

如圖2所示，CMA首先將原始特征圖x和實(shí)例級(jí)注意力蒙版x_ins連接在一起，然后是兩個(gè)卷積層（卷積核大小= 3×3）遵循下式來(lái)預(yù)測(cè)字符級(jí)注意力蒙版：

3.3 Sequence Decoding Module

由于將不同文本實(shí)例的注意蒙版分配給不同的特征通道，因此我們可以將文本實(shí)例打包為一批。一個(gè)簡(jiǎn)單的想法是進(jìn)行（Wang等人2020b）中使用的注意力融合操作，以生成批處理的連續(xù)特征x_seq，即

然后，我們可以將文本識(shí)別問(wèn)題轉(zhuǎn)換為純序列分類問(wèn)題。后面的序列解碼網(wǎng)絡(luò)負(fù)責(zé)生成一批字符序列（S²）。具體來(lái)說(shuō)，我們?cè)趚_seq上添加了兩層雙向長(zhǎng)短期記憶（BiLSTM）（Hochreiter和Schmidhuber 1997）來(lái)捕獲順序關(guān)系，最后通過(guò)完全連接的（FC）層輸出字符序列。

（包括26個(gè)字母，10個(gè)數(shù)字，32個(gè)ASCII標(biāo)點(diǎn)符號(hào)和1個(gè)EOS符號(hào)）。具體而言，如果預(yù)測(cè)的字符串的長(zhǎng)度小于L，則其余的預(yù)測(cè)將使用EOS符號(hào)進(jìn)行補(bǔ)充。

3.4 Text Centerline Segmentation

該模型現(xiàn)在能夠分別輸出S²網(wǎng)格的所有預(yù)測(cè)序列。但是，如果圖像中有兩個(gè)以上的文本實(shí)例，我們?nèi)匀恍枰赋瞿膫€(gè)網(wǎng)格對(duì)應(yīng)于那些識(shí)別結(jié)果。

由于我們的方法不依賴準(zhǔn)確的邊界信息，因此我們可以應(yīng)用任何文本檢測(cè)策略（例如RPN（Ren等人2015b）和YOLO（Redmon等人。 2016）），以獲取文本實(shí)例的粗略的幾何信息。考慮到場(chǎng)景文本可能是任意形狀的，我們遵循大多數(shù)基于分割的文本檢測(cè)方法（Long等人2018; Wang等人2019a）來(lái)學(xué)習(xí)單個(gè)文本實(shí)例的全局文本中心線區(qū)域分割（或縮小ground truth）。

3.5 Optimization

IMA和CMA模塊都用于使網(wǎng)絡(luò)聚焦于特定的實(shí)例和字符位置，這在理論上只能通過(guò)最后的識(shí)別部分來(lái)學(xué)習(xí)。但是，在復(fù)雜的場(chǎng)景文本場(chǎng)景中，如果沒(méi)有位置信息的輔助，網(wǎng)絡(luò)可能難以收斂。但是，我們發(fā)現(xiàn)，如果模型已經(jīng)在合成數(shù)據(jù)集上進(jìn)行了預(yù)先的字符級(jí)監(jiān)督，則可以輕松轉(zhuǎn)移模型。因此，可以分兩步對(duì)模型進(jìn)行優(yōu)化。

首先，我們可以將IMA和CMA的學(xué)習(xí)視為純分割任務(wù)。結(jié)合中心線區(qū)域分割，所有分割任務(wù)都使用二進(jìn)制Dice系數(shù)損失進(jìn)行訓(xùn)練（Milletari，Navab和Ahmadi 2016），而識(shí)別任務(wù)僅使用交叉熵?fù)p失。全局優(yōu)化可以寫(xiě)成

請(qǐng)注意，預(yù)訓(xùn)練步驟實(shí)際上是一次性的任務(wù)，然后將主要學(xué)習(xí)CMA和IMA以適應(yīng)該識(shí)別任務(wù)。與以前需要平衡檢測(cè)和識(shí)別權(quán)重的方法相比，MANGO的端到端結(jié)果主要由最終識(shí)別任務(wù)監(jiān)督。

3.6 Inference

在推斷階段，網(wǎng)絡(luò)輸出一批（S×S）概率矩陣（L×M）。 根據(jù)中心線分割任務(wù)的預(yù)測(cè)，我們可以確定哪些網(wǎng)格應(yīng)視為有效。 我們首先進(jìn)行“廣度優(yōu)先搜索”（BFS），以找到各個(gè)相連的區(qū)域。在此過(guò)程中，可以過(guò)濾許多類似文本的紋理。由于每個(gè)連接區(qū)域可能與多個(gè)網(wǎng)格相交，因此我們采用字符加權(quán)投票策略來(lái)生成最終的字符串，如圖3所示。

具體來(lái)說(shuō)，我們計(jì)算連接區(qū)域i與網(wǎng)格j之間的連接率o_i,j作為每個(gè)字符的權(quán)重。對(duì)于實(shí)例i的第k個(gè)字符，其字符加權(quán)投票結(jié)果通過(guò)

在這里，占用率提供了每個(gè)網(wǎng)格的置信度，并且多個(gè)輸出融合可以生成更可靠的結(jié)果。具有最大占用率的網(wǎng)格將被視為粗糙的輸出位置，可以根據(jù)特定任務(wù)將其替換為任何形式。

4 Experiments

4.1 Datasets

我們列出了本文使用的數(shù)據(jù)集如下：訓(xùn)練數(shù)據(jù)。我們使用SynthText 800k（Gupta，Vedaldi和Zisserman 2016）作為預(yù)訓(xùn)練數(shù)據(jù)集。利用實(shí)例級(jí)注釋和字符級(jí)注釋對(duì)PMA模塊進(jìn)行預(yù)訓(xùn)練。在微調(diào)階段，我們旨在獲得一個(gè)支持常規(guī)和非常規(guī)場(chǎng)景文本讀取的通用文本點(diǎn)。在這里，我們構(gòu)建了一個(gè)用于微調(diào)的通用數(shù)據(jù)集，其中包括來(lái)自Curved SynthText的150k圖像（Liu等人2020），從COCO-Text過(guò)濾的13k圖像（Veitet等人2016），從ICDAR-MLT過(guò)濾的7k圖像（Nayefet等人2019）以及ICDAR2013（Karatzas等人2013），ICDAR2015（Karatzas等人2015）和Total-Text（Ch'ng and Chan 2017）中的所有訓(xùn)練圖像。請(qǐng)注意，這里我們僅使用實(shí)例級(jí)別的注釋來(lái)訓(xùn)練網(wǎng)絡(luò)。測(cè)試數(shù)據(jù)集。我們?cè)趦蓚€(gè)標(biāo)準(zhǔn)文本點(diǎn)標(biāo)基準(zhǔn)ICDAR2013（Karatzas等人2013）（IC13）和ICDAR2015（Karatzas等人2015）（IC15）中評(píng)估了我們的方法，其中主要包含水平和透視文本，以及兩個(gè)不規(guī)則的基準(zhǔn)Total-Text（Ch'ng和Chan 2017）和SCUT-CTW1500（Liu等人2019）（CTW1500），其中包含許多彎曲文本。車(chē)牌識(shí)別數(shù)據(jù)集CCPD中我們方法的能力（Xuet al.2018）。

4.2 Implementation Details

所有實(shí)驗(yàn)均在Pytorch中使用8×32 GB-Tesla-V100 GPU進(jìn)行。網(wǎng)絡(luò)詳細(xì)信息。特征提取器使用ResNet-50（He等人2016）和FPN（Lin等人2017a）從不同的特征圖中獲取融合特征水平。這里，C = 256的（4×）特征圖用于執(zhí)行后續(xù)的訓(xùn)練和測(cè)試任務(wù).Lis設(shè)置為25以覆蓋大多數(shù)場(chǎng)景文本單詞。 BiLSTM模塊有256個(gè)隱藏單元，訓(xùn)練詳細(xì)信息，所有模型均由SGDoptimizer進(jìn)行訓(xùn)練，批處理大小= 2，動(dòng)量= 0.9和重量衰減= 1×10?4。在預(yù)訓(xùn)練階段，以10個(gè)周期的初始學(xué)習(xí)比率1×10-2訓(xùn)練網(wǎng)絡(luò)。每3個(gè)周期將學(xué)習(xí)率除以10.在微調(diào)階段，初始學(xué)習(xí)率設(shè)置為1×10-3。為了平衡每批中的合成圖像和真實(shí)圖像的數(shù)量，我們將Curved SynthText數(shù)據(jù)集與其他真實(shí)數(shù)據(jù)集的采樣比率保持為1：1。微調(diào)過(guò)程持續(xù)250k次迭代，其中學(xué)習(xí)率在120k迭代和200k迭代時(shí)除以10.我們還對(duì)所有訓(xùn)練過(guò)程進(jìn)行數(shù)據(jù)擴(kuò)充，包括1）將輸入圖像的較長(zhǎng)邊隨機(jī)縮放為長(zhǎng)度在[720,1800]范圍內(nèi)，2）將圖像隨機(jī)旋轉(zhuǎn)[-15°，15°]范圍內(nèi)的角度，以及3）對(duì)輸入圖像應(yīng)用隨機(jī)的亮度，抖動(dòng)和對(duì)比度。在不同的數(shù)據(jù)集中，我們將IC15的評(píng)估值設(shè)置為S = 60，將IC13，Total-Text和CTW1500的評(píng)估值設(shè)置為S = 40。我們將所有權(quán)重參數(shù)簡(jiǎn)單地設(shè)置為λ1=λ2=λ3=λ= 1。測(cè)試細(xì)節(jié)。由于輸入圖像的尺寸是重要的重要影響性能，因此我們將報(bào)告不同輸入比例下的性能，即保持原始比例和將圖像的較長(zhǎng)邊調(diào)整為固定值。所有圖像都在單一尺度上進(jìn)行測(cè)試。由于當(dāng)前的實(shí)現(xiàn)方式僅提供了粗略的定位，因此，我們通過(guò)考慮IoU> 0.1的所有檢測(cè)結(jié)果，修改（Wang，Babenko和Belongie 2011）的端到端評(píng)估指標(biāo)。在這種情況下，由于某些低等級(jí)的建議匹配而導(dǎo)致精度下降，先前方法的性能甚至?xí)陆怠?/p>

4.3 Results on Text Spotting Benchmarks

常規(guī)文本的評(píng)估我們首先根據(jù)常規(guī)評(píng)估指標(biāo)（Karatzas等，2015）對(duì)IC13和IC15的方法進(jìn)行評(píng)估，然后基于三種不同的lexi-cons（強(qiáng)）對(duì)兩個(gè)評(píng)估項(xiàng)目（端到端''和單詞斑點(diǎn)''）進(jìn)行評(píng)估，弱和通用）。表1顯示了評(píng)估結(jié)果。與使用常規(guī)詞典評(píng)估的先前方法相比，我們的方法在“通用”項(xiàng)目上獲得了最佳結(jié)果（除了IC15的端到端通用結(jié)果之外），并在其余評(píng)估項(xiàng)目上獲得了競(jìng)爭(zhēng)結(jié)果（強(qiáng)”和“弱”）。與最近使用特定詞典的最新MaskMaskTextSpotter（Liao et al.2019）相比，我們的方法在所有評(píng)估項(xiàng)目上均明顯優(yōu)于該方法。盡管推理速度很高，但FOTS的FPS最高（幀數(shù)第二），它無(wú)法處理不正常的情況。與基于不規(guī)則的方法相比，我們的方法獲得了最高的FPS。不規(guī)則文本的評(píng)估我們?cè)赥otal-Text上測(cè)試了我們的方法，如表2所示。我們發(fā)現(xiàn)我們的方法比最先進(jìn)的方法高出3.2％和5.3 “無(wú)”和“滿”指標(biāo)中的百分比。請(qǐng)注意，即使沒(méi)有明確的糾正機(jī)制，我們的模型也只能在識(shí)別監(jiān)督的驅(qū)動(dòng)下才能很好地處理不規(guī)則文本。盡管在1280的測(cè)試規(guī)模下，推理速度約為ABCNet的1/2，但我們的方法取得了顯著的性能提升。我們還在CTW1500上評(píng)估了我們的方法。報(bào)告端到端結(jié)果的作品很少，因?yàn)樗饕屑?jí)文本注釋。為了適應(yīng)這種情況，我們?cè)贑TW1500的訓(xùn)練集上對(duì)檢測(cè)分支進(jìn)行了重新訓(xùn)練，以學(xué)習(xí)線級(jí)中心線分割，并確定主干和其他分支的權(quán)重。請(qǐng)注意，識(shí)別不會(huì)受到影響，仍然會(huì)輸出單詞級(jí)序列。最終結(jié)果將根據(jù)推斷的連接區(qū)域簡(jiǎn)單地從左到右連接起來(lái)。漢字設(shè)置為NOT CARE。結(jié)果如表3所示。我們發(fā)現(xiàn)，在“無(wú)”和“滿”度量標(biāo)準(zhǔn)下，我們的方法明顯比以前的提升了1.9％和4.6％。因此，我們相信，如果只有行級(jí)注解的數(shù)據(jù)足夠多，我們的模型就可以很好地適應(yīng)這種情況。

4.4 Visualization Analysis

圖4可視化了IC15和Total-Text上的端到端文本發(fā)現(xiàn)結(jié)果。我們?cè)敿?xì)顯示了字符投票之前每個(gè)正網(wǎng)格（oi，j> 0.3）的預(yù)測(cè)結(jié)果。我們看到我們的模型可以正確地專注于相應(yīng)的位置并學(xué)習(xí)任意形狀（例如彎曲或垂直）文本實(shí)例的字符序列的復(fù)雜讀取順序。采取字符投票策略后，將生成具有最高置信度的單詞。我們還用可視化的CMA演示了CTW1500的一些結(jié)果，如圖5所示。請(qǐng)注意，我們僅根據(jù)數(shù)據(jù)集的位置微調(diào)線級(jí)分割部分標(biāo)簽，同時(shí)固定其余部分。在這里，我們通過(guò)將所有網(wǎng)格的注意圖覆蓋在相同的字符位置（k）上來(lái)可視化CMA的特征圖：

4.5 Ablation Studies

網(wǎng)格編號(hào)的消除網(wǎng)格編號(hào)S2是影響最終結(jié)果的關(guān)鍵參數(shù)。如果太小，則占據(jù)相同網(wǎng)格的文本太多。否則，太大的S會(huì)導(dǎo)致更多的計(jì)算成本。在這里，我們進(jìn)行實(shí)驗(yàn)以找到不同數(shù)據(jù)集的S的可行值。從表4中，我們發(fā)現(xiàn)IC13和TotalText的bestS均為40。 IC15的值為60。這是因?yàn)镮C15包含更多密集和較小的實(shí)例?？偠灾?dāng)S> = 40時(shí)，總體性能隨沙的增加而穩(wěn)定。當(dāng)然，F(xiàn)PS隨S的增加而略有下降。信息。為了證明這一點(diǎn)，我們還進(jìn)行了實(shí)驗(yàn)，以矩形邊框的形式轉(zhuǎn)移所有本地化注釋。我們僅采用RPN頭作為檢測(cè)分支。表5顯示了IC15和Total-Text的結(jié)果。即使進(jìn)行嚴(yán)格的位置監(jiān)控，MANGO的性能也只能降低0％到3％，并且可以與最新技術(shù)相比。請(qǐng)注意，粗略位置僅用于網(wǎng)格選擇，因此可以根據(jù)特定任務(wù)的要求盡可能簡(jiǎn)化它。

4.6 Challenging License Plate Recognitionwithout Position Annotations

為了證明模型的泛化能力，我們進(jìn)行了實(shí)驗(yàn)以評(píng)估CCPD公共數(shù)據(jù)集上的端到端車(chē)牌識(shí)別結(jié)果（Xu et al.2018）。為了公平起見(jiàn)，我們遵循相同的實(shí)驗(yàn)設(shè)置，并使用帶有250k圖像的數(shù)據(jù)集的初始版本。 CCPD-Base數(shù)據(jù)集分為兩個(gè)相等的部分：用于訓(xùn)練的100k樣本和用于測(cè)試的100k樣本。有6個(gè)復(fù)雜的測(cè)試集（包括DB，F(xiàn)N，旋轉(zhuǎn)，傾斜，天氣和挑戰(zhàn)）用于評(píng)估算法的魯棒性，總共有50k張圖像。由于CCPD中的每個(gè)圖像僅包含一個(gè)板，因此可以通過(guò)刪除來(lái)進(jìn)一步簡(jiǎn)化我們的模型檢測(cè)分支直接預(yù)測(cè)最終字符序列。因此，網(wǎng)格數(shù)減少為S = 1，最大序列長(zhǎng)度設(shè)置為L(zhǎng) =8。我們直接對(duì)模型進(jìn)行微調(diào)（已通過(guò)SynthText進(jìn)行了預(yù)訓(xùn)練）在CCPD訓(xùn)練集上僅使用序列級(jí)注釋，然后評(píng)估上述七個(gè)測(cè)試數(shù)據(jù)集的最終識(shí)別準(zhǔn)確性。測(cè)試階段是對(duì)尺寸為720×1160的原始圖像執(zhí)行的。
表6顯示了端到端識(shí)別結(jié)果。盡管所提出的方法不是為車(chē)牌識(shí)別任務(wù)設(shè)計(jì)的，但仍然可以輕松地轉(zhuǎn)移到這種情況下。我們看到，提出的模型在7個(gè)測(cè)試集中的5個(gè)中優(yōu)于以前的方法，并達(dá)到了最高的平均精度。圖6顯示了CCPD測(cè)試集的一些可視化結(jié)果。故障樣本主要來(lái)自圖像太模糊而無(wú)法識(shí)別的情況。該實(shí)驗(yàn)表明，在許多情況下，只有一個(gè)文本實(shí)例（例如，工業(yè)印刷識(shí)別或儀表?yè)鼙P(pán)識(shí)別），可以使用良好的端到端模型無(wú)需檢測(cè)注釋即可獲得。

5 Conclusion

在本文中，我們提出了一種名為MANGO的新穎的單階段場(chǎng)景文本查找器。該模型刪除了RoI操作，并設(shè)計(jì)了位置感知注意模塊來(lái)粗略定位文本序列。之后，應(yīng)用輕量級(jí)序列解碼器以將所有最終字符序列成批獲取。實(shí)驗(yàn)表明，我們的方法可以在流行基準(zhǔn)上獲得具有競(jìng)爭(zhēng)力的，甚至最先進(jìn)的結(jié)果。

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

[AAAI2021]論文翻譯MANGO: A Mask Attention Guided One-Stage Scene Text Spotter

[AAAI2021]論文翻譯MANGO: A Mask Attention Guided One-Stage Scene Text Spotter

Abstract

1 Introduction

2 Related Works

2.2 One-stage End-to-end Scene Text Spotting

3 Methodology

3.1 Overview

3.2 Position-aware Mask Attention Module

3.3 Sequence Decoding Module

3.4 Text Centerline Segmentation

3.5 Optimization

3.6 Inference

4 Experiments

4.1 Datasets

4.2 Implementation Details

4.3 Results on Text Spotting Benchmarks

4.4 Visualization Analysis

4.5 Ablation Studies

4.6 Challenging License Plate Recognitionwithout Position Annotations

5 Conclusion

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

[AAAI2021]論文翻譯MANGO: A Mask Attention Guided One-Stage Scene Text Spotter

Abstract

1 Introduction

2 Related Works

2.2 One-stage End-to-end Scene Text Spotting

3 Methodology

3.1 Overview

3.2 Position-aware Mask Attention Module

3.3 Sequence Decoding Module

3.4 Text Centerline Segmentation

3.5 Optimization

3.6 Inference

4 Experiments

4.1 Datasets

4.2 Implementation Details

4.3 Results on Text Spotting Benchmarks

4.4 Visualization Analysis

4.5 Ablation Studies

4.6 Challenging License Plate Recognitionwithout Position Annotations

5 Conclusion

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av