Abstract
在公共基準(zhǔn)上追求高性能一直是場景文本識別研究的驅(qū)動力,并且已經(jīng)取得了顯著進(jìn)展。但是,深入的調(diào)查揭示了一個令人吃驚的事實,即最先進(jìn)的方法在帶有詞匯表內(nèi)文字的圖像上效果很好,但對于詞匯表以外單詞的圖像的泛化性很差。我們稱這種現(xiàn)象為“詞匯依賴”。本文建立了一個分析框架,對場景文本識別中的詞匯依賴問題進(jìn)行了深入的研究。主要發(fā)現(xiàn)包括:
(1)詞匯依賴無處不在,即所有現(xiàn)有算法或多或少都表現(xiàn)出這種特性;
(2)基于注意力的解碼器被證明在泛化詞匯表外的單詞很弱和基于分割的解碼器在利用視覺特征方面表現(xiàn)良好;
(3)上下文建模與預(yù)測層高度耦合。
這些發(fā)現(xiàn)提供了新的見解,并可以使場景文本識別未來的研究受益。此外,我們提出了一種簡單而有效的相互學(xué)習(xí)策略,兩種家族(基于注意力和基于分割)的模型進(jìn)行協(xié)作學(xué)習(xí)。這種補(bǔ)救措施減輕了詞匯依賴問題,提高整體水平場景文字識別性能。
1. Introduction
作為許多視覺識別和理解系統(tǒng)[42、25、17、35、22、21]中的關(guān)鍵任務(wù),場景文本
識別已成為幾十年來計算機(jī)領(lǐng)域的活躍研究領(lǐng)域[24、45、43、44、32、39、36]。最近,追求高性能的基準(zhǔn)已經(jīng)引起了社會的廣泛關(guān)注。通過驅(qū)動深度學(xué)習(xí)[50,31,2,33,12]和大量的合成數(shù)據(jù)[13,29,46], 標(biāo)準(zhǔn)基準(zhǔn)的識別精度迅速提高。例如,不帶詞典的IIIT-5k的準(zhǔn)確性[27]從在很短的時間內(nèi),從78.2%[31]到96.0%[12]。

圖1:基于RNNattention的方法中的循環(huán)存儲機(jī)制[33]實際上是一把雙刃劍。 積極的方面是,對于詞匯表中帶有單詞的文本圖像(左),即使圖像質(zhì)量下降(模糊或部分遮擋),仍可以正確識別內(nèi)容。 以前被忽略的負(fù)面方面在于,對于單詞在詞匯表之外的文本圖像(右),很容易發(fā)生錯誤(用紅色標(biāo)記)。
但是,一個重要的問題被忽略了很長時間:即使在各種基準(zhǔn)都可以達(dá)到很高的精度,最先進(jìn)的算法實際上在帶有在詞匯表中的文字的圖像上顯示出明顯更高的性能相比那些不在詞匯表中的單詞圖像。其中的差距并不是由圖像質(zhì)量引起的。如圖1所示效果最佳的文本識別器[33]可以正確讀取質(zhì)量較差的圖像的內(nèi)容但是也可能錯誤讀取質(zhì)量更好的圖像內(nèi)容。秘訣在于詞匯:最先進(jìn)的方法似乎傾向于記住在訓(xùn)練階段看到的單詞。我們稱這種現(xiàn)象為“詞匯依賴”。

為了進(jìn)一步驗證詞匯依賴在場景文本識別中是否普遍,我們復(fù)現(xiàn)了許多場景文本識別的代表性方法,包括CRNN [31],F(xiàn)AN[2],CA-FCN [23]和ASTER [33], 使用相同的骨干網(wǎng)(ResNet-50 [8])和訓(xùn)練數(shù)據(jù)(SynthText [7])用于這些方法,以便排除干擾因素。從Tab1 可以看出。對于所有評估方法而言,詞匯表內(nèi)外的單詞在測試圖像之間的性能差距都很大。它表明詞匯依賴無處不在。
在本文中,我們系統(tǒng)地研究了場景文本識別中的詞匯依賴問題。建立評估框架,在其中訓(xùn)練數(shù)據(jù)集具有受控詞匯表和目標(biāo)指標(biāo)的設(shè)計旨在評估和比較不同的模塊組合。
通過使用具有受控詞匯表的訓(xùn)練數(shù)據(jù),我們能夠檢查詞匯表對算法性能的影響以及事前學(xué)習(xí)語言中不同算法的能力。同時,有針對性的指標(biāo)可以定量,精確地評估不同模塊組合的優(yōu)缺點。通過實驗,我們獲得了一系列有價值的觀察結(jié)果和發(fā)現(xiàn),并因此為未來場景文本識別算法的發(fā)展提供了一些模塊組合選擇的指導(dǎo)原則和建議。
此外,為了減輕現(xiàn)有的詞匯依賴方法,我們提出了一種新穎的相互學(xué)習(xí)策略,該策略允許模型具有不同PRED層(即基于注意力的解碼器和基于分割的解碼器)在訓(xùn)練過程中相互補(bǔ)充。 實驗結(jié)果證明了其在提高注意力解碼器和基于分割的方法的準(zhǔn)確性和泛化能力方面的有效性。
這項工作的貢獻(xiàn)如下:
- 我們提出了詞匯依賴問題,并提出了一個研究它的分析框架。
- 我們通過實驗發(fā)現(xiàn)了當(dāng)前PRED層的優(yōu)點和局限性。 基于注意力的解碼器從學(xué)習(xí)到的詞匯表中泛化性能很差,但是在訓(xùn)練帶有隨機(jī)語料的數(shù)據(jù)時表現(xiàn)良好。 基于分割的方法可以準(zhǔn)確地提取視覺特征,而CTC相關(guān)方法通常具有較弱的視覺觀察能力。
- 我們發(fā)現(xiàn),執(zhí)行上下文建模的CNTX模塊的效果與PRED層高度相關(guān)。 因此,我們提供了根據(jù)PRED層選擇CNTX模塊的指南。
- 此外,我們提出了一種簡單而有效的相互學(xué)習(xí)方法,以允許不同系列的模型進(jìn)行協(xié)同優(yōu)化,從而減輕了詞匯依賴的問題。
2. Proposed Analytical Framework
在本節(jié)中,我們詳細(xì)描述我們的分析框架,包括數(shù)據(jù),模塊和指標(biāo)。
2.1. Test Data
為了進(jìn)行實驗,我們采用了各種評估基準(zhǔn),其中一些是以前常用的工作。我們首先簡要介紹帶有實詞圖像的公開測試數(shù)據(jù)集,其詳細(xì)信息請參見[1]。
ICDAR2013(IC13)[15]是由相機(jī)捕捉場景文本的ICDAR 2013魯棒閱讀競賽的數(shù)據(jù)集。ICDAR2015(IC15)[14]是來自Google眼鏡收集的場景文字圖像,其中裁剪后的文字圖像模糊,定向且分辨率低。StreetViewText(SVT)[37]是Google Street View收集的戶外街道圖像,包括噪聲的圖像,模糊或低分辨率圖像。SVT Perspective(SVTP)[28]聚焦在彎曲文本圖像上。該數(shù)據(jù)集包含645個評估圖像,這些圖像被非前視嚴(yán)重扭曲。CUTE80(CT)[30]由80個自然場景圖像組成,從中生成288個裁剪的單詞圖像用于場景文本識別。
如圖1所示,識別視覺特征困難的文本圖像,例如模糊,污點和不規(guī)則字體,更多地依賴根據(jù)詞匯的推測。因此,我們將上述5個數(shù)據(jù)集分為一個集合Ω。 Ω的ground-truth被收集作為我們用于綜合訓(xùn)練數(shù)據(jù)的語料庫。因此,Ω及其補(bǔ)集Ωc分別代表詞匯表中和詞匯表外的一組文字圖像。
語料收集中不包括另一個評估數(shù)據(jù)集,即IIIT-5k(IIIT)[27],該評估數(shù)據(jù)集通常包含規(guī)則文本并且外觀清晰。我們選擇IIIT作為輔助集合來執(zhí)行Ωc,因為它具有相對大量的圖像和視覺間隙。通過收集的詞匯表,詞匯表中的1354個圖像被分為Ω,剩下的1646個圖像成為Ωc。它們分別被命名為IIIT-I和IIIT-O。

數(shù)據(jù)集的大小和詞匯量如表2所示。此外,Ω的詞匯表中共有3172個不同的詞。
2.2. Training Data
場景文本識別的最新工作是使用合成數(shù)據(jù)[7,13]進(jìn)行訓(xùn)練。SynthText(ST)是由[7]中提出的合成引擎生成的數(shù)據(jù)集,其背景圖像是從Google圖像搜索中提取的。它包含8萬張圖像,研究人員從中裁剪了約700萬個文本實例進(jìn)行訓(xùn)練。
如表2所示,ST是從Newgroup20 [16]數(shù)據(jù)集中的一個大型語料庫生成的,該數(shù)據(jù)集中的詞匯數(shù)以萬計。 ST的大量詞匯混淆了此類訓(xùn)練數(shù)據(jù)對詞匯依賴的影響和原因。因此,我們通過限制詞匯量來生成新的訓(xùn)練數(shù)據(jù)供研究。
特別是,如第2.1節(jié)所述,我們的語料庫是從測試數(shù)據(jù)集中收集的。使用ST的合成引擎,可以導(dǎo)出三個具有相似外觀和不同語料庫的數(shù)據(jù)集,以進(jìn)行全面而受控的比較。示例如圖2所示。
LexiconSynth(LS)從收集的ground-truth單詞中,我們通過從實例中均勻采樣來構(gòu)建LS語料庫。由于LS涵蓋了Ω的詞匯表,因此在Ω上進(jìn)行評估時,使用LS數(shù)據(jù)訓(xùn)練的模型可以促進(jìn)詞匯學(xué)習(xí)的獲得。然而,這種提純的語料庫還加劇了詞匯中單詞的過擬合。從性能差距的角度來看,可以了解模型的詞匯學(xué)習(xí)特性.
RandomSynth(RS)與LS的語料庫相反RS數(shù)據(jù)是由隨機(jī)排列的字符生成的。偽字的長度與LS的分布相同,但字符類的分布是均勻的。也就是說,無需詞匯先驗即可獲得在RS上訓(xùn)練的模型的準(zhǔn)確性。
MixedSynth(MS)防止算法依賴詞匯的直觀解決方案是將RS數(shù)據(jù)混合到LS數(shù)據(jù)中。在我們的實驗中,MS數(shù)據(jù)是LS和RS的并集。樣本從RS和LS中的采樣比率是(1-r): r∈[0,1]。訓(xùn)練步驟在所有實驗中都是固定的。與具有大詞匯量的數(shù)據(jù)集相比,RS和LS的混合在實際情況下更可行,因為在這種情況下,很少事先完全給出詞匯量。
Synthesis Details 由于評估數(shù)據(jù)集的注釋以不同的方式處理單詞的大小寫和標(biāo)點符號,因此我們將語料庫收集為不區(qū)分大小寫的不帶標(biāo)點的單詞。 在LS數(shù)據(jù)的呈現(xiàn)過程中,每個收集到的單詞都會生成三個實例,它們具有不同的變體:大寫,小寫和首字母大寫的大小寫。 此外,以隨機(jī)選擇的標(biāo)點插入單詞的可能性為10%。
對于RS數(shù)據(jù)的語料庫,字母,數(shù)字和標(biāo)點符號的比例約為6:3:1。每個單詞在與LS數(shù)據(jù)相同的三種情況下呈現(xiàn)。按照ST的規(guī)模,分別為RS和LS數(shù)據(jù)生成了約700萬張裁剪的圖像。在沒有特殊說明的情況下,經(jīng)驗數(shù)據(jù)的比率MS設(shè)置為0.5。
2.3. Module Combinations
根據(jù)[1],典型的場景文本識別方法可以分為四個階段,即變換(TRAN),特征提取(FEAT),上下文建模(CNTX)和預(yù)測(PRED)。CNTX階段類似于[1]中的序列建模(Seq)。我們擴(kuò)展到建模上下文,因為我們也考慮了基于分割的方法,以便從更廣泛的角度討論詞匯依賴問題。場景文本識別的流程如圖3所示。

在我們的實驗和分析中,我們將重點放在CNTX和PRED階段,因為這兩個階段與詞匯依賴密切相關(guān)。 TRAN和FEAT階段固定為控制變量:不采用轉(zhuǎn)換層,并且在所有組合中都使用ResNet50主干。下面,我們將介紹三個PRED層以及用于CNTX階段的三種選擇。
預(yù)測層
CTC [6]和基于注意力的解碼器[3,40]是預(yù)測層選擇中的兩種主要方法。如圖3(b)所示,CTC將逐幀預(yù)測與目標(biāo)字符串對齊。在最終輸出中刪除了具有相同字符但不帶“BLANK”的幀,該幀表示不包含任何字符。由于CTC具有優(yōu)越的推理速度[1],它被廣泛用于許多實際應(yīng)用[20]和學(xué)術(shù)研究[4,9]。
基于注意力的解碼器[2,33]是場景文本識別領(lǐng)域中最先進(jìn)的方法。從特征序列中概括出一個瞥見向量,然后采用RNN在特征序列上產(chǎn)生注意向量,并依次產(chǎn)生特征分類(見圖3c)。
最近,MaskTextSpotter [26]引入實例分割以分別對每個字符進(jìn)行定位和分類,并且激勵了后續(xù)的工作[5,23,41]。盡管基于分割的方法(簡稱為Seg。)通過在分割圖中找到相連的成分來直接提取字符,但是深層卷積網(wǎng)絡(luò)的大感受野可能帶來詞匯依賴。
Context Modules
雙向LSTM(BLSTM)[11]用于在最近的工作中由CNN提取的特征圖上進(jìn)行上下文建模[33,19]。
如圖3e所示,BLSTM模塊將特征序列作為輸入,并通過帶有移動步長的池化或卷積從特征圖進(jìn)行轉(zhuǎn)換,這是許多場景文本識別方法[34,40]中上下文建模的通用做法,因為BLSTM以雙向順序掃描和映射特征。
圖3(f)所示的金字塔池化模塊(PPM)[49]是上下文建模的另一種選擇 ,這在基于分割的方法中被證明是有效的[18]。它利用自適應(yīng)平均池化將特征圖池化為不同的正方形分辨率(在我們的實驗中為1,3、4、6),然后通過雙線性插值將池化的特征調(diào)整為輸入分辨率的大小并與原始特征相連接以獲得不同尺度全局上下文信息。由于基于分割的方法與BLSTM不兼容,因此PPM是用于上下文建模的實用模塊。我們的實驗也驗證了其在增強(qiáng)模型詞匯學(xué)習(xí)中的有效性。
此外,顯式上下文建模對于魯棒的文本識別不是必需的,深度卷積網(wǎng)絡(luò)通常具有較大的感受野[38,47]。但是,在我們的實驗中,上下文建模模塊確實帶來了詞匯學(xué)習(xí)和依賴性方面的多樣性。

原始結(jié)果如表3所示,其中模塊組合用帶圓圈的數(shù)字命名。
2.4. Metrics
使用我們重新設(shè)計的訓(xùn)練數(shù)據(jù),我們可以在多個訓(xùn)練數(shù)據(jù)上評估算法的性能。 提出了幾種度量標(biāo)準(zhǔn)來對模型的性能進(jìn)行基準(zhǔn)測試。
首先,我們介紹了一種用于性能評估的常規(guī)度量,即通用精度(GA)。 評估場景文本識別算法的當(dāng)前做法是在具有真實世界圖像的公共基準(zhǔn)上評估模型。 我們將提到的評估數(shù)據(jù)集的所有測試圖像的識別準(zhǔn)確度定義為GA,與先前工作中的常見評估相對應(yīng)。

Observation Ability(OA)準(zhǔn)確的視覺特征提取和識別是場景文本識別方法的基本能力。我們將OA定義為算法在訓(xùn)練數(shù)據(jù)沒有詞匯的情況下準(zhǔn)確地識別單詞的方式。在我們的框架中,OA是通過評估在RS數(shù)據(jù)上訓(xùn)練的模型以及來自所有基準(zhǔn)的測試圖像(總共7406個圖像)來測量的。由于認(rèn)知準(zhǔn)確度完全來自觀察視覺特征而無需學(xué)習(xí)任何詞匯,因此表明了模型利用視覺觀察的能力。
Vocabulary Learning Ability(VA)
如第1節(jié)所述,算法可能會利用學(xué)習(xí)的詞匯進(jìn)行細(xì)化或限制文本圖像的識別結(jié)果。類似于OA,VA建議用于評估有限詞匯量的識別準(zhǔn)確性。在我們的實驗中,用LS數(shù)據(jù)集來訓(xùn)練模型并評估Ω所有圖像的識別準(zhǔn)確性來測量VA。VA對于在事先提供詞典的文本識別任務(wù)中選擇模型具有重要意義。
Vocabulary Generalization(VG)
人可以輕松地從學(xué)習(xí)的事物中概括事物,這啟發(fā)我們通過測量用不在詞匯表中的LS數(shù)據(jù)訓(xùn)練的詞匯量模型的性能來評估算法的詞匯泛化(VG)。實際上,我們在實驗中目睹了當(dāng)前識別方法的詞匯概括。為了公平地評估VG,應(yīng)該消除圖像視覺特征對數(shù)據(jù)集的影響,該影響在兩個圖像集之間帶來了固有的差距。因此,VG由


3. Comparisons and Analyses
使用第2節(jié)中提出的框架,我們可以對各種模塊組合進(jìn)行比較和分析。模型的度量如圖5所示。 根據(jù)具體評估,我們評估和分析模塊組合的不同方面。
3.1. Effect of Training Data

從根本上說,我們應(yīng)該首先驗證所提出數(shù)據(jù)集的有效性,并探討訓(xùn)練數(shù)據(jù)詞匯依賴的相關(guān)性。通過將MS數(shù)據(jù)比例r從0逐漸調(diào)整為1進(jìn)行實驗。表3中的?,?和?三個模型進(jìn)行比較。除了IIIT的識別準(zhǔn)確性外,我們還觀察到預(yù)測詞落入詞匯表的可能性,如圖4所示。
將RS數(shù)據(jù)混合到LS數(shù)據(jù)中,通過混合數(shù)據(jù)訓(xùn)練模型可以提高IIIT的識別準(zhǔn)確性并且不太容易被詞匯依賴所誤導(dǎo)。特別是對于模型?,得益于混合RSdata的25%的比率,IIIT的識別精度從77.8%提高到84.4%。
當(dāng)比例r達(dá)到0.5左右時,精度的提高就停止了。一方面,減少詞匯中產(chǎn)生單詞預(yù)測的可能性證明了有效抵消RS數(shù)據(jù)對詞匯的依賴。另一方面,它需要足夠比例的LS數(shù)據(jù)才能從訓(xùn)練數(shù)據(jù)中學(xué)習(xí)詞匯。
3.2. Comparison of Prediction Layers

從圖5a中,我們可以看出使用RS,MS和LS數(shù)據(jù)訓(xùn)練的模型,盡管有PRED層也沒有CNTX模塊之間的性能差距是一致的。結(jié)果表明,所有組合都存在詞匯依賴問題,但嚴(yán)重程度有所不同。
此外,我們還展示了模型?,?和?使用不同訓(xùn)練數(shù)據(jù)訓(xùn)練后在IIIT上的性能差距。這些模型是在沒有CNTX模塊構(gòu)建的情況下,分別使用Atten.,CTC和分割的PRED層。如圖5b所示,基于注意力的解碼器從r = 0(LS數(shù)據(jù))的點的最高間隙開始。通過將更多的RS數(shù)據(jù)混合到訓(xùn)練集中,基于注意力的解碼器的差距會減小。這種趨勢證實了基于注意力的解碼器在詞匯學(xué)習(xí)上的優(yōu)勢以及在詞匯依賴方面的劣勢。
除了詞匯依賴之外,我們在圖6a中還對我們提出的PRED層指標(biāo)進(jìn)行了全面的比較。 CTC的性能通常由其他兩個預(yù)測層(包括準(zhǔn)確性和泛化性)衡量?;谧⒁饬突诜指畹慕獯a器分別在VA和VG方面獲得優(yōu)勢。它們在OA中的表現(xiàn)也相似,表明僅根據(jù)視覺特征即可準(zhǔn)確識別。
3.3. Comparison of Context Modules

基本上,上下文模塊的采用可以提高模型的詞匯學(xué)習(xí)能力,這已通過模塊組合的VA(詞匯學(xué)習(xí)能力)的驗證。例如,在以前的場景文本識別方法中未廣泛使用的PPM帶來了與PRED層結(jié)合的增強(qiáng)效果:Seg為3.9%。 CTC為10.5%。另一方面,如圖7所示,通常VA增強(qiáng)VG會降低。
與PRED層相似,CNTX模塊的評估結(jié)果如圖8a和圖8b所示。我們發(fā)現(xiàn),CNTX模塊的效果與預(yù)測層高度相關(guān)。
如第3.2節(jié)所述,基于注意力的解碼器從訓(xùn)練數(shù)據(jù)中學(xué)習(xí)詞匯的能力更強(qiáng)。因此,它帶來了較少的VA和VG變化,從而為基于注意力的PRED層添加了更多的上下文模塊。此外,充當(dāng)上下文信息提取器的上下文模塊實際上有助于基于注意力和基于分割的解碼器的視覺觀察。
對于CTC系列模型,情況有所不同。PPM和BLSTM顯著提高了它們的VA和與VG配對,因為CTC解碼器本身缺少適當(dāng)?shù)纳舷挛慕!D8a顯示了上下文模塊在CTC系列模型上帶來的三種方法的性能變化。
總而言之,使用適當(dāng)?shù)纳舷挛哪K來增強(qiáng)模型的詞匯學(xué)習(xí)是有效的:BLSTM用于基于注意力的模塊,PPM用于CTC和基于分割的解碼器。畢竟,這是VA和VG之間的折衷方案。
3.4. Combination Recommendation

根據(jù)表5和之前的分析,我們根據(jù)情況是否給出目標(biāo)圖像的詞匯表,推薦了兩種組合用于不同的情況。
基于注意力的帶有BLSTM的Model?受益于功能強(qiáng)大的CNTX模塊和PRED層獲得了最佳的VA。模型在詞匯學(xué)習(xí)中的優(yōu)點也導(dǎo)致了最好的GA,與傳統(tǒng)基準(zhǔn)測試的性能相對應(yīng)。 VA和GA的高分值證明了在測試圖像的詞匯大部分是訓(xùn)練數(shù)據(jù)的受限子集的應(yīng)用中,它們表現(xiàn)良好。因此,與網(wǎng)絡(luò)設(shè)計中的[40]相似,模型?是我們?yōu)榱藦?qiáng)詞匯學(xué)習(xí)能力首次推薦組合。
對于行業(yè)中的許多應(yīng)用,使用有限詞匯量的數(shù)據(jù)訓(xùn)練的算法應(yīng)該能很好地概括為更通用的單詞。由于模型?獲得最佳的VG,因此它具有良好的詞匯泛化能力。因此,對于涉及詞匯泛化的場景,我們建議使用類似于CA-FCN [23]結(jié)構(gòu)的組合?。
4. Remedy by Mutual Learning
前面的部分演示了VA和VG之間的權(quán)衡以及模型的各種優(yōu)勢。在本節(jié)中,我們提出了一種簡單而有效的訓(xùn)練策略,以結(jié)合模型在不同預(yù)測層(即基于注意力和基于分割的解碼器)中的優(yōu)勢。
該思想基本上是受知識蒸餾[10]和深入的相互學(xué)習(xí)[48]的啟發(fā)。與知識蒸餾相似,兩個模型的相互學(xué)習(xí)是一種訓(xùn)練策略,其中模型可以協(xié)同學(xué)習(xí)。知識蒸餾策略將知識從經(jīng)過預(yù)訓(xùn)練的強(qiáng)大教師網(wǎng)絡(luò)轉(zhuǎn)移到學(xué)生網(wǎng)絡(luò),而我們的方法則從頭開始同時優(yōu)化兩個模型。
由于其優(yōu)勢,我們選擇基于分割的解碼器和基于注意力的解碼器的集合作為基礎(chǔ)模型在圖6a中揭示。我們假設(shè)基于分割的解碼器的泛化監(jiān)督基于注意力的解碼器,以學(xué)習(xí)減輕詞匯依賴,而基于注意力的解碼器的準(zhǔn)確性注意力反過來又改善了基于分割的解碼器。
4.1. Optimization

圖9:基于注意力的解碼器(頂部)和基于分割的解碼器(底部)的相互學(xué)習(xí)。 logit的KL散度被計算為輔助監(jiān)督,這使得模型可以共同學(xué)習(xí)。

4.2. Experimental Validation

我們使用提議的評估框架評估了相互學(xué)習(xí)策略,并分別在表3和表6中顯示了我們的指標(biāo)的原始準(zhǔn)確性和性能。實驗結(jié)果證明了相互學(xué)習(xí)策略所帶來的基礎(chǔ)模型的顯著改進(jìn)。
這兩種相互學(xué)習(xí)策略相結(jié)合的模型保持了不同的特性和明顯的優(yōu)勢。聯(lián)合訓(xùn)練程序通過協(xié)調(diào)其估計,將其傾向性與視覺特征和詞匯結(jié)合起來與吉隆坡的分歧。有證據(jù)表明,兩種模型的OA和VA均得到改進(jìn),驗證了相互學(xué)習(xí)策略的有效性。
此外,基于分割的解碼器消除了基于注意力的解碼器的詞匯依賴性。在基于注意力的解碼器的訓(xùn)練中,基于分割的模型的預(yù)測更多地依賴于視覺特征,這是一種額外的視覺正則化。除了最小化LΘ1,還驅(qū)動Θ1以適合Θ2的觀察概率。定量地,Θ1的GA從77.1%提高到93.6%。在原始精度上,LS數(shù)據(jù)上帶有單詞在單詞之間進(jìn)出的圖像之間的性能差距幾乎減少了一半(32.7%至16.9%)。
圖6b顯示了所提出的相互學(xué)習(xí)策略的定性比較?;鶞?zhǔn)方面的顯著改進(jìn)證明了所提出的相互學(xué)習(xí)策略的有效性,從而驗證了其合理性以整合不同PRED層的優(yōu)勢。
5. Conclusion
在本文中,我們研究了一個重要但長期被忽視的問題:場景文本識別方法中的詞匯依賴。 建立了一個用于比較和分析單個文本識別模塊及其組合的綜合框架。 基于此框架,已經(jīng)獲得了一系列關(guān)鍵的觀察和發(fā)現(xiàn)以及有價值的建議,這些建議可能有助于未來場景文本識別的研究。 此外,我們分析了當(dāng)前的上下文模塊和預(yù)測模塊,并提出了一種相互學(xué)習(xí)策略,以增強(qiáng)他們的詞匯學(xué)習(xí)能力或?qū)υ~匯外單詞的泛化能力。