2023-01-30【CLIPTER】用clip提供背景信息,在更大的場景下學(xué)習(xí)

文獻編號:1

文獻著作信息:

CLIPTER: Looking at the Bigger Picture in Scene Text Recognition
原文 2301.07464.pdf (arxiv.org)

https://github.com/baudm/parseq
GitHub - amazon-science/semimtr-text-recognition: Multimodal Semi-Supervised Learning for Text Recognition (SemiMTR)

研究主題:

Scene Text Recognition【STR】
拓展閱讀:
文字識別方法整理(2015~2019) - 知乎 (zhihu.com)
OCR論文綜述(含文字識別、文本檢測、端到端和數(shù)據(jù)集合)_poppyty的博客-CSDN博客_srn east

研究問題:

更大圖片下的場景文本識別、目標(biāo)識別、文本檢測

研究原因:

想要理解文本,場景也能提供上下文信息,然而現(xiàn)有的STR操作是從場景剪下,失去了原有的場景語義信息

研究設(shè)計:

1、用基于裁剪的識別器去識別場景,類似CLIP,提供圖片的背景信息
2、利用門機制,這個門機制可以逐漸轉(zhuǎn)向上下文豐富的特征,微調(diào)文本識別器

研究發(fā)現(xiàn):

提供了模型無關(guān)的算法

研究結(jié)論:

作者提出了CLIPTER框架,這個框架通過視覺語言模型,用場景信息來輔助豐富文本識別器的信息,這種文本識別器是基于裁剪的
CLIPTER提供了模型無關(guān)的算法
場景文本識別器高度受益于場景上下文,尤其是在不好的圖片質(zhì)量下,或者要是別的詞是詞匯之外的詞

帶問題看論文:

1模型無關(guān)是指?

2門機制是什么?

是結(jié)合場景信息和識別信息,融合特征,把文本識別器轉(zhuǎn)化為上下文感知特征的工具
注:CLIP只提供給交叉注意力池化后的圖片特征

啟發(fā):

門控交叉注意力機制可以用在任何有兩個特征輸入的網(wǎng)絡(luò)中嗎?

細(xì)讀論文:

論文圖片

1

PARSeq是裁剪的文本識別器,無法識別場景下的困難信息,而CLIPTER可以,因為場景場下文信息可以輔助閱讀真實世界場景

2

CLIPTER用了CLIP,是通過對比學(xué)習(xí)得到的,使得圖片和文本有對應(yīng)關(guān)系的非常大的模型,用預(yù)訓(xùn)練的CLIP,也可以用別的視覺-語言模型替代。作者這里用了CLIP來獲得整個場景豐富的信息,與裁剪后的文本識別器的特征融合。結(jié)合這兩個信息,作者提出了“門控-交叉注意力機制”,這個機制可以把預(yù)訓(xùn)練的文本識別器轉(zhuǎn)化為上下文感知特征。

3

PARseq目前的地位

CUTE80 Benchmark (Scene Text Recognition) | Papers With Code

4

進一步闡述了增加上下文信息后得到的提升(是模態(tài)維度上的,并非是網(wǎng)絡(luò)能力上的)
作者也客觀展示了自己模型的不足,和PARSeq和CLIPER同樣的不足

5

CLIPER使用的訓(xùn)練數(shù)據(jù)和PARSeq相同的情況下,錯誤率要顯著低于后者

數(shù)據(jù)集介紹

Scene Text Recognition | Papers With Code

SVT

SWT

Scene Text Recognition on SVT
349張高分辨率圖片,平均尺寸1260*860像素,來源于谷歌街景,訓(xùn)練集100張,測試機249張,單詞級邊框提供了不區(qū)分大小寫的標(biāo)簽,有很多單詞未注釋,有很多噪音,大部分文本都于商店招牌相關(guān),有各式各樣的字體和圖片樣式,數(shù)據(jù)集中的每幅圖片還提供了50個單詞詞典SVT-50
SVT Benchmark (Scene Text Recognition) | Papers With Code
image.png

ICDAR

分為


IC03
IC13

國際文件分析與識別會議引入的標(biāo)準(zhǔn)數(shù)據(jù)集,都是場景文本的數(shù)據(jù)集,包含高分辨率圖片,平均值為940*770像素,包含數(shù)量可變的文本,攝像機在城市的不同地區(qū)拍攝的,帶有不同程度的注釋,許多圖片在不同年份的ICDAR數(shù)據(jù)集之間共享,包括跨訓(xùn)練和測試分割,因此在一年的訓(xùn)練數(shù)據(jù)集上進行訓(xùn)練時必須小心

IC03包含181訓(xùn)練和251張測試圖片,有單詞級邊界框,區(qū)分大小寫的轉(zhuǎn)錄

IC03 Full表示IC03數(shù)據(jù)集中的563個測試單詞的所有圖像共享一個詞庫,當(dāng)用于評估時,詞典約束數(shù)據(jù)集(IC03-50或IC03 Full),將識別問題簡化為從詞典定義的短名單中選擇正確的基準(zhǔn)單詞,而在沒有詞典(如IC03)的情況下,則沒有短名單可供選擇

ICDAR 2005(IC05) 包含1001張訓(xùn)練圖像和489張測試圖像,單詞和字符級別的邊界框,區(qū)分大小寫的標(biāo)簽
ICDAR 2011 (IC11)包含229張訓(xùn)練圖像和255張測試圖像,單詞和字符級別的邊界框,區(qū)分大小寫的標(biāo)簽
ICDAR 2013 (IC13)BAOHAN 229張訓(xùn)練和233張測試圖像,單詞和字符級別的邊界框,區(qū)分大小寫的標(biāo)簽
ICDAR 2013 數(shù)據(jù)集給每張圖片提供了單詞的邊界框標(biāo)注,每張圖片都有屬于自己的txt文件:
標(biāo)注文件每一行代表一個文本目標(biāo),前4個數(shù)字為坐標(biāo)信息(x1,y1,x2,y2),兩組(x,y)分別代表文本框的左上和右下,目標(biāo)框為舉行,最后一列是文本內(nèi)容,如果字體模糊則用###表示
Detection examples of the proposed method on the ICDAR 2013 dataset [17]. (figshare.com)

ICDAR2013

ICDAR2013 Benchmark (Scene Text Recognition) | Papers With Code

ICDAR 2015 和ICDAR 2013 數(shù)據(jù)集類似,知識文本框的格式由矩形變?yōu)樗倪呅?,所以寫有txt文本的前四個數(shù)字變?yōu)榘藗€數(shù)字,代表文本框的四個點,其他規(guī)則一樣。包含大量偶然的場景文本圖像,從數(shù)據(jù)集中裁剪2077個文本圖像塊用于文本識別任務(wù),其中大量裁剪的場景文本由透視和曲率失真

ICDAR2015數(shù)據(jù)集_月半小丸子的博客-CSDN博客_icdar2015

COCO

image.png

coco數(shù)據(jù)庫有八十個類別
一般是物體檢測居多,文本識別有專門的coco-text
COCO - Common Objects in Context (cocodataset.org)

coco-text
image.png

COCO-Text論文地址
COCO-Text數(shù)據(jù)集下載地址

RCTW-17


自然場景下的中文閱讀
RCTW-17論文地址
RCTW-17數(shù)據(jù)集下載地址

ICDAR2017 Competition on Reading Chinese Text in the Wild (RCTW-17) | Papers With Code

Uber
image.png

Uber-Text: A Large-Scale Dataset for Optical Character Recognition from Street-Level Imagery | Uber Blog

Uber-Text論文
數(shù)據(jù)集下載

ArT

image.png

ArT論文地址

論文表格

1
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容