文獻編號：1

文獻著作信息：

CLIPTER: Looking at the Bigger Picture in Scene Text Recognition
原文 2301.07464.pdf (arxiv.org)

https://github.com/baudm/parseq
GitHub - amazon-science/semimtr-text-recognition: Multimodal Semi-Supervised Learning for Text Recognition (SemiMTR)

研究主題：

Scene Text Recognition【STR】
拓展閱讀：
文字識別方法整理（2015~2019） - 知乎 (zhihu.com)
OCR論文綜述（含文字識別、文本檢測、端到端和數(shù)據(jù)集合）_poppyty的博客-CSDN博客_srn east

研究問題：

更大圖片下的場景文本識別、目標(biāo)識別、文本檢測

研究原因：

想要理解文本，場景也能提供上下文信息，然而現(xiàn)有的STR操作是從場景剪下，失去了原有的場景語義信息

研究設(shè)計：

1、用基于裁剪的識別器去識別場景，類似CLIP，提供圖片的背景信息
2、利用門機制，這個門機制可以逐漸轉(zhuǎn)向上下文豐富的特征，微調(diào)文本識別器

研究發(fā)現(xiàn)：

提供了模型無關(guān)的算法

研究結(jié)論：

作者提出了CLIPTER框架，這個框架通過視覺語言模型，用場景信息來輔助豐富文本識別器的信息，這種文本識別器是基于裁剪的
CLIPTER提供了模型無關(guān)的算法
場景文本識別器高度受益于場景上下文，尤其是在不好的圖片質(zhì)量下，或者要是別的詞是詞匯之外的詞

帶問題看論文：

1模型無關(guān)是指？

2門機制是什么？

是結(jié)合場景信息和識別信息，融合特征，把文本識別器轉(zhuǎn)化為上下文感知特征的工具
注：CLIP只提供給交叉注意力池化后的圖片特征

啟發(fā)：

門控交叉注意力機制可以用在任何有兩個特征輸入的網(wǎng)絡(luò)中嗎?

細(xì)讀論文：

論文圖片

PARSeq是裁剪的文本識別器，無法識別場景下的困難信息，而CLIPTER可以，因為場景場下文信息可以輔助閱讀真實世界場景

CLIPTER用了CLIP，是通過對比學(xué)習(xí)得到的，使得圖片和文本有對應(yīng)關(guān)系的非常大的模型，用預(yù)訓(xùn)練的CLIP，也可以用別的視覺-語言模型替代。作者這里用了CLIP來獲得整個場景豐富的信息，與裁剪后的文本識別器的特征融合。結(jié)合這兩個信息，作者提出了“門控-交叉注意力機制”,這個機制可以把預(yù)訓(xùn)練的文本識別器轉(zhuǎn)化為上下文感知特征。

PARseq目前的地位

CUTE80 Benchmark (Scene Text Recognition) | Papers With Code

進一步闡述了增加上下文信息后得到的提升（是模態(tài)維度上的，并非是網(wǎng)絡(luò)能力上的）
作者也客觀展示了自己模型的不足，和PARSeq和CLIPER同樣的不足

CLIPER使用的訓(xùn)練數(shù)據(jù)和PARSeq相同的情況下，錯誤率要顯著低于后者

數(shù)據(jù)集介紹

Scene Text Recognition | Papers With Code

SVT

SWT

Scene Text Recognition on SVT
349張高分辨率圖片，平均尺寸1260*860像素，來源于谷歌街景，訓(xùn)練集100張，測試機249張，單詞級邊框提供了不區(qū)分大小寫的標(biāo)簽，有很多單詞未注釋，有很多噪音，大部分文本都于商店招牌相關(guān)，有各式各樣的字體和圖片樣式，數(shù)據(jù)集中的每幅圖片還提供了50個單詞詞典SVT-50
SVT Benchmark (Scene Text Recognition) | Papers With Code

image.png

ICDAR

分為

IC03

IC13

國際文件分析與識別會議引入的標(biāo)準(zhǔn)數(shù)據(jù)集，都是場景文本的數(shù)據(jù)集，包含高分辨率圖片，平均值為940*770像素，包含數(shù)量可變的文本，攝像機在城市的不同地區(qū)拍攝的，帶有不同程度的注釋，許多圖片在不同年份的ICDAR數(shù)據(jù)集之間共享，包括跨訓(xùn)練和測試分割，因此在一年的訓(xùn)練數(shù)據(jù)集上進行訓(xùn)練時必須小心

IC03包含181訓(xùn)練和251張測試圖片，有單詞級邊界框，區(qū)分大小寫的轉(zhuǎn)錄

IC03 Full表示IC03數(shù)據(jù)集中的563個測試單詞的所有圖像共享一個詞庫，當(dāng)用于評估時，詞典約束數(shù)據(jù)集（IC03-50或IC03 Full），將識別問題簡化為從詞典定義的短名單中選擇正確的基準(zhǔn)單詞，而在沒有詞典（如IC03)的情況下，則沒有短名單可供選擇

ICDAR 2005(IC05) 包含1001張訓(xùn)練圖像和489張測試圖像，單詞和字符級別的邊界框，區(qū)分大小寫的標(biāo)簽
ICDAR 2011 (IC11)包含229張訓(xùn)練圖像和255張測試圖像，單詞和字符級別的邊界框，區(qū)分大小寫的標(biāo)簽
ICDAR 2013 (IC13)BAOHAN 229張訓(xùn)練和233張測試圖像，單詞和字符級別的邊界框，區(qū)分大小寫的標(biāo)簽
ICDAR 2013 數(shù)據(jù)集給每張圖片提供了單詞的邊界框標(biāo)注，每張圖片都有屬于自己的txt文件:
標(biāo)注文件每一行代表一個文本目標(biāo)，前4個數(shù)字為坐標(biāo)信息（x1，y1，x2，y2），兩組（x，y）分別代表文本框的左上和右下，目標(biāo)框為舉行，最后一列是文本內(nèi)容，如果字體模糊則用###表示
Detection examples of the proposed method on the ICDAR 2013 dataset [17]. (figshare.com)

ICDAR2013

ICDAR2013 Benchmark (Scene Text Recognition) | Papers With Code

ICDAR 2015 和ICDAR 2013 數(shù)據(jù)集類似，知識文本框的格式由矩形變?yōu)樗倪呅?，所以寫有txt文本的前四個數(shù)字變?yōu)榘藗€數(shù)字，代表文本框的四個點，其他規(guī)則一樣。包含大量偶然的場景文本圖像，從數(shù)據(jù)集中裁剪2077個文本圖像塊用于文本識別任務(wù)，其中大量裁剪的場景文本由透視和曲率失真

ICDAR2015數(shù)據(jù)集_月半小丸子的博客-CSDN博客_icdar2015