1.Wukong的一億圖文對(duì)數(shù)據(jù)集收集策略:
Wukong:100 Million Large-scale Chinese Cross-modal Pre-training Dataset and A Foundation
在視覺語言預(yù)訓(xùn)練領(lǐng)域(VLP)華為開源了1億對(duì)圖像-文本本數(shù)據(jù)集,是目前中文領(lǐng)域的最大圖文對(duì)數(shù)據(jù)集。
超過一億體量的英文圖像-文本對(duì) CLIP (Radford et al.,2021): 400M and ALIGN (Jia et al., 2021)都沒有開源。

目前VLP領(lǐng)域主要是英文數(shù)據(jù)集,但是英文數(shù)據(jù)對(duì)于中文任務(wù)幫助有限。文章的意思應(yīng)該是使用英文數(shù)據(jù)集訓(xùn)練模型,在下游中文任務(wù)上通過翻譯實(shí)現(xiàn)文字-圖像匹配性能不佳。
但是將現(xiàn)有的英文數(shù)據(jù)集文字轉(zhuǎn)換成中文應(yīng)該是可行的。

1.數(shù)據(jù)集的收集方法
使用下文的20萬條搜索詞在百度圖像引擎上進(jìn)行搜索,獲得對(duì)應(yīng)圖像的url和描述信息。
Directional skip-gram: Explicitly distinguishing left and right context for
word embeddings. In Proceedings of the 2018 Conference of the North American Chapter of the Association
for Computational Linguistics
搜索詞根據(jù)中文詞句的頻率進(jìn)行過濾。
得到中文圖像對(duì)后,從圖像和文本兩個(gè)方面進(jìn)行過濾。
(Sharma et al., 2018; Changpinyo et al., 2021; Jia et al., 2021),
基于圖像的過濾,根據(jù)圖像尺寸和分辨率,長寬均要大于200分辨率。長寬比(寬長比)要小于3.
基于文本的過濾,考慮語言,長度和頻率。
句子的長度大于1小于32.去除掉無意義和與內(nèi)容不相關(guān)的描述,000.jpg,攝影部落 查看源網(wǎng)頁
與內(nèi)容無關(guān)的描述的篩除方法是根據(jù)同一描述出現(xiàn)次數(shù)大于10次就認(rèn)為其與內(nèi)容無關(guān),需要?jiǎng)h除圖文對(duì)。
為了保護(hù)隱私,具體的名字用?人名?代替
指定中文敏感詞刪除相應(yīng)內(nèi)容。
獨(dú)特的tokens數(shù)量為20442,平均描述的token數(shù)量為22

2. CLIP4億圖文對(duì)收集策略
Learning Transferable Visual Models From Natural Language Supervision
作者起初認(rèn)為YFCC100M這個(gè)一億張圖片的數(shù)據(jù)集是此領(lǐng)域可供使用的數(shù)據(jù)集,后來發(fā)現(xiàn)其圖片的描述多為卻是的,質(zhì)量不一。很多描述都沒有實(shí)際意義,所以決定自己進(jìn)行收集數(shù)據(jù)集
整體的收集策略是cover as broad a set of visual concepts as possible。
使用了50萬個(gè)搜索詞。搜索詞的來源是英文維基百科出現(xiàn)100次以上的詞語。WordNet synsets 中沒有被上述搜索詞包含的詞語也加上了。
為了保證類間的平衡,每個(gè)關(guān)鍵詞最多收集2萬張圖片。
3. ALIGN 18億圖文對(duì)收集策略
作者認(rèn)為CLIP等數(shù)據(jù)集使用的數(shù)據(jù)收集和清理策略比較復(fù)雜,限制了數(shù)據(jù)集的體量,也就影響了模型的體量。所以本文收集了一個(gè)十億級(jí)別的圖文對(duì)數(shù)據(jù),沒有使用復(fù)雜的過濾或者后處理步驟。作者收集了一個(gè)規(guī)模很大同時(shí)文本噪聲也較多的數(shù)據(jù)集。作者認(rèn)為數(shù)據(jù)集的規(guī)模有助于抑制噪聲的影響。
ALIGN服從根據(jù)raw alt-text data獲得的圖文對(duì)的自然分布,而CLIP從英文維基百科構(gòu)建一個(gè)高頻視覺概念的列表來構(gòu)建數(shù)據(jù)集。作者認(rèn)為強(qiáng)大的視覺-語言表征不需要專家知識(shí)。
作者使用下文的方法生成raw English alt-text data (image and alt-text pairs)。原始論文包含很多過濾和后處理手段。為了獲得更大規(guī)模的數(shù)據(jù)集,作者以質(zhì)量換取規(guī)模,放松了過濾規(guī)則。只用了少量基于頻率的過濾規(guī)則。
Sharma, P., Ding, N., Goodman, S., and Soricut, R. Conceptual captions: A cleaned, hypernymed, image alt-text
dataset for automatic image captioning. In Proceedings
of Annual Meeting of the Association for Computational
Linguistics, 2018.
真實(shí)數(shù)據(jù)集中有些描述明顯與圖片無關(guān)。

基于圖片的過濾規(guī)則:移除色情圖片;短邊大于200像素;長寬比小于3;Images with more than 1000 associated alt-texts are discarded. ?為了防止引入測試圖片,刪除了下游任務(wù)數(shù)據(jù)集的測試集。
基于文本的過濾:去除了超過十張圖片公用的文本;去除了包含少見token的文本,outside of 100 million most frequent unigrams
and bigrams from the raw dataset。太短太長的文本也刪除了,too short (<3 unigrams) or too long (>20 unigrams)。
unigrams and bigrams是NLP中的分詞概念。
比如:Hi How are you?
Unigram [('Hi'), ('How'), ('are'), ('you'),('?')]
Bigram [('Hi', 'How'), ('How', 'are'), ('are', 'you'), ('you', '?')]
<3 >20的意思應(yīng)該是一句話的詞的數(shù)量+標(biāo)點(diǎn)的數(shù)量。