色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

<center id="x6ug6"><tr id="x6ug6"></tr></center>

登錄注冊寫文章

VLP大規(guī)模數(shù)據(jù)集收集策略

VLP大規(guī)模數(shù)據(jù)集收集策略

1.Wukong的一億圖文對(duì)數(shù)據(jù)集收集策略:

Wukong：100 Million Large-scale Chinese Cross-modal Pre-training Dataset and A Foundation
在視覺語言預(yù)訓(xùn)練領(lǐng)域（VLP）華為開源了1億對(duì)圖像-文本本數(shù)據(jù)集，是目前中文領(lǐng)域的最大圖文對(duì)數(shù)據(jù)集。
超過一億體量的英文圖像-文本對(duì) CLIP (Radford et al.,2021): 400M and ALIGN (Jia et al., 2021)都沒有開源。

image.png

目前VLP領(lǐng)域主要是英文數(shù)據(jù)集，但是英文數(shù)據(jù)對(duì)于中文任務(wù)幫助有限。文章的意思應(yīng)該是使用英文數(shù)據(jù)集訓(xùn)練模型，在下游中文任務(wù)上通過翻譯實(shí)現(xiàn)文字-圖像匹配性能不佳。
但是將現(xiàn)有的英文數(shù)據(jù)集文字轉(zhuǎn)換成中文應(yīng)該是可行的。

image.png

1.數(shù)據(jù)集的收集方法
使用下文的20萬條搜索詞在百度圖像引擎上進(jìn)行搜索，獲得對(duì)應(yīng)圖像的url和描述信息。
Directional skip-gram: Explicitly distinguishing left and right context for
word embeddings. In Proceedings of the 2018 Conference of the North American Chapter of the Association
for Computational Linguistics
搜索詞根據(jù)中文詞句的頻率進(jìn)行過濾。
得到中文圖像對(duì)后，從圖像和文本兩個(gè)方面進(jìn)行過濾。
(Sharma et al., 2018; Changpinyo et al., 2021; Jia et al., 2021),
基于圖像的過濾，根據(jù)圖像尺寸和分辨率，長寬均要大于200分辨率。長寬比（寬長比）要小于3.
基于文本的過濾，考慮語言，長度和頻率。
句子的長度大于1小于32.去除掉無意義和與內(nèi)容不相關(guān)的描述，000.jpg,攝影部落查看源網(wǎng)頁
與內(nèi)容無關(guān)的描述的篩除方法是根據(jù)同一描述出現(xiàn)次數(shù)大于10次就認(rèn)為其與內(nèi)容無關(guān)，需要?jiǎng)h除圖文對(duì)。
為了保護(hù)隱私，具體的名字用?人名?代替
指定中文敏感詞刪除相應(yīng)內(nèi)容。
獨(dú)特的tokens數(shù)量為20442，平均描述的token數(shù)量為22

image.png

2. CLIP4億圖文對(duì)收集策略

Learning Transferable Visual Models From Natural Language Supervision
作者起初認(rèn)為YFCC100M這個(gè)一億張圖片的數(shù)據(jù)集是此領(lǐng)域可供使用的數(shù)據(jù)集，后來發(fā)現(xiàn)其圖片的描述多為卻是的，質(zhì)量不一。很多描述都沒有實(shí)際意義，所以決定自己進(jìn)行收集數(shù)據(jù)集
整體的收集策略是cover as broad a set of visual concepts as possible。
使用了50萬個(gè)搜索詞。搜索詞的來源是英文維基百科出現(xiàn)100次以上的詞語。WordNet synsets 中沒有被上述搜索詞包含的詞語也加上了。
為了保證類間的平衡，每個(gè)關(guān)鍵詞最多收集2萬張圖片。

3. ALIGN 18億圖文對(duì)收集策略

作者認(rèn)為CLIP等數(shù)據(jù)集使用的數(shù)據(jù)收集和清理策略比較復(fù)雜，限制了數(shù)據(jù)集的體量，也就影響了模型的體量。所以本文收集了一個(gè)十億級(jí)別的圖文對(duì)數(shù)據(jù)，沒有使用復(fù)雜的過濾或者后處理步驟。作者收集了一個(gè)規(guī)模很大同時(shí)文本噪聲也較多的數(shù)據(jù)集。作者認(rèn)為數(shù)據(jù)集的規(guī)模有助于抑制噪聲的影響。
ALIGN服從根據(jù)raw alt-text data獲得的圖文對(duì)的自然分布，而CLIP從英文維基百科構(gòu)建一個(gè)高頻視覺概念的列表來構(gòu)建數(shù)據(jù)集。作者認(rèn)為強(qiáng)大的視覺-語言表征不需要專家知識(shí)。
作者使用下文的方法生成raw English alt-text data (image and alt-text pairs)。原始論文包含很多過濾和后處理手段。為了獲得更大規(guī)模的數(shù)據(jù)集，作者以質(zhì)量換取規(guī)模，放松了過濾規(guī)則。只用了少量基于頻率的過濾規(guī)則。
Sharma, P., Ding, N., Goodman, S., and Soricut, R. Conceptual captions: A cleaned, hypernymed, image alt-text
dataset for automatic image captioning. In Proceedings
of Annual Meeting of the Association for Computational
Linguistics, 2018.
真實(shí)數(shù)據(jù)集中有些描述明顯與圖片無關(guān)。

image.png

基于圖片的過濾規(guī)則：移除色情圖片；短邊大于200像素；長寬比小于3；Images with more than 1000 associated alt-texts are discarded. ？為了防止引入測試圖片，刪除了下游任務(wù)數(shù)據(jù)集的測試集。
基于文本的過濾：去除了超過十張圖片公用的文本；去除了包含少見token的文本，outside of 100 million most frequent unigrams
and bigrams from the raw dataset。太短太長的文本也刪除了，too short (<3 unigrams) or too long (>20 unigrams)。
unigrams and bigrams是NLP中的分詞概念。
比如：Hi How are you?
Unigram [('Hi'), ('How'), ('are'), ('you'),('?')]
Bigram [('Hi', 'How'), ('How', 'are'), ('are', 'you'), ('you', '?')]
<3 >20的意思應(yīng)該是一句話的詞的數(shù)量+標(biāo)點(diǎn)的數(shù)量。

最后編輯于：2022.03.16 18:19:40

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成，瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明：文章內(nèi)容（如有圖片或視頻亦包括在內(nèi)）由作者上傳并發(fā)布，文章內(nèi)容僅代表作者本人觀點(diǎn)，簡書系信息發(fā)布平臺(tái)，僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

Nebula Graph 在大規(guī)模數(shù)據(jù)量級(jí)下的實(shí)踐和定制化開發(fā)
本文作者系微信技術(shù)專家李本利圖數(shù)據(jù)在社交推薦、多跳實(shí)時(shí)計(jì)算、風(fēng)控和安全等領(lǐng)域有可期待的前景。如何用圖數(shù)據(jù)庫高效存...
NebulaGraph閱讀 1,210評(píng)論 0贊 0
學(xué)習(xí)筆記DL003:神經(jīng)網(wǎng)絡(luò)第二、三次浪潮，數(shù)據(jù)量、模型規(guī)模，精度、復(fù)雜度，對(duì)現(xiàn)實(shí)世界沖擊
神經(jīng)科學(xué)，依靠單一深度學(xué)習(xí)算法解決不同任務(wù)。視覺信號(hào)傳送到聽覺區(qū)域，大腦聽學(xué)習(xí)處理區(qū)域?qū)W會(huì)“看”(Von Melc...
利炳根閱讀 1,052評(píng)論 0贊 0

讀文獻(xiàn)-大規(guī)模全基因組基因芯片數(shù)據(jù)集中的布爾推斷網(wǎng)絡(luò)
Boolean implication networks derived from large scale, wh...
克里克的鐘閱讀 1,078評(píng)論 1贊 6
EZ | 在SAR-Opt數(shù)據(jù)融合領(lǐng)域針對(duì)深度學(xué)習(xí)的SEN1-2數(shù)據(jù)集 | 03
4. 應(yīng)用示例在這一部分中，我們展示了幾個(gè)實(shí)例應(yīng)用，它們都已經(jīng)用上了這個(gè)數(shù)據(jù)集。希望在未來的研究和針對(duì)SAR-O...
杜若飛er閱讀 2,199評(píng)論 2贊 1
EZ | 在SAR-Opt數(shù)據(jù)融合領(lǐng)域針對(duì)深度學(xué)習(xí)的SEN1-2數(shù)據(jù)集 | 01
The SEN1-2 Dataset for Deep Learning in SAR-Optical Data ...
杜若飛er閱讀 2,841評(píng)論 5贊 1

友情鏈接更多精彩內(nèi)容

贊1贊

贊賞

手機(jī)看全文

田阳县| 龙岩市| 高邮市| 霸州市| 浦城县| 乌审旗| 从江县| 石城县| 万州区| 南丰县| 高州市| 太湖县| 中西区| 浦江县| 清徐县| 滁州市| 鹰潭市| 增城市| 灌云县| 光山县| 昭通市| 金秀| 桦南县| 宁国市| 贵溪市| 三河市| 泽普县| 新宁县| 方正县| 田东县| 巴彦县| 华宁县| 嫩江县| 阿合奇县| 吉隆县| 兴安盟| 杭锦后旗| 上杭县| 新昌县| 汪清县| 吉木萨尔县|

<pre id="hxwcn"><b id="hxwcn"></b></pre>