一、寫在前面的話
1. 論文領(lǐng)域
生物醫(yī)學(xué)領(lǐng)域的預(yù)訓(xùn)練
2. 論文主要解決的問題
如何檢索(挖掘)生物醫(yī)學(xué)領(lǐng)域知識(shí)
如何在模型預(yù)訓(xùn)練中利用生物醫(yī)學(xué)領(lǐng)域的知識(shí)
3. 論文的主要?jiǎng)?chuàng)新和貢獻(xiàn)
整理和貢獻(xiàn)了生物醫(yī)療領(lǐng)域的測(cè)評(píng)數(shù)據(jù)集:https://github.com/alibaba-research/ChineseBLUE
提出了一種針對(duì)生物醫(yī)學(xué)領(lǐng)域的預(yù)訓(xùn)練方法
二、論文摘要翻譯
隨著生物醫(yī)學(xué)領(lǐng)域的文檔和web數(shù)據(jù)數(shù)量的飛速增長(zhǎng),生物醫(yī)學(xué)領(lǐng)域的數(shù)據(jù)挖掘變得愈發(fā)重要。盡管諸如BERT的表示模型在研究領(lǐng)域已經(jīng)取得了不錯(cuò)的效果,但是由于一般語料庫和生物醫(yī)學(xué)語料庫的詞分布有很大不同,所以簡(jiǎn)單地將它們直接遷移到生物醫(yī)學(xué)領(lǐng)域的效果往往很難滿足預(yù)期。此外,醫(yī)學(xué)領(lǐng)域通常有較多的長(zhǎng)尾概念和難以通過語言模型學(xué)習(xí)的術(shù)語。生物醫(yī)學(xué)領(lǐng)域的文本內(nèi)容和結(jié)構(gòu)的復(fù)雜性,導(dǎo)致該領(lǐng)域的數(shù)據(jù)挖掘工作相比于一般的數(shù)據(jù)挖掘更具有挑戰(zhàn)性。在本文中,我們探討了如何將預(yù)訓(xùn)練語言模型BERT用于中文生物醫(yī)學(xué)語料庫,提出了一種新的概念化表示學(xué)習(xí)方法。此外,我們還發(fā)布了新的中文生物醫(yī)學(xué)語言理解評(píng)估基準(zhǔn)(ChineseBLUE),用于評(píng)估BERT、BERT-wwm、RoBERTa和在本文中提到的方法的效果。基準(zhǔn)測(cè)試的實(shí)驗(yàn)結(jié)果表明,本文所提出的方法可以獲得顯著的增益。我們?cè)贕itHub上發(fā)布預(yù)訓(xùn)練的模型:https://github.com/alibaba-research/ChineseBLUE
三、論文模型

1. Whole Entity Masking
將BERT中的隨機(jī)MASK換成MASK生物醫(yī)療領(lǐng)域的實(shí)體例如“腹痛”,生物醫(yī)療領(lǐng)域的實(shí)體的獲取和鏈接主要通過知識(shí)圖譜和命名實(shí)體
2. Whole Span Masking
除了對(duì)實(shí)體進(jìn)行MASK之外,還對(duì)生物醫(yī)療領(lǐng)域的短語進(jìn)行MASK,例如“肚子有一點(diǎn)疼”、“腹部一陣一陣痛”等。生物醫(yī)療領(lǐng)域的短語通過Autophrase和Alibaba Congitive Concept Graph獲取,此外會(huì)使用一個(gè)二分類的模型(fasttext)用來識(shí)別是否真的是生物醫(yī)療領(lǐng)域的短語
3. Next Sentence Prediction
和BERT一樣,會(huì)做隨機(jī)將下文進(jìn)行替換。后期研究表明這一任務(wù)在BERT預(yù)訓(xùn)練中沒有什么效果(因?yàn)槿蝿?wù)過于簡(jiǎn)單),不知道在生物醫(yī)療領(lǐng)域是否需要。
4. Further Pretraining in Biomedical Domain
MC-BERT并不是從零訓(xùn)練的,而是在BERT的基礎(chǔ)上進(jìn)行訓(xùn)練,其中:學(xué)習(xí)率設(shè)置為1e-5、seps:100K、maximum length:512。此外,論文提到在BERT基礎(chǔ)上進(jìn)行預(yù)訓(xùn)練時(shí)不要使用learning rate warmup
5. 訓(xùn)練流程圖

四、論文實(shí)驗(yàn)
1. 實(shí)驗(yàn)數(shù)據(jù)集

主要來自神馬搜索和一些公開數(shù)據(jù)集:https://github.com/alibaba-research/ChineseBLUE
2. 論文所使用的參數(shù)信息
MC-BERT層數(shù)、注意力頭數(shù)等和BERT設(shè)置相同(12 layers, 12 self-attention heads, and 768-dimensional of hidden size;Large model: 24 layers, 16 self-attention heads, and 1024-dimensional of hidden size)
3. 對(duì)比結(jié)果

可以看出在生物醫(yī)學(xué)領(lǐng)域的測(cè)評(píng)任務(wù)上,MC-BERT都有提升(雖然沒提升才是奇怪的事情,畢竟是在BERT的基礎(chǔ)上又在相關(guān)領(lǐng)域做預(yù)訓(xùn)練,就是不知道從零訓(xùn)練結(jié)果會(huì)怎么樣)

另外,論文在NER任務(wù)上做了消融實(shí)驗(yàn),其中w/o entity是移除Whole Entity Masking,w/o span是移除Whole Span Masking,可以看到去除Whole Entity Masking和Whole Span Masking都會(huì)對(duì)效果產(chǎn)生影響,但Whole Span Masking似乎影響很大,去掉之后模型效果僅比BERT好一點(diǎn),也就是說可能單純的生物醫(yī)療實(shí)體詞的Mask無法使模型學(xué)到這個(gè)詞后面的知識(shí),個(gè)人感覺可能和論文使用的實(shí)體詞的多少和顆粒程度有關(guān)系,但從結(jié)果上看,Whole Entity Masking可能對(duì)模型僅僅起到了word Mask的作用,所以移除Whole Span Masking之后比BERT-wwm這個(gè)word Mask的預(yù)訓(xùn)練模型差很多
五、模型下載
論文提供了下載地址,但因?yàn)槭窃诠雀柙粕?,所以下載速度不太行,所以轉(zhuǎn)存了一份在百度云上。另外,論文只提供了Tensorflow的模型權(quán)值,個(gè)人實(shí)驗(yàn)多用Pytorch,故使用拍拍臉的代碼轉(zhuǎn)化成了Pytorch的
Tensorflow 權(quán)值下載:鏈接:https://pan.baidu.com/s/1LMkWJnQnfXUt2iL4b8v5hw 提取碼:5njc
Pytorch 權(quán)值下載:鏈接:https://pan.baidu.com/s/1-jlg8RicjRBa_W5F9qzSbw 提取碼:lawg