91久久婷,一级操人妻人人操,一区二区com.

一、寫在前面的話

1. 論文領(lǐng)域

生物醫(yī)學(xué)領(lǐng)域的預(yù)訓(xùn)練

2. 論文主要解決的問題

如何檢索（挖掘）生物醫(yī)學(xué)領(lǐng)域知識(shí)
如何在模型預(yù)訓(xùn)練中利用生物醫(yī)學(xué)領(lǐng)域的知識(shí)

3. 論文的主要?jiǎng)?chuàng)新和貢獻(xiàn)

整理和貢獻(xiàn)了生物醫(yī)療領(lǐng)域的測(cè)評(píng)數(shù)據(jù)集：https://github.com/alibaba-research/ChineseBLUE
提出了一種針對(duì)生物醫(yī)學(xué)領(lǐng)域的預(yù)訓(xùn)練方法

二、論文摘要翻譯

隨著生物醫(yī)學(xué)領(lǐng)域的文檔和web數(shù)據(jù)數(shù)量的飛速增長(zhǎng)，生物醫(yī)學(xué)領(lǐng)域的數(shù)據(jù)挖掘變得愈發(fā)重要。盡管諸如BERT的表示模型在研究領(lǐng)域已經(jīng)取得了不錯(cuò)的效果，但是由于一般語料庫和生物醫(yī)學(xué)語料庫的詞分布有很大不同，所以簡(jiǎn)單地將它們直接遷移到生物醫(yī)學(xué)領(lǐng)域的效果往往很難滿足預(yù)期。此外，醫(yī)學(xué)領(lǐng)域通常有較多的長(zhǎng)尾概念和難以通過語言模型學(xué)習(xí)的術(shù)語。生物醫(yī)學(xué)領(lǐng)域的文本內(nèi)容和結(jié)構(gòu)的復(fù)雜性，導(dǎo)致該領(lǐng)域的數(shù)據(jù)挖掘工作相比于一般的數(shù)據(jù)挖掘更具有挑戰(zhàn)性。在本文中，我們探討了如何將預(yù)訓(xùn)練語言模型BERT用于中文生物醫(yī)學(xué)語料庫，提出了一種新的概念化表示學(xué)習(xí)方法。此外，我們還發(fā)布了新的中文生物醫(yī)學(xué)語言理解評(píng)估基準(zhǔn)(ChineseBLUE)，用于評(píng)估BERT、BERT-wwm、RoBERTa和在本文中提到的方法的效果。基準(zhǔn)測(cè)試的實(shí)驗(yàn)結(jié)果表明，本文所提出的方法可以獲得顯著的增益。我們?cè)贕itHub上發(fā)布預(yù)訓(xùn)練的模型:https://github.com/alibaba-research/ChineseBLUE

三、論文模型

1. Whole Entity Masking

將BERT中的隨機(jī)MASK換成MASK生物醫(yī)療領(lǐng)域的實(shí)體例如“腹痛”，生物醫(yī)療領(lǐng)域的實(shí)體的獲取和鏈接主要通過知識(shí)圖譜和命名實(shí)體

2. Whole Span Masking

除了對(duì)實(shí)體進(jìn)行MASK之外，還對(duì)生物醫(yī)療領(lǐng)域的短語進(jìn)行MASK，例如“肚子有一點(diǎn)疼”、“腹部一陣一陣痛”等。生物醫(yī)療領(lǐng)域的短語通過Autophrase和Alibaba Congitive Concept Graph獲取，此外會(huì)使用一個(gè)二分類的模型（fasttext）用來識(shí)別是否真的是生物醫(yī)療領(lǐng)域的短語

3. Next Sentence Prediction

和BERT一樣，會(huì)做隨機(jī)將下文進(jìn)行替換。后期研究表明這一任務(wù)在BERT預(yù)訓(xùn)練中沒有什么效果（因?yàn)槿蝿?wù)過于簡(jiǎn)單），不知道在生物醫(yī)療領(lǐng)域是否需要。

4. Further Pretraining in Biomedical Domain

MC-BERT并不是從零訓(xùn)練的，而是在BERT的基礎(chǔ)上進(jìn)行訓(xùn)練，其中：學(xué)習(xí)率設(shè)置為1e-5、seps：100K、maximum length：512。此外，論文提到在BERT基礎(chǔ)上進(jìn)行預(yù)訓(xùn)練時(shí)不要使用learning rate warmup

5. 訓(xùn)練流程圖

四、論文實(shí)驗(yàn)

1. 實(shí)驗(yàn)數(shù)據(jù)集

主要來自神馬搜索和一些公開數(shù)據(jù)集：https://github.com/alibaba-research/ChineseBLUE

2. 論文所使用的參數(shù)信息

MC-BERT層數(shù)、注意力頭數(shù)等和BERT設(shè)置相同（12 layers, 12 self-attention heads, and 768-dimensional of hidden size；Large model: 24 layers, 16 self-attention heads, and 1024-dimensional of hidden size）

3. 對(duì)比結(jié)果

可以看出在生物醫(yī)學(xué)領(lǐng)域的測(cè)評(píng)任務(wù)上，MC-BERT都有提升（雖然沒提升才是奇怪的事情，畢竟是在BERT的基礎(chǔ)上又在相關(guān)領(lǐng)域做預(yù)訓(xùn)練，就是不知道從零訓(xùn)練結(jié)果會(huì)怎么樣）

另外，論文在NER任務(wù)上做了消融實(shí)驗(yàn)，其中w/o entity是移除Whole Entity Masking，w/o span是移除Whole Span Masking，可以看到去除Whole Entity Masking和Whole Span Masking都會(huì)對(duì)效果產(chǎn)生影響，但Whole Span Masking似乎影響很大，去掉之后模型效果僅比BERT好一點(diǎn)，也就是說可能單純的生物醫(yī)療實(shí)體詞的Mask無法使模型學(xué)到這個(gè)詞后面的知識(shí)，個(gè)人感覺可能和論文使用的實(shí)體詞的多少和顆粒程度有關(guān)系，但從結(jié)果上看，Whole Entity Masking可能對(duì)模型僅僅起到了word Mask的作用，所以移除Whole Span Masking之后比BERT-wwm這個(gè)word Mask的預(yù)訓(xùn)練模型差很多

五、模型下載

論文提供了下載地址，但因?yàn)槭窃诠雀柙粕?，所以下載速度不太行，所以轉(zhuǎn)存了一份在百度云上。另外，論文只提供了Tensorflow的模型權(quán)值，個(gè)人實(shí)驗(yàn)多用Pytorch，故使用拍拍臉的代碼轉(zhuǎn)化成了Pytorch的

Tensorflow 權(quán)值下載：鏈接：https://pan.baidu.com/s/1LMkWJnQnfXUt2iL4b8v5hw 提取碼：5njc

Pytorch 權(quán)值下載：鏈接：https://pan.baidu.com/s/1-jlg8RicjRBa_W5F9qzSbw 提取碼：lawg

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

Conceptualized Representation Learning for Chinese Biomedical Text Mining

Conceptualized Representation Learning for Chinese Biomedical Text Mining

一、寫在前面的話

1. 論文領(lǐng)域

2. 論文主要解決的問題

3. 論文的主要?jiǎng)?chuàng)新和貢獻(xiàn)

二、論文摘要翻譯

三、論文模型

1. Whole Entity Masking

2. Whole Span Masking

3. Next Sentence Prediction

4. Further Pretraining in Biomedical Domain

5. 訓(xùn)練流程圖

四、論文實(shí)驗(yàn)

1. 實(shí)驗(yàn)數(shù)據(jù)集

2. 論文所使用的參數(shù)信息

3. 對(duì)比結(jié)果

五、模型下載

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

Conceptualized Representation Learning for Chinese Biomedical Text Mining

一、寫在前面的話

1. 論文領(lǐng)域

2. 論文主要解決的問題

3. 論文的主要?jiǎng)?chuàng)新和貢獻(xiàn)

二、論文摘要翻譯

三、論文模型

1. Whole Entity Masking

2. Whole Span Masking

3. Next Sentence Prediction

4. Further Pretraining in Biomedical Domain

5. 訓(xùn)練流程圖

四、論文實(shí)驗(yàn)

1. 實(shí)驗(yàn)數(shù)據(jù)集

2. 論文所使用的參數(shù)信息

3. 對(duì)比結(jié)果

五、模型下載

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

一、寫在前面的話

二、論文摘要翻譯

三、論文模型

四、論文實(shí)驗(yàn)