色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

<dfn id="r0ebg"><dl id="r0ebg"></dl></dfn>

<form id="r0ebg"><tbody id="r0ebg"></tbody></form>

<pre id="r0ebg"><center id="r0ebg"></center></pre>

登錄注冊寫文章

2022-10-10 Bert模型

2022-10-10 Bert模型

關(guān)注點1：Transformer

1. embedding層：把離散字符轉(zhuǎn)化為數(shù)字

Embedding

1.1 token embeddings：用于區(qū)分文本內(nèi)容，1個文本字符對應(yīng)768維的向量，1個token embeddings輸出N（字符數(shù)）x 768維的矩陣
1.2 segment embeddings:用于區(qū)分哪一句話,輸出也是N x 768維的矩陣，同一句對應(yīng)的向量是相同的
1.3 position embeddings:用于確定文本位置，輸出也是N x 768維的矩陣
因此得到3個N x 768矩陣，3個矩陣相加，輸出一個新的N x 768的矩陣

2. self-attention層:

attention機制

通過神經(jīng)網(wǎng)絡(luò)，計算句子中字符的權(quán)重w，從而對輸入進行一定的加權(quán)（更關(guān)注某部分）ps: 原始輸入文本x和decoder后的輸出文本yt-1均需輸入attention層進行權(quán)重的計算。

self-attention

區(qū)別于傳統(tǒng)attention，不涉及輸出的再輸入。WQ,WK,WV是線性層（768x768）,與X（10x768）相乘后得到10x768矩陣，隨機初始化后訓(xùn)練更新。

QxKT計算出文本的權(quán)每個字與其他字的相關(guān)性，softmax歸一化得到權(quán)重，是self-attention，dk涉及多頭機制，再乘以V（和原本數(shù)量相乘）

獲得文本與其他文本的相關(guān)

多頭機制：把原本的10x768矩陣切分為12個10x64的矩陣，在不同子空間訓(xùn)練模型，獲得12個完全不同的self-attention矩陣，最后拼接，從而提升模型效果。

多頭機制multi-head

3. LayerNorm(殘差機制)

把embedding層和self-attention層輸出相加，有助于保留一些原始信息，防止過擬合

LayerNorm(殘差機制)

4. Feed Forward層（前饋層）

注：相比于CNN，RNN，隨著長度增加，距離很遠的數(shù)據(jù)也不會丟失。

優(yōu)勢：數(shù)據(jù)更全、更完整

優(yōu)勢：無距離限制，且可以并行，速度較快

調(diào)用方式

from transformers import BertModel

bert

關(guān)注點2：預(yù)訓(xùn)練方法

通過海量的不需要標注的數(shù)據(jù)訓(xùn)練得到bert預(yù)訓(xùn)練參數(shù)

隨機遮擋: 學(xué)習(xí)每個字的意思

預(yù)測是否為下一句話：學(xué)習(xí)兩句話之前的關(guān)聯(lián)

Bert實際上就是個文本編碼器，將文本向量化，本質(zhì)上與LSTM，CNN等沒有差異（ps.文本長度不一致，需要用0補齊）

下游任務(wù)中的使用

預(yù)訓(xùn)練模型的發(fā)展

1. ELMo

使用的是雙向LSTM，預(yù)訓(xùn)練任務(wù)是單向預(yù)測（前N個字預(yù)測后1個字）

2.GPT

GPT:使用transformer，預(yù)訓(xùn)練任務(wù)還是單項預(yù)測，增加了有監(jiān)督訓(xùn)練

3. Ernie-baidu

百度模型：在中文上表現(xiàn)更好，加入了先驗知識，但導(dǎo)致不通用

4. Ernie-Tsinghua

清華模型：引入知識圖譜

5. GPT2

GPT2：語言生成能力強，大數(shù)據(jù)大模型

6. UNILM

彌補bert生成文本的缺陷，通過MASK機制增加單向LM

7.Transformer-XL&XLNet

Transformer中position embedding有長度限制

一次bert解決不了，往下傳遞

相對位置編碼

8.Roberta

Roberta

9.SpanBert

改變訓(xùn)練目標對模型也有提升

10. ALBERT

解決模型參數(shù)過多的問題

11. T5

利用seq2seq方式：邁向NLP的大一統(tǒng)

12.GPT3

超大模型，目標是不要調(diào)參

未來方向

參考資料：
八斗學(xué)院講座筆記（侵刪）

最后編輯于：2023.03.17 10:10:12

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成，瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明：文章內(nèi)容（如有圖片或視頻亦包括在內(nèi)）由作者上傳并發(fā)布，文章內(nèi)容僅代表作者本人觀點，簡書系信息發(fā)布平臺，僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

transformer、bert、ViT常見面試題總結(jié)
1.Transformer為何使用多頭注意力機制？（為什么不使用一個頭）答案解析參考這里：為什么Transfor...
加油11dd23閱讀 21,262評論 3贊 21
BERT預(yù)訓(xùn)練模型
bert之前的語言模型 n-gram語言模型：根據(jù)前面n個詞預(yù)測當前詞，它的缺點是，一般只能取1-2，n越大計算成...
松下問童子zwy閱讀 5,586評論 0贊 2

預(yù)訓(xùn)練模型介紹：BERT、GPT、XLNet、RoBERTa、ALBERT和ELECTRA
預(yù)訓(xùn)練預(yù)訓(xùn)練是Transformer模型學(xué)習(xí)建模語言的過程。換句話說，“Transformer”將學(xué)習(xí)良好的，取...
leon_kbl閱讀 12,685評論 0贊 4
綜述：自然語言處理的預(yù)訓(xùn)練模型
翻譯自Xipeng Qiu*,School of Computer Science, Fudan Universi...
京漂的小程序媛兒閱讀 6,966評論 1贊 5
Bert模型解讀-2
一前言從現(xiàn)在的大趨勢來看，使用某種模型預(yù)訓(xùn)練一個語言模型看起來是一種比較靠譜的方法。從之前AI2的 ELMo，...
Jessie_83bf閱讀 1,857評論 1贊 0

友情鏈接更多精彩內(nèi)容

1贊2贊

贊賞

手機看全文

长沙县| 大荔县| 金溪县| 奉新县| 九江市| 剑川县| 枝江市| 东阿县| 喀什市| 信丰县| 故城县| 措美县| 新丰县| 京山县| 桃园县| 永嘉县| 镶黄旗| 钟山县| 玉田县| 平阴县| 环江| 桓台县| 睢宁县| 大城县| 黑河市| 新乐市| 乌海市| 法库县| 威海市| 修武县| 六盘水市| 洪江市| 红桥区| 宁强县| 呼玛县| 德化县| 正阳县| 苍溪县| 黄石市| 明溪县| 云梦县|

<pre id="inwik"></pre>

<menuitem id="inwik"></menuitem>