關(guān)于 Transformer 和注意力機(jī)制提出的 101 個(gè)高級(jí)思考問題可以查看 Gitee Transformer101Q
標(biāo)簽:Transformer,注意力機(jī)制,Attention機(jī)制,Transfomer課程,Transformer架構(gòu),Transformer模型,對(duì)話機(jī)器人,NLP課程,NLP,自然語言處理,知識(shí)圖譜,命名實(shí)體識(shí)別
《NLP on Transformers 101》培訓(xùn)課程
One Architecture, One Course,One Universe
第1章: 貝葉斯理論下的Transformer揭秘
1,基于Bayesian Theory,融Hard Attention、Soft Attention、Self-Attention、Multi-head Attention于一身的Transformer架構(gòu)
2,為什么說拋棄了傳統(tǒng)模型(例如RNN、 LSTM、CNN等)的Transformer拉開了非序列化模型時(shí)代的序幕?
3,為什么說Transformer是預(yù)訓(xùn)練領(lǐng)域底層通用引擎?
4,Transformer的Input-Encoder-Decoder-Output模型組建逐一剖析
5,Transformer中Encoder-Decoder模型進(jìn)行Training時(shí)候處理Data的全生命周期七大步驟揭秘
6,Transformer中Encoder-Decoder模型進(jìn)行Inference時(shí)候處理Data的全生命周期六大步驟詳解
7,Teacher Forcing數(shù)學(xué)原理及在Transformer中的應(yīng)用
8,窮根溯源:為何Scaled Dot-Product Attention是有效的?
9,透視Scaled Dot-Product Attention數(shù)據(jù)流全生命周期
10,窮根溯源:Queries、Keys、Values背后的Trainable矩陣揭秘
11,當(dāng)Transformer架構(gòu)遇到Bayesian理論:multi-head attention
12,End-to-end Multi-head attention的三種不同實(shí)現(xiàn)方式分析
13,透視Multi-head attention全生命周期數(shù)據(jù)流
14,Transformer的Feed-Forward Networks的兩種實(shí)現(xiàn)方式:Linear Transformations和Convolutions
15,Embeddings和Softmax參數(shù)共享剖析
16,Positional Encoding及Positional Embedding解析
17,Sequence Masking和Padding Masking解析
18,Normal distribution、Layer Normalization和Batch Normalization解析
19,Transformer的Optimization Algorithms數(shù)學(xué)原理、運(yùn)行流程和最佳實(shí)踐
20,Learning rate剖析及最佳實(shí)踐
21,從Bayesian視角剖析Transformer中的Dropout及最佳實(shí)踐
22,Label Smoothing數(shù)學(xué)原理和工程實(shí)踐解析
23,Transformer背后的驅(qū)動(dòng)力探討
第2章: 通過30+個(gè)細(xì)分模塊完整實(shí)現(xiàn)Transformer論文源碼及項(xiàng)目調(diào)試
1,Transformer源碼訓(xùn)練及預(yù)測(cè)整體效果展示
2,模型訓(xùn)練model_training.py代碼完整實(shí)現(xiàn)
3,數(shù)據(jù)預(yù)處理data_preprocess.py代碼完整實(shí)現(xiàn)
4,Input端Embeddings源碼完整實(shí)現(xiàn)
5,Attention機(jī)制attention.py代碼完整實(shí)現(xiàn)
6,Multi-head Attention機(jī)制multi_head_attention.py代碼完整實(shí)現(xiàn)
7,Position-wise Feed-forward源碼完整實(shí)現(xiàn)
8,Masking 在Encoder和Decoder端的源碼完整實(shí)現(xiàn)0
9,SublayerConnection源碼完整實(shí)現(xiàn)
10,Encoder Layer源碼完整實(shí)現(xiàn)
11,LayerNormalization源碼完整實(shí)現(xiàn)
12,DecoderLayer源碼完整實(shí)現(xiàn)
13,Encoder Stack源碼完整實(shí)現(xiàn)
14,Decoder Stack源碼完整實(shí)現(xiàn)
15,由Memory鏈接起來的EncoderDecoder Module源碼完整實(shí)現(xiàn)
16,Batch操作完整源碼實(shí)現(xiàn)
16,Optimization源碼完整實(shí)現(xiàn)
17,Loss計(jì)算數(shù)學(xué)原理及完整源碼實(shí)現(xiàn)
18,Output端Generator源碼完整實(shí)現(xiàn)
19,Transformer模型初始化源碼及內(nèi)幕揭秘
20, Label Smoothing源碼完整實(shí)現(xiàn)
21,Training源碼完整實(shí)現(xiàn)
22,Greedy Decoding源碼及內(nèi)幕解析
23,Tokenizer源碼及調(diào)試
24,Multi-GPU訓(xùn)練完整源碼
27,使用自己實(shí)現(xiàn)的Transformer完成分類任務(wù)及調(diào)試
28,Transformer翻譯任務(wù)代碼完整實(shí)現(xiàn)及調(diào)試
29,BPE解析及源碼實(shí)現(xiàn)
30,Shared Embeddings解析及源碼實(shí)現(xiàn)
31,Beam Search解析及源碼實(shí)現(xiàn)
32,可視化Attention源碼實(shí)現(xiàn)及剖析
第3章: 細(xì)說Language Model內(nèi)幕及Transformer XL源碼實(shí)現(xiàn)
1,人工智能中最重要的公式之一MLE數(shù)學(xué)本質(zhì)剖析及代碼實(shí)戰(zhàn)
2,Language Model的數(shù)學(xué)原理、Chain Rule剖析及Sparsity問題
3,Markov Assumption:first order、second order、third order剖析
4,Language Model:unigram及其問題剖析、bigram及依賴順序、n-gram
5,使用Unigram訓(xùn)練一個(gè)Language Model剖析及實(shí)踐
6,使用Bigram訓(xùn)練一個(gè)Language Model剖析及實(shí)踐
7,使用N-gram訓(xùn)練一個(gè)Language Model剖析及實(shí)踐
8,拼寫糾錯(cuò)案例實(shí)戰(zhàn):基于簡化后的Naive Bayes的糾錯(cuò)算法詳解及源碼實(shí)現(xiàn)
9,使用基于Average Log Likelihood的PPL(Perplexity)來評(píng)估Language Model
10,Laplace Smoothing剖析及基于PPL挑選最優(yōu)化K的具體方法分析
11,Interpolation Smoothing實(shí)現(xiàn)解析:加權(quán)平均不同的N-gram概率
12,Good-Turning Smoothing算法解析
13,Vallina Transformer language model處理長文本架構(gòu)解析
14, Vallina Transformer Training Losses:Multiple Postions Loss、Intermediate Layer Losses、Multiple Targets Losses
15,Vallina Transformer的三大核心問題:Segment上下文斷裂、位置難以區(qū)分、預(yù)測(cè)效率低下
16,Transformer XL:Attentive Language Models Beyond a Fixed-Length Context
17,Segment-level Recurrence with State Reuse數(shù)學(xué)原理及實(shí)現(xiàn)分析
18,Relative Positional Encoding算法解析
19,Transformer XL 中降低矩陣運(yùn)算復(fù)雜度的Trick解析
20,緩存機(jī)制在語言模型中的使用思考
21,Transformer XL之?dāng)?shù)據(jù)預(yù)處理完整源碼實(shí)現(xiàn)及調(diào)試
22,Transformer XL之MemoryTransformerLM完整源碼實(shí)現(xiàn)及調(diào)試
23,Transformer XL之PartialLearnableMultiHeadAttention源碼實(shí)現(xiàn)及調(diào)試
24,Transformer XL之PartialLearnableDecoderLayer源碼實(shí)現(xiàn)及調(diào)試
25,Transformer XL之AdaptiveEmbedding源碼實(shí)現(xiàn)及調(diào)試
26,Transformer XL之相對(duì)位置編碼PositionalEncoding源碼實(shí)現(xiàn)及調(diào)試
27,Transformer XL之Adaptive Softmax解析及源碼完整實(shí)現(xiàn)
28,Transformer XL之Training完整源碼實(shí)現(xiàn)及調(diào)試
29,Transformer XL之Memory更新、讀取、維護(hù)揭秘
30,Transformer XL之Unit單元測(cè)試
31,Transformer XL案例調(diào)試及可視化
第4章: Autoregressive Language Models之GPT-1、2、3解析及GPT源碼實(shí)現(xiàn)
1,Task-aware的人工智能Language model + Pre-training + Fine-tuning時(shí)代
2,Decoder-Only Stack數(shù)學(xué)原理及架構(gòu)解析
3,訓(xùn)練材料標(biāo)注:neutral、contradiction、entailment、multi-label、QA等
4,NLP(Natural Language Understanding):Semantic similarity、document classification、textual entailment等
5,大規(guī)模Unsupervised pre-training貝葉斯數(shù)學(xué)原理及架構(gòu)剖析
6,Task-specific Supervised fine-tuning的Softmax及Loss詳解
7,針對(duì)Classification、Entailment、Similarity、Mutiple Choice特定任務(wù)的Input數(shù)據(jù)預(yù)處理解析及矩陣緯度變化處理
8,GPT2架構(gòu)解析:Language Models for unsupervised multitask learners
9,GPT 2把Layer Norm前置的數(shù)據(jù)原理剖析
10,GPT 2 Self-Attention剖析
11,GPT 2 Training數(shù)據(jù)流動(dòng)全生命周期解析
12,GPT 2 Inference數(shù)據(jù)流動(dòng)全生命周期解析
13,GPT 3 架構(gòu)剖析:Language Models are Few-Shot Learners
14,由GPT 3引發(fā)的NLP12大規(guī)律總結(jié)
15,GPT數(shù)據(jù)預(yù)處理源碼完整實(shí)現(xiàn)及調(diào)試
16,GPT的BPE實(shí)現(xiàn)源碼及調(diào)試
17,GPT的TextEncoder源碼實(shí)現(xiàn)及調(diào)試
18,GPT的Attention完整源碼實(shí)現(xiàn)及調(diào)試
19,GPT的Layer Normalization完整源碼實(shí)現(xiàn)及調(diào)試
20,GPT的Feed Foward神經(jīng)網(wǎng)絡(luò)通過Convolutions源碼實(shí)現(xiàn)
21,GPT的Block源碼完整實(shí)現(xiàn)及調(diào)試
22,GPT的TransformerModel源碼完整實(shí)現(xiàn)及調(diào)試
23,GPT的輸入LMHead源碼完整實(shí)現(xiàn)及調(diào)試
24,GPT的MultipleChoiceHead源碼完整實(shí)現(xiàn)及調(diào)試
25,GPT的語言模型及特定Task的DoubleHeadModel源碼完整實(shí)現(xiàn)
26,GPT的OpenAIAdam優(yōu)化器源碼及調(diào)試
27,GPT的LanguageModel loss源碼及調(diào)試
28,GPT的MultipleChoiceLoss源碼及調(diào)試
29,OpenAI GPT的Pretrained Model的加載使用
30,GPT模型Task-specific訓(xùn)練完整源碼及調(diào)試
31,GPT進(jìn)行Inference完整源碼實(shí)現(xiàn)及代碼調(diào)試
第5章: Autoencoding Language Models數(shù)學(xué)原理及模型架構(gòu)解析
1,Auto-encoding Language Models通用數(shù)學(xué)原理詳解
2,為何要放棄采用Feature-Based語言模型ELMo而使用Fine-tuning模型?
3,雙向語言模型:both left-to-right and right-to-left不同實(shí)現(xiàn)及數(shù)學(xué)原理解析
4,深度雙向語言模型背后的數(shù)學(xué)原理及物理機(jī)制
5,Unsupervised Fine-tuning訓(xùn)練模型架構(gòu)及數(shù)學(xué)原理解析
6,Transfer Learning數(shù)學(xué)原理及工程實(shí)現(xiàn)詳解
7,MLM(Masked Language Models)數(shù)學(xué)原理及工程架構(gòu)解析
8,MLM問題解析及解決方案分析
9,Pre-training + Fine-tuning的BERT分層架構(gòu)體系及組件解析
10,BERT的三層復(fù)合Embeddings解析
11,BERT不同模塊的參數(shù)復(fù)雜度分析
12,BERT在進(jìn)行Masking操作中采用10%隨機(jī)選取詞庫的內(nèi)容進(jìn)行替換masked位置的內(nèi)容的數(shù)學(xué)原理剖析
13,BERT在進(jìn)行Masking操作中采用10%的內(nèi)容維持不變的數(shù)學(xué)原理揭秘
14,BERT的Masking機(jī)制五大缺陷及其解決方案分析
15,BERT的Masking機(jī)制在Data Enchancement方面的妙用
16,BERT的Masking機(jī)制在處理智能對(duì)話系統(tǒng)中不規(guī)范用語甚至是錯(cuò)誤語法及用詞的妙用
17,BERT的NSP(Next Sentence Prediction)機(jī)制及其實(shí)現(xiàn)
18,BERT的NSP三大問題及解決方案剖析
19,BERT的CLS剖析及工程實(shí)現(xiàn)
20,BERT的CLS三個(gè)核心問題及解決方案
21,Knowledge Distillation for BERT數(shù)學(xué)原理貝葉斯及KL散度解析及案例實(shí)戰(zhàn)
22,使用BERT進(jìn)行Classification架構(gòu)及案例實(shí)戰(zhàn)
23,使用BERT進(jìn)行NER(Named Entity Recognition)架構(gòu)及案例實(shí)戰(zhàn)
24,使用BERT實(shí)現(xiàn)文本Similarity任務(wù)的架構(gòu)及案例實(shí)戰(zhàn)
25,使用BERT實(shí)現(xiàn)Question-Answering任務(wù)的架構(gòu)及案例實(shí)戰(zhàn)
26,ALBERT模型架構(gòu)解析
27,RoBERTa模型架構(gòu)解析
28,SpanBERT模型架構(gòu)解析
29,TinyBERT模型架構(gòu)解析
30,Sentence-BERT模型架構(gòu)解析
31,F(xiàn)iBERT模型架構(gòu)解析
32,K-BERT模型架構(gòu)解析
33,KG-BERT模型架構(gòu)解析
第6章: BERT Pre-training模型源碼完整實(shí)現(xiàn)、測(cè)試、調(diào)試及可視化分析
1,詞典Vocabulary庫構(gòu)建多層級(jí)源碼實(shí)現(xiàn)及測(cè)試
2,Dataset加載及數(shù)據(jù)處理源碼完整實(shí)現(xiàn)及測(cè)試和調(diào)試
3,Next Sentence Prediction機(jī)制源碼完整實(shí)現(xiàn)及測(cè)試
4,Masked Language Model機(jī)制中80%詞匯Masking源碼實(shí)現(xiàn)
5,Masked Language Model機(jī)制中10%詞匯隨機(jī)替換和10%詞匯保持不變?cè)创a實(shí)現(xiàn)
6,Masked Language Model機(jī)制下的Output Label操作源碼實(shí)現(xiàn)
7,加入CLS、SEP 等Tokens
8,Segment Embeddings源碼實(shí)現(xiàn)
9,Padding源碼實(shí)現(xiàn)及測(cè)試
10,使用DataLoader實(shí)現(xiàn)Batch加載
11,BERT的初始化init及forward方法源碼實(shí)現(xiàn)
12,PositionalEmbeddings源碼實(shí)現(xiàn)詳解
13,TokenEmbeddings源碼
14,SegmentEmbeddings源碼
15,BERTEmbeddings層源碼實(shí)現(xiàn)及調(diào)試
16,基于Embeddings之多Linear Transformation操作
17,Queries、Keys、Values操作源碼
18,Attention機(jī)制源碼實(shí)現(xiàn)
19,Multi-head Attention源碼實(shí)現(xiàn)
20,Layer Normalization數(shù)學(xué)原理及源碼實(shí)現(xiàn)
21,Sublayer Connection源碼實(shí)現(xiàn)
22,Position-wise Feedforward層源碼實(shí)現(xiàn)
23,Dropout數(shù)學(xué)機(jī)制及源碼實(shí)現(xiàn)
24,基于Embeddings之上的Linear Transformation及其不同源碼實(shí)現(xiàn)方式
25,TransformerBlock源碼完整實(shí)現(xiàn)及測(cè)試
26,BERT模型訓(xùn)練時(shí)候多二分類和多分類別任務(wù)數(shù)學(xué)原理和實(shí)現(xiàn)機(jī)制
26,BERT Training Task之MLM源碼完整實(shí)現(xiàn)及測(cè)試
27,BERT Training Task之NSP源碼完整實(shí)現(xiàn)及測(cè)試
28,Negative Sampling數(shù)學(xué)原理及實(shí)現(xiàn)源碼
29,MLM和NSP的Loss計(jì)算源碼實(shí)現(xiàn)
30,BERT模型的訓(xùn)練源碼實(shí)現(xiàn)及測(cè)試
31,使用小文本訓(xùn)練BERT模型源碼、測(cè)試和調(diào)試
32,使用特定領(lǐng)域的(例如醫(yī)療、金融等)來對(duì)BERT進(jìn)行Pre-training最佳實(shí)踐
33,BERT加速訓(xùn)練技巧:動(dòng)態(tài)調(diào)整Attention的Token能夠Attending的長度
34,BERT可視化分析
第7章: BERT Fine-tuning源碼完整實(shí)現(xiàn)、調(diào)試及案例實(shí)戰(zhàn)
1,數(shù)據(jù)預(yù)處理訓(xùn)練集、測(cè)試集源碼
2,文本中的Token、Mask、Padding的預(yù)處理源碼
3,數(shù)據(jù)的Batch處理實(shí)現(xiàn)源碼及測(cè)試
4,加載Pre-training模型的BertModel及BertTokenizer
5,模型Config配置
6,Model源碼實(shí)現(xiàn)、測(cè)試、調(diào)試
7,BERT Model微調(diào)的數(shù)學(xué)原理及工程實(shí)踐
8,BERT Model參數(shù)Frozen數(shù)學(xué)原理及工程實(shí)踐
9,BertAdam數(shù)學(xué)原理及源碼剖析
10,訓(xùn)練train方法源碼詳解
11,fully-connected neural network層源碼詳解及調(diào)試
12,采用Cross-Entropy Loss Function數(shù)學(xué)原理及代碼實(shí)現(xiàn)
13,Evaluation 指標(biāo)解析及源碼實(shí)現(xiàn)
14,Classification任務(wù)下的Token設(shè)置及計(jì)算技巧
15,適配特定任務(wù)的Tokenization解析
16,BERT + ESIM(Enhanced Sequential Inference Model)強(qiáng)化BERT模型
17,使用BERT + LSTM整合強(qiáng)化BERT 模型
18,基于Movie數(shù)據(jù)的BERT Fine-tuning案例完整代碼實(shí)現(xiàn)、測(cè)試及調(diào)試
第8章: 輕量級(jí)ALBERT模型剖析及BERT變種中常見模型優(yōu)化方式詳解
1,從數(shù)學(xué)原理和工程實(shí)踐的角度闡述BERT中應(yīng)該設(shè)置Hidden Layer的維度高于(甚至是高幾個(gè)數(shù)量級(jí))Word Embeddings的維度背后的原因
2,從數(shù)學(xué)的角度剖析Neural Networks參數(shù)共享的內(nèi)幕機(jī)制及物理意義
3,從數(shù)學(xué)的角度剖析Neural Networks進(jìn)行Factorization的機(jī)制及物理意義
4,使用Inter-sentence coherence任務(wù)進(jìn)行模型訓(xùn)練的的數(shù)學(xué)原理剖析
5,上下文相關(guān)的Hidden Layer Embeddings
6,上下午無關(guān)或不完全相關(guān)的Word Embeddings
7,ALBERT中的Factorized embedding parameterization剖析
8,ALBERT中的Cross-Layer parameter sharing機(jī)制:只共享Attention參數(shù)
9,ALBERT中的Cross-Layer parameter sharing機(jī)制:只共享FFN參數(shù)
10,ALBERT中的Cross-Layer parameter sharing機(jī)制:共享所有的參數(shù)
11,ALBERT不同Layers的Input和Output相似度分析
12,訓(xùn)練Task的復(fù)雜度:分離主題預(yù)測(cè)和連貫性預(yù)測(cè)的數(shù)學(xué)原因及工程實(shí)踐
13,ALBERT中的不同于BERT的 Sentence Negative Sampling
14,句子關(guān)系預(yù)測(cè)的有效行分析及問題的底層根源
15,ALBERT的SOP(Sentence Order Prediction)實(shí)現(xiàn)分析及工程實(shí)踐
16,ALBERT采用比BERT更長的注意力長度進(jìn)行實(shí)際的訓(xùn)練
17,N-gram Masking LM數(shù)學(xué)原理和ALERT對(duì)其實(shí)現(xiàn)分析
18,采用Quantization優(yōu)化技術(shù)的Q8BERT模型架構(gòu)解析
19,采用Truncation優(yōu)化技術(shù)的“Are Sixteen Heads Really Better than One?”模型架構(gòu)解析
20,采用Knowledge Distillation優(yōu)化技術(shù)的distillBERT模型架構(gòu)解析
21,采用多層Loss計(jì)算+知識(shí)蒸餾技術(shù)的TinyBERT模型架構(gòu)解析
22,由輕量級(jí)BERT帶來的關(guān)于Transformer網(wǎng)絡(luò)架構(gòu)及實(shí)現(xiàn)的7點(diǎn)啟示
第9章: ALBERT Pre-training模型及Fine-tuning源碼完整實(shí)現(xiàn)、案例及調(diào)試
1,Corpus數(shù)據(jù)分析
2,Pre-training參數(shù)設(shè)置分析
3,BasicTokenizer源碼實(shí)現(xiàn)
4,WordpieceTokenizer源碼實(shí)現(xiàn)
5,ALBERT的Tokenization完整實(shí)現(xiàn)源碼
6,加入特殊Tokens CLS和SEP
7,采用N-gram的Masking機(jī)制源碼完整實(shí)現(xiàn)及測(cè)試
8,Padding操作源碼
9,Sentence-Pair數(shù)據(jù)預(yù)處理源碼實(shí)現(xiàn)
10,動(dòng)態(tài)Token Length實(shí)現(xiàn)源碼
11,SOP正負(fù)樣本源碼實(shí)現(xiàn)
12,采用了Factorization的Embeddings源碼實(shí)現(xiàn)
13,共享參數(shù)Attention源碼實(shí)現(xiàn)
14,共享參數(shù)Multi-head Attention源碼實(shí)現(xiàn)
15,LayerNorm源碼實(shí)現(xiàn)
16,共享參數(shù)Position-wise FFN源碼實(shí)現(xiàn)
17,采用GELU作為激活函數(shù)分析
18,Transformer源碼完整實(shí)現(xiàn)
19,Output端Classification和N-gram Masking機(jī)制的Loss計(jì)算源碼
20,使用Adam進(jìn)行優(yōu)化源碼實(shí)現(xiàn)
21,訓(xùn)練器Trainer完整源碼實(shí)現(xiàn)及調(diào)試
22,F(xiàn)ine-tuning參數(shù)設(shè)置、模型加載
23,基于IMDB影視數(shù)據(jù)的預(yù)處理源碼
24,F(xiàn)ine-tuning階段Input Embeddings實(shí)現(xiàn)源碼
25,ALBERT Sequence Classification參數(shù)結(jié)構(gòu)總結(jié)
26,F(xiàn)ine-tuning 訓(xùn)練代碼完整實(shí)現(xiàn)及調(diào)試
27,Evaluation代碼實(shí)現(xiàn)
28,對(duì)Movie數(shù)據(jù)的分類測(cè)試及調(diào)試
第10章: 明星級(jí)輕量級(jí)高效Transformer模型ELECTRA: 采用Generator-Discriminator的Text Encoders解析及ELECTRA模型源碼完整實(shí)現(xiàn)
1,GAN:Generative Model和Discriminative Model架構(gòu)解析
2,為什么說ELECTRA是NLP領(lǐng)域輕量級(jí)訓(xùn)練模型明星級(jí)別的Model?
3,使用replaced token detection機(jī)制規(guī)避BERT中的MLM的眾多問題解析
4,以Generator-Discriminator實(shí)現(xiàn)的ELECTRA預(yù)訓(xùn)練架構(gòu)解析
5,ELECTRTA和GAN的在數(shù)據(jù)處理、梯度傳播等五大區(qū)別
6,ELECTRA數(shù)據(jù)訓(xùn)練全生命周期數(shù)據(jù)流
7,以Discriminator實(shí)現(xiàn)Fine-tuning架構(gòu)解析
8,ELECTRA的Generator數(shù)學(xué)機(jī)制及內(nèi)部實(shí)現(xiàn)詳解
9,Generator的Loss數(shù)學(xué)機(jī)制及實(shí)現(xiàn)詳解
10,Discriminator的Loss數(shù)學(xué)機(jī)制及實(shí)現(xiàn)詳解
11,Generator和Discriminator共享Embeddings數(shù)據(jù)原理解析
12,Discriminator網(wǎng)絡(luò)要大于Generator網(wǎng)絡(luò)數(shù)學(xué)原理及工程架構(gòu)
13,Two-Stage Training和GAN-style Training實(shí)驗(yàn)及效果比較
14,ELECTRA數(shù)據(jù)預(yù)處理源碼實(shí)現(xiàn)及測(cè)試
15,Tokenization源碼完整實(shí)現(xiàn)及測(cè)試
16,Embeddings源碼實(shí)現(xiàn)
17,Attention源碼實(shí)現(xiàn)
18,借助Bert Model實(shí)現(xiàn)Transformer通用部分源碼完整實(shí)現(xiàn)
19,ELECTRA Generator源碼實(shí)現(xiàn)
20,ELECTRA Discriminator源碼實(shí)現(xiàn)
21,Generator和Discriminator相結(jié)合源碼實(shí)現(xiàn)及測(cè)試
22,pre-training訓(xùn)練過程源碼完整實(shí)現(xiàn)
23,pre-training數(shù)據(jù)全流程調(diào)試分析
24,聚集于Discriminator的ELECTRA的fine-tuning源碼完整實(shí)現(xiàn)
25,fine-tuning數(shù)據(jù)流調(diào)試解析
26,ELECTRA引發(fā)Streaming Computations在Transformer中的應(yīng)用思考