教程:https://tianchi.aliyun.com/forum/postDetail?postId=145917
datawhale baseline:https://github.com/finlay-liu/tianchi-multi-task-nlp/
1.訓(xùn)練數(shù)據(jù)
tnews_path = "../input/2020-tianchi-nlp/TNEWS_train1128.csv"
ocnli_path = "../input/2020-tianchi-nlp/OCNLI_train1128.csv"
ocemotion_path = "../input/2020-tianchi-nlp/OCEMOTION_train1128.csv"
TNEWS:來源于今日頭條的新聞版塊,共包含15個類別的新聞;
OCEMOTION:是包含7個分類的細粒度情感性分析數(shù)據(jù)集;
OCNLI:是第一個非翻譯的、使用原生漢語的大型中文自然語言推理數(shù)據(jù)集;
OCNLI:
包含5萬余訓(xùn)練數(shù)據(jù),3千驗證數(shù)據(jù)及3千測試數(shù)據(jù)。除測試數(shù)據(jù)外,我們將提供數(shù)據(jù)及標簽。測試數(shù)據(jù)僅提供數(shù)據(jù)。OCNLI為中文語言理解基準測評(CLUE)的一部分。
數(shù)據(jù)格式
| id | 句子1 | 句子2 | label |
|---|---|---|---|
| 0 | "一月份跟二月份肯定有一個月份有" | "肯定有一個月份有 " | 0 |
label包括[蘊含,0(entailment),中性,1(neutral),不相關(guān)2(contradiction)]
TNEWS:
| id | 句子1 | label |
|---|---|---|
| 0 | 上課時學(xué)生手機響個不停,老師一怒之下把手機摔了,家長拿發(fā)票讓老師賠,大家怎么看待這種事? | 108 |
OCEMOTION:
| id | 句子1 | label |
|---|---|---|
| 0 | 我只是自私了一點,做自己想做的事情! | sadness |
| 1 | 讓感動的不僅僅是雨過天晴,還有淚水流下來的迷人眼神。 | happiness |
環(huán)境配置
從 https://huggingface.co/bert-base-chinese/tree/main下載pytorch_model.bin, vocab.txt 和config.json 文件。放在bert_train_model 文件夾下。

運行g(shù)enerate_data.py 劃分訓(xùn)練集和驗證集
運行train.py 訓(xùn)練預(yù)訓(xùn)練模型

docker上傳
1.本地安裝docker for mac
2.申請阿里云鏡像

在submission文件夾下運行命令

docker login registry.cn-hangzhou.aliyuncs.com
docker build -t registry.cn-shanghai.aliyuncs.com/corn_ai/corn_tianchi_submit:1.0 .

docker push registry.cn-shanghai.aliyuncs.com/corn_ai/corn_tianchi_submit:1.0

最后提交docker結(jié)果

