對命名實體識別任務(NER)進行數(shù)據(jù)增強,不像對分類任務容易,其主要原因它是序列標注任務,識別是token級別。一些常見的方法,如隨機刪除或替換詞,詞序替換等,都會很容易改變...
對命名實體識別任務(NER)進行數(shù)據(jù)增強,不像對分類任務容易,其主要原因它是序列標注任務,識別是token級別。一些常見的方法,如隨機刪除或替換詞,詞序替換等,都會很容易改變...
1、研究出發(fā)點 本次分享一篇有關(guān)embedding的文章,來自2021年ACL的paper《Modeling Fine-Grained Entity Types with B...
@小蘇打gogo
歡迎~
如何利用Bert處理長文本1 前言 預訓練模型Bert能處理最大序列長度為512,當面對長文本(文檔級別)時候,通常是采用text truncation或者sliding window方式,讓輸入模型...
Introduction 今天分享一篇來自2021年NIPS會議的paper:Improving Contrastive Learning on Imbalanced See...
1 前言 關(guān)于關(guān)系抽取(三元組抽取)的方法有很多,傳統(tǒng)的方法采用pipeline方法——先識別文本中所有實體,然后在對識別的實體對遍歷判斷關(guān)系類別,這類方法存在傳播誤差的缺陷...
前言 這兩年對比學習是一個研究熱點,今年的ACL會議有16篇關(guān)于對比學習的paper,今天分享其中的一篇——基于語義負樣本的對比學習來提升自然語言理解(CLINE: Cont...
@Indigo_9128 是自己訓練的
sentencepiece原理與實踐1 前言 前段時間在看到XLNET,Transformer-XL等預訓練模式時,看到源代碼都用到sentencepiece模型,當時不清楚。經(jīng)過這段時間實踐和應用,覺得這個方...
1 前言 在NLP領域中,數(shù)據(jù)增強(data augmentation)已成為解決樣本不平衡( data imbalance)或訓練數(shù)據(jù)不足等問題一種有效技術(shù)。盡管通過數(shù)據(jù)增...
前言 命名實體識別(Named Entity Recognition,NER)一直是NLP中最主流,也是最基礎的任務之一。盡管傳統(tǒng)的機器學習方法(HMM,CRF等),到現(xiàn)在的...
@虞舜 意思是第l個指標是否預測正確
大規(guī)模文本多元標簽分類(XML-CNN)1.前言 今天分享一篇大規(guī)模文本多元標簽分類的paper(XML-CNN),論文標題為:Deep Learning for Extreme Multi-label Text ...
1 前言 在自然語言處理工作(NLP)中,會遇到這樣的一個應用問題:如何挖掘文本中某一關(guān)鍵詞的語義相似詞或近義詞?解決該問題的辦法很多,比如使用近義詞詞庫進行匹配,或檢索詞語...
1 前言 預訓練模型Bert能處理最大序列長度為512,當面對長文本(文檔級別)時候,通常是采用text truncation或者sliding window方式,讓輸入模型...
在2021年AAAI會議接受的論文中,有11篇是關(guān)于文本分類任務的,比我想象中的少,或許這個方向真的被研究透。因與筆者工作項目相關(guān),自己還是將11篇論文大致過了一篇,其中幾篇...
在前幾期分享中,提到focal_loss,dice_loss,它們都可以解決樣本不平衡性的問題。雖然paper上實驗結(jié)果都驗證了其效果,但在自己的數(shù)據(jù)場景下表現(xiàn)究竟如何。帶著...
1 前言 今天分享一種利用Dice Loss來解決NLP任務中樣本不平衡性問題的方法,該思路來自2020年ACL會議一篇paper《Dice Loss for Data-im...
AI守望者為您推送今日科技資訊簡報: 1.物理學恐被顛覆:科學家在「最后的嘗試」中發(fā)現(xiàn)未知粒子存在的證據(jù)[http://mp.weixin.qq.com/s?__biz=Mz...
AI守望者為您推送今日科技資訊簡報: 1.為什么都2021年了,汽車還在用五年前手機上的芯片?[http://mp.weixin.qq.com/s?__biz=MzA3MzI...
AI守望者為您推送今日科技資訊簡報: 1.所有判決被推翻,美最高法院:Java版權(quán)世紀大案,谷歌戰(zhàn)勝甲骨文[http://mp.weixin.qq.com/s?__biz=M...