? ? ? ?本人現(xiàn)在某高校就讀研究生,今年研二,加上保研那年的話,對(duì)NLP接觸的時(shí)間也有兩年半?,F(xiàn)在決定把前幾年做的一些關(guān)于NLP的工作匯總在這里,自己也做一個(gè)知識(shí)性的梳理吧。之前雖然沒(méi)有寫(xiě)博客的習(xí)慣,但會(huì)把一些相關(guān)的經(jīng)驗(yàn)和代碼記在云筆記上,所以也算不上為了找工作臨時(shí)抱佛腳吧。文筆不咋樣,本人目前僅僅是研究生一枚,接下來(lái)的很多東西也許說(shuō)的不是很嚴(yán)謹(jǐn),如果不小心被哪位技術(shù)大佬看到了,不要嫌棄有什么錯(cuò)誤請(qǐng)留言指正。
????????于我而言,NLP更像是一種知識(shí)體系,我大致接觸過(guò)語(yǔ)音、知識(shí)圖譜和對(duì)話相關(guān)的一些項(xiàng)目,有些也并不是很深入。但總的來(lái)說(shuō)NLP的任務(wù)大致可以分為幾個(gè)層面吧:

? ? 上圖是最近Google在embedding工作上的杰作——bert,這里主要借用這副圖來(lái)說(shuō)明下NLP的任務(wù)分類,關(guān)于bert的部分,我后續(xù)會(huì)詳細(xì)說(shuō)明??偟膩?lái)說(shuō)NLP有:
? ? ? ? ? 1.word level:序列標(biāo)注任務(wù)(上圖d),分詞、詞性標(biāo)注、命名實(shí)體識(shí)別都屬于序列標(biāo)注任務(wù),所謂序列標(biāo)注就是對(duì)一個(gè)序列的每個(gè)部分(可以是詞,可以是字)進(jìn)行分類,上圖d就是一個(gè)實(shí)體識(shí)別任務(wù)(我們后續(xù)會(huì)詳細(xì)講到),實(shí)際上我感覺(jué)語(yǔ)音識(shí)別如果是在幀層面上進(jìn)行音素分類的話,也可以作為一種序列標(biāo)注任務(wù)。
? ? ? ? ? ?2.sentence level :我認(rèn)為只要是在句子層面分類的任務(wù)都可以歸結(jié)為該類,如文本分類,情感識(shí)別,關(guān)系抽取,語(yǔ)音情感識(shí)別等。在這里注意關(guān)系抽取是知識(shí)圖譜中將文本數(shù)據(jù)進(jìn)行結(jié)構(gòu)化的一種方法,實(shí)際上它離不開(kāi)實(shí)體和句子,最后的分類標(biāo)簽還是針對(duì)這三者而來(lái)的,所以我把它歸結(jié)到sentence level任務(wù)中。
? ? ? ? ? ?3.sentence-sentence level:這一類問(wèn)題是NLP中最最常見(jiàn),也是研究最廣泛的一類問(wèn)題,即序列和序列之間的分類,這種分類根據(jù)分類形式的不同又可以細(xì)分。例如機(jī)器翻譯,問(wèn)答,對(duì)話都是sequence to sequence類型的問(wèn)題,而對(duì)于閱讀理解,smilarity等任務(wù)都是通過(guò)針對(duì)sentences pair進(jìn)行分類,拿閱讀理解上圖c,就是通過(guò)模型“理解”完Question和Paragraph后,然后針對(duì)Paragraph,找出start和end的位置(即對(duì)這兩個(gè)token做分類)得到的start和end中間一段就是答案。再比如ai challenger2018中的觀點(diǎn)型閱讀理解就是上圖a中的例子,針對(duì)的是sentences pair建模,來(lái)分類。
????????給我的感覺(jué)是,學(xué)NLP并不要太局限在一個(gè)方向里,很多任務(wù)所運(yùn)用的到處理問(wèn)題的框架都是類似的,就好比不同的場(chǎng)景要搭建不同的建筑,但不同的建筑所用的材料都是想通的,知識(shí)因?yàn)閳?chǎng)景的不同會(huì)有所區(qū)別,之前說(shuō)到的知識(shí)體系就是這個(gè)意思。當(dāng)然NLP的任務(wù)形式還有其他的一些內(nèi)容,例如句法分析,語(yǔ)義角色標(biāo)注,知識(shí)圖譜中的知識(shí)表示模型等等又不是上述的一些形式,在這里由于這些內(nèi)容本人沒(méi)咋接觸,就不進(jìn)行說(shuō)明了。
? ? ? ? 另外,這里列幾個(gè)NLP相關(guān)的會(huì)議:
? ???????????????ACL? https://acl2017.wordpress.com/2017/04/05/accepted-papers-and-demonstrations/
?????????????????EMNLP
?????????????????COLING
?????????????????NAACL
? ? ? ? AI相關(guān):
? ? ? ? ? ? ? ? ? ?IJCAI
? ? ? ? ? ? ? ? ? ??AAAI
? ? ? ? 語(yǔ)音:
? ? ? ? ? ? ? ? ? ? Interspeech
? ? ? ? 下面的內(nèi)容我可能更多的關(guān)注在Deep Learning的方法上,除了情感識(shí)別的部分我會(huì)分享整個(gè)項(xiàng)目的實(shí)踐過(guò)程里面包含一些機(jī)器學(xué)習(xí)的代碼,這段時(shí)間由于幫老師整理機(jī)器學(xué)習(xí)的課件,所以之后關(guān)于機(jī)器學(xué)習(xí)的原理部分也會(huì)抽空做一個(gè)梳理。
既然是系列文章,在這里還是要列個(gè)大綱:
(一) NLP個(gè)人技術(shù)實(shí)戰(zhàn)心得——開(kāi)篇
(二)淺談?wù)Z言模型與詞向量
(三)分詞技術(shù)及開(kāi)源分詞器
(四)序列標(biāo)注任務(wù)——命名實(shí)體識(shí)別
(五)結(jié)構(gòu)化數(shù)據(jù)抽取——關(guān)系抽取
(六)金融知識(shí)圖譜——基于中財(cái)網(wǎng)的圖譜搭建
(七)簡(jiǎn)單圖譜查詢——利用AIML進(jìn)行圖譜問(wèn)答
(八)sequence to sequence
(九)再談embedding——bert詳解
(十)語(yǔ)音情感識(shí)別項(xiàng)目實(shí)戰(zhàn)
先就列上面幾個(gè)吧,主要也是根據(jù)我這兩年讀研的過(guò)程中接觸到的一些項(xiàng)目來(lái)的。列完之后我自己也有點(diǎn)懵,看似不怎么系統(tǒng),但實(shí)際上我自己感覺(jué)在算法原理這塊幾乎都是想通的,每個(gè)部分都會(huì)有原理講解以及我的github代碼鏈接,看到的朋友請(qǐng)留個(gè)星鼓勵(lì)下?。?/p>