[轉(zhuǎn)載]如何在NLP領(lǐng)域第一次做成一件事

前言

自己也寫過一篇關(guān)于NLP研究領(lǐng)域的個(gè)人粗淺的理解與入門學(xué)習(xí)建議----吾愛NLP(3)—我對NLP的理解與學(xué)習(xí)建議,今日偶然發(fā)現(xiàn)了微軟亞研大佬的這篇文章,不僅介紹了NLP相關(guān)的各個(gè)研究領(lǐng)域以及入門實(shí)踐的路徑,還簡單的解讀了如何完成一篇學(xué)術(shù)論文,特此轉(zhuǎn)載希望對各位有幫助。

??

自然語言處理入門必讀

微軟亞洲研究院首席研究員 周明

微軟亞洲研究院首席研究員 周明

作者簡介

周明,微軟亞洲研究院首席研究員、ACL候任主席(president)、中國計(jì)算機(jī)學(xué)會中文信息技術(shù)專委會主任、中國中文信息學(xué)會常務(wù)理事、哈工大、天津大學(xué)、南開大學(xué)、山東大學(xué)等多所學(xué)校博士導(dǎo)師。1985年畢業(yè)于重慶大學(xué),1991年獲哈工大博士學(xué)位。1991-1993年清華大學(xué)博士后,隨后留校任副教授。1996-1999訪問日本高電社公司主持中日機(jī)器翻譯研究。他是中國第一個(gè)中英翻譯系統(tǒng)、日本最有名的中日機(jī)器翻譯產(chǎn)品J-北京的發(fā)明人。1999年加入微軟研究院并隨后負(fù)責(zé)自然語言研究組,主持研制了微軟輸入法、對聯(lián)、英庫詞典、中英翻譯等著名系統(tǒng)。近年來與微軟產(chǎn)品組合作開發(fā)了小冰(中國)、Rinna(日本)等聊天機(jī)器人系統(tǒng)。他發(fā)表了100余篇重要會議和期刊論文。擁有國際發(fā)明專利40余項(xiàng)。

image

自然語言處理(簡稱NLP),是研究計(jì)算機(jī)處理人類語言的一門技術(shù),包括:

1.句法語義分析:對于給定的句子,進(jìn)行分詞、詞性標(biāo)記、命名實(shí)體識別和鏈接、句法分析、語義角色識別和多義詞消歧。

2. 信息抽取:從給定文本中抽取重要的信息,比如,時(shí)間、地點(diǎn)、人物、事件、原因、結(jié)果、數(shù)字、日期、貨幣、專有名詞等等。通俗說來,就是要了解誰在什么時(shí)候、什么原因、對誰、做了什么事、有什么結(jié)果。涉及到實(shí)體識別、時(shí)間抽取、因果關(guān)系抽取等關(guān)鍵技術(shù)。

3.文本挖掘(或者文本數(shù)據(jù)挖掘):包括文本聚類、分類、信息抽取、摘要、情感分析以及對挖掘的信息和知識的可視化、交互式的表達(dá)界面。目前主流的技術(shù)都是基于統(tǒng)計(jì)機(jī)器學(xué)習(xí)的。

4.機(jī)器翻譯:把輸入的源語言文本通過自動(dòng)翻譯獲得另外一種語言的文本。根據(jù)輸入媒介不同,可以細(xì)分為文本翻譯、語音翻譯、手語翻譯、圖形翻譯等。機(jī)器翻譯從最早的基于規(guī)則的方法到二十年前的基于統(tǒng)計(jì)的方法,再到今天的基于神經(jīng)網(wǎng)絡(luò)(編碼-解碼)的方法,逐漸形成了一套比較嚴(yán)謹(jǐn)?shù)姆椒w系。

5.信息檢索:對大規(guī)模的文檔進(jìn)行索引??珊唵螌ξ臋n中的詞匯,賦之以不同的權(quán)重來建立索引,也可利用1,2,3的技術(shù)來建立更加深層的索引。在查詢的時(shí)候,對輸入的查詢表達(dá)式比如一個(gè)檢索詞或者一個(gè)句子進(jìn)行分析,然后在索引里面查找匹配的候選文檔,再根據(jù)一個(gè)排序機(jī)制把候選文檔排序,最后輸出排序得分最高的文檔。

6.問答系統(tǒng): 對一個(gè)自然語言表達(dá)的問題,由問答系統(tǒng)給出一個(gè)精準(zhǔn)的答案。需要對自然語言查詢語句進(jìn)行某種程度的語義分析,包括實(shí)體鏈接、關(guān)系識別,形成邏輯表達(dá)式,然后到知識庫中查找可能的候選答案并通過一個(gè)排序機(jī)制找出最佳的答案。

7.對話系統(tǒng):系統(tǒng)通過一系列的對話,跟用戶進(jìn)行聊天、回答、完成某一項(xiàng)任務(wù)。涉及到用戶意圖理解、通用聊天引擎、問答引擎、對話管理等技術(shù)。此外,為了體現(xiàn)上下文相關(guān),要具備多輪對話能力。同時(shí),為了體現(xiàn)個(gè)性化,要開發(fā)用戶畫像以及基于用戶畫像的個(gè)性化回復(fù)。

隨著深度學(xué)習(xí)在圖像識別、語音識別領(lǐng)域的大放異彩,人們對深度學(xué)習(xí)在NLP的價(jià)值也寄予厚望。再加上AlphaGo的成功,人工智能的研究和應(yīng)用變得炙手可熱。自然語言處理作為人工智能領(lǐng)域的認(rèn)知智能,成為目前大家關(guān)注的焦點(diǎn)。很多研究生都在進(jìn)入自然語言領(lǐng)域,寄望未來在人工智能方向大展身手。但是,大家常常遇到一些問題。俗話說,萬事開頭難。如果第一件事情成功了,學(xué)生就能建立信心,找到竅門,今后越做越好。否則,也可能就灰心喪氣,甚至離開這個(gè)領(lǐng)域。這里針對給出我個(gè)人的建議,希望我的這些粗淺觀點(diǎn)能夠引起大家更深層次的討論。

image

建議1:如何在NLP領(lǐng)域快速學(xué)會第一個(gè)技能?

我的建議是:找到一個(gè)開源項(xiàng)目,比如機(jī)器翻譯或者深度學(xué)習(xí)的項(xiàng)目。理解開源項(xiàng)目的任務(wù),編譯通過該項(xiàng)目發(fā)布的示范程序,得到與項(xiàng)目示范程序一致的結(jié)果。然后再深入理解開源項(xiàng)目示范程序的算法。自己編程實(shí)現(xiàn)一下這個(gè)示范程序的算法。再按照項(xiàng)目提供的標(biāo)準(zhǔn)測試集測試自己實(shí)現(xiàn)的程序。如果輸出的結(jié)果與項(xiàng)目中出現(xiàn)的結(jié)果不一致,就要仔細(xì)查驗(yàn)自己的程序,反復(fù)修改,直到結(jié)果與示范程序基本一致。如果還是不行,就大膽給項(xiàng)目的作者寫信請教。在此基礎(chǔ)上,再看看自己能否進(jìn)一步完善算法或者實(shí)現(xiàn),取得比示范程序更好的結(jié)果。

建議2:如何選擇第一個(gè)好題目?

工程型研究生,選題很多都是老師給定的。需要采取比較實(shí)用的方法,扎扎實(shí)實(shí)地動(dòng)手實(shí)現(xiàn)??赡懿恍枰嗌倮碚搫?chuàng)新,但是需要較強(qiáng)的實(shí)現(xiàn)能力和綜合創(chuàng)新能力。而學(xué)術(shù)型研究生需要取得一流的研究成果,因此選題需要有一定的創(chuàng)新。我這里給出如下的幾點(diǎn)建議。

  • 先找到自己喜歡的研究領(lǐng)域。你找到一本最近的ACL會議論文集, 從中找到一個(gè)你比較喜歡的領(lǐng)域。在選題的時(shí)候,多注意選擇藍(lán)海的領(lǐng)域。這是因?yàn)樗{(lán)海的領(lǐng)域,相對比較新,容易出成果。

  • 充分調(diào)研這個(gè)領(lǐng)域目前的發(fā)展?fàn)顩r。包括如下幾個(gè)方面的調(diào)研:方法方面,是否有一套比較清晰的數(shù)學(xué)體系和機(jī)器學(xué)習(xí)體系;數(shù)據(jù)方面,有沒有一個(gè)大家公認(rèn)的標(biāo)準(zhǔn)訓(xùn)練集和測試集;研究團(tuán)隊(duì),是否有著名團(tuán)隊(duì)和人士參加。如果以上幾個(gè)方面的調(diào)研結(jié)論不是太清晰,作為初學(xué)者可能不要輕易進(jìn)入。

  • 在確認(rèn)進(jìn)入一個(gè)領(lǐng)域之后,按照建議一所述,需要找到本領(lǐng)域的開源項(xiàng)目或者工具,仔細(xì)研究一遍現(xiàn)有的主要流派和方法,先入門。

  • 反復(fù)閱讀本領(lǐng)域最新發(fā)表的文章,多閱讀本領(lǐng)域牛人發(fā)表的文章。在深入了解已有工作的基礎(chǔ)上,探討還有沒有一些地方可以推翻、改進(jìn)、綜合、遷移。注意做實(shí)驗(yàn)的時(shí)候,不要貪多,每次實(shí)驗(yàn)只需要驗(yàn)證一個(gè)想法。每次實(shí)驗(yàn)之后,必須要進(jìn)行分析存在的錯(cuò)誤,找出原因。

  • 對成功的實(shí)驗(yàn),進(jìn)一步探討如何改進(jìn)算法。注意實(shí)驗(yàn)數(shù)據(jù)必須是業(yè)界公認(rèn)的數(shù)據(jù)。

  • 與已有的算法進(jìn)行比較,體會能夠得出比較一般性的結(jié)論。如果有,則去寫一篇文章,否則,應(yīng)該換一個(gè)新的選題。

image

建議3:如何寫出第一篇論文?

接上一個(gè)問題,如果想法不錯(cuò),且被實(shí)驗(yàn)所證明,就可開始寫第一篇論文了。

  • 確定論文的題目。在定題目的時(shí)候,一般不要“…系統(tǒng)”、“…研究與實(shí)踐”,要避免太長的題目,因?yàn)椴缓皿w現(xiàn)要點(diǎn)。題目要具體,有深度,突出算法。

  • 寫論文摘要。要突出本文針對什么重要問題,提出了什么方法,跟已有工作相比,具有什么優(yōu)勢。實(shí)驗(yàn)結(jié)果表明,達(dá)到了什么水準(zhǔn),解決了什么問題。

  • 寫引言。首先講出本項(xiàng)工作的背景,這個(gè)問題的定義,它具有什么重要性。然后介紹對這個(gè)問題,現(xiàn)有的方法是什么,有什么優(yōu)點(diǎn)。但是(注意但是)現(xiàn)有的方法仍然有很多缺陷或者挑戰(zhàn)。比如(注意比如),有什么問題。本文針對這個(gè)問題,受什么方法(誰的工作)之啟發(fā),提出了什么新的方法并做了如下幾個(gè)方面的研究。然后對每個(gè)方面分門別類加以敘述,最后說明實(shí)驗(yàn)的結(jié)論。再說本文有幾條貢獻(xiàn),一般寫三條足矣。然后說說文章的章節(jié)組織,以及本文的重點(diǎn)。有的時(shí)候東西太多,篇幅有限,只能介紹最重要的部分,不需要面面俱到。

  • 相關(guān)工作。對相關(guān)工作做一個(gè)梳理,按照流派劃分,對主要的最多三個(gè)流派做一個(gè)簡單介紹。介紹其原理,然后說明其局限性。

  • 然后可設(shè)立兩個(gè)章節(jié)介紹自己的工作。第一個(gè)章節(jié)是算法描述。包括問題定義,數(shù)學(xué)符號,算法描述。文章的主要公式基本都在這里。有時(shí)候要給出簡明的推導(dǎo)過程。如果借鑒了別人的理論和算法,要給出清晰的引文信息。在此基礎(chǔ)上,由于一般是基于機(jī)器學(xué)習(xí)或者深度學(xué)習(xí)的方法,要介紹你的模型訓(xùn)練方法和解碼方法。第二章就是實(shí)驗(yàn)環(huán)節(jié)。一般要給出實(shí)驗(yàn)的目的,要檢驗(yàn)什么,實(shí)驗(yàn)的方法,數(shù)據(jù)從哪里來,多大規(guī)模。最好數(shù)據(jù)是用公開評測數(shù)據(jù),便于別人重復(fù)你的工作。然后對每個(gè)實(shí)驗(yàn)給出所需的技術(shù)參數(shù),并報(bào)告實(shí)驗(yàn)結(jié)果。同時(shí)為了與已有工作比較,需要引用已有工作的結(jié)果,必要的時(shí)候需要重現(xiàn)重要的工作并報(bào)告結(jié)果。用實(shí)驗(yàn)數(shù)據(jù)說話,說明你比人家的方法要好。要對實(shí)驗(yàn)結(jié)果好好分析你的工作與別人的工作的不同及各自利弊,并說明其原因。對于目前尚不太好的地方,要分析問題之所在,并將其列為未來的工作。

  • 結(jié)論。對本文的貢獻(xiàn)再一次總結(jié)。既要從理論、方法上加以總結(jié)和提煉,也要說明在實(shí)驗(yàn)上的貢獻(xiàn)和結(jié)論。所做的結(jié)論,要讓讀者感到信服,同時(shí)指出未來的研究方向。

  • 參考文獻(xiàn)。給出所有重要相關(guān)工作的論文。記住,漏掉了一篇重要的參考文獻(xiàn)(或者牛人的工作),基本上就沒有被錄取的希望了。

  • 寫完第一稿,然后就是再改三遍。

  • 把文章交給同一個(gè)項(xiàng)目組的人士,請他們從算法新穎度、創(chuàng)新性和實(shí)驗(yàn)規(guī)模和結(jié)論方面,以挑剔的眼光,審核你的文章。自己針對薄弱環(huán)節(jié),進(jìn)一步改進(jìn),重點(diǎn)加強(qiáng)算法深度和工作創(chuàng)新性。

  • 然后請不同項(xiàng)目組的人士審閱。如果他們看不明白,說明文章的可讀性不夠。你需要修改篇章結(jié)構(gòu)、進(jìn)行文字潤色,增加文章可讀性。

  • 如投ACL等國際會議,最好再請英文專業(yè)或者母語人士提煉文字。

原文: 微軟亞洲研究院 -- 發(fā)布于 2016-11-24


我的博客即將搬運(yùn)同步至騰訊云+社區(qū),邀請大家一同入駐:https://cloud.tencent.com/developer/support-plan?invite_code=3mtmis547ccgw

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容