一.nlp的主要應用與基礎(chǔ)技術(shù)(個人總結(jié))
應用:
1.翻譯(已經(jīng)做得比較很不錯了,但是實時翻譯還有所不足)***
2.對話(還有非常對的技術(shù)壁壘,可做的東西很多)***
3.文本數(shù)據(jù)挖掘(eg,情感分析,kaggle競賽之雙高預測)
4.信息檢索(eg,百度搜索)
5.文本生成,寫詩,寫事件報道(一場比賽結(jié)束,比賽的信息存在一個數(shù)據(jù)庫里。還有現(xiàn)場直播的解說詞,通過時間軸可以找到對應關(guān)系。那現(xiàn)在,一場足球比賽結(jié)束,馬上就要一個體育報道,這個報道就能形成。報道的文字出來之后,還要自動找圖片配上去,這就涉及到選哪個圖片是最好的,配完圖片就形成一個完整體育報道。)
6.其他,如會議系統(tǒng),如篩選簡歷(信息抽?。?,word里語法檢查等
如果是語音信號,在使用nlp之前,需要做語音信號處理(個人理解),下圖來自于騰訊犀牛鳥計劃:

用到的最基礎(chǔ)的技術(shù):
分詞(中文分詞常用jieba,https://blog.csdn.net/flysky1991/article/details/73948971),文本特征提取(把字符串、文本轉(zhuǎn)化為機器學習模型可處理的數(shù)值特征:TfidfVectorizer),文本相似度計算(常用于信息檢索、數(shù)據(jù)挖掘、機器翻譯等,https://blog.csdn.net/flysky1991/article/details/72786820).......

二.關(guān)鍵的幾個問題(摘自msra周明的北大公開課)
(一)有了大數(shù)據(jù)、神經(jīng)網(wǎng)絡、不斷完善的網(wǎng)絡結(jié)構(gòu)、云計算、落地場景、未來的NLP會發(fā)展的越來越好。有幾點預測:
1、未來的口語機器翻譯一定是普及的,出國的語言交流將不是問題;
2、聊天系統(tǒng)越來越實用;
3、電腦創(chuàng)作詩詞,小說,歌曲將會流行起來;
4、語音助手,物聯(lián)網(wǎng),智能家居,智能硬件等等都會因為自然語言的發(fā)展而普及起來;
5、與其他AI技術(shù)一起再金融、法律、教育、醫(yī)療上得到廣泛應用。
整體上人工智能會提升人的生活質(zhì)量,普惠所有人,因此我認為自然語言是未來的一個很好的方向。
(二)自然語言領(lǐng)域還有哪些的題目還能選呢?
神經(jīng)網(wǎng)絡機器翻譯還可以在做,例如生詞、篇章級的處理還不好,而且領(lǐng)域遷移做的不好,這些領(lǐng)域還可以進一步研究。第二個思路,用小數(shù)據(jù)集來訓練機器翻譯系統(tǒng)。
第二個方向,針對問答系統(tǒng)(QA),除了可以針對知識庫來做,還可以無結(jié)構(gòu)的文本集,表格圖片。第二個和QA有關(guān)的是語義分析。
第三個方向是多輪對話,如何更好地建模上下文,甚至用戶的不同時期的回復來生成好的回復。
最后還有很多跨學科跨領(lǐng)域的地方,例如歌曲創(chuàng)作等等。
而未來創(chuàng)業(yè)呢?主要考慮場景,先從市場需求出發(fā),反推需要的技術(shù)。需要大家了解市場,可以通過在公司實習,了解實際需求,來反思學校學到的東西,哪些是用的上的,哪些還不行。也許可以發(fā)現(xiàn)我們未來創(chuàng)業(yè)的機會。
(三)視頻現(xiàn)在是現(xiàn)象級的事件,發(fā)展很強勁,那么關(guān)于視頻,它和自然語言怎么結(jié)合,未來會爆發(fā)出哪些和自然語言有關(guān)的應用場景?
現(xiàn)在的趨勢是圖文結(jié)合越來越緊密,一個圖用關(guān)鍵詞和一段話進行描述,而視頻也是一樣的,這方面的研究是方興未艾,沒有做的很好,假設這個技術(shù)越來越好的情況下,就能產(chǎn)生很多應用。
把物理和數(shù)字聯(lián)系起來,例如用照相機對實物拍照時,電腦已經(jīng)知道這個圖景的屬性,將這些屬性再經(jīng)過自然語言處理,就可以自動的翻譯識別,生成一個可視化報告,可以完全聯(lián)動起來。
我們可以設想一個照相機的場景,照相機照完后,自動將圖片的一系列信息展示出來,而處理對一系列時序圖片,就相當于是對視頻的處理,我們就能知道視頻出現(xiàn)的人物、物體和事件等等,可以得到文字描述。將來或許也我們也就可以是輸入一段文字,通過圖或者一小段視頻表達出來,這樣圖文的互相轉(zhuǎn)化會產(chǎn)生新的的機會。
(四)現(xiàn)在已經(jīng)有很多團隊開始視頻理解方面做研究,未來根據(jù)圖片,文字生成視頻這款,您感覺會需要多少時間?
這首先要有數(shù)據(jù)集,這些數(shù)據(jù)應該是有一個視頻或者圖片對應的描寫是什么,但目前來看這方面數(shù)據(jù)還不夠,而為了廣泛的應用,我們需要對常見的視頻情景做各種人工數(shù)據(jù)采集。基于這個,再進行神經(jīng)網(wǎng)絡的編解碼訓練,所以我猜測,如果有數(shù)據(jù)集,三年之內(nèi)常見的圖文轉(zhuǎn)化的應用都會被做掉。
(五)相關(guān)技術(shù)
自然語言的這些研究也不是孤立的,實際上它的周圍有一些支撐技術(shù),比如說用戶畫像?;谟脩舢嬒?,可以提供個性化的服務。
云計算使得訓練速度加快,并且很容易的部署,然后機器學習和深度學習,在數(shù)據(jù)提供的條件下,自動學習其中的知識、建模,然后部署到真正的系統(tǒng)里面。
還有是知識圖譜,包含具體領(lǐng)域的一些知識圖譜,比如說金融領(lǐng)域的,或者是常識意義上的知識圖譜。
所有這些技術(shù)綜合起來,使自然語言的任務做得更好。
三.參考資料(行業(yè)概述,不涉及具體技術(shù)細節(jié))
強烈推薦:
周明的北大公開課(視頻):https://c.m.163.com/news/l/180148.html?from=special
周明的北大公開課(文字版精華):http://mp.weixin.qq.com/s?__biz=MzUxMDc1Mzc0MA==&mid=100000542&idx=5&sn=8305be3e1fba0ef7ba3ea383b3ade6c8&chksm=797f6dbd4e08e4ab3c61b5e537849f7f918725042d724a99f3f77a6347b7a221fb7f53ae0d6e&mpshare=1&scene=23&srcid=0724fGB6p9zRc1IRmuHul8Mi#rd
推薦:
知乎內(nèi)容——國內(nèi)有哪些自然語言處理的牛人或團隊?:https://www.zhihu.com/question/24366306
國內(nèi)頂尖的nlp實驗室——哈工大scir(劉挺老師團隊):http://ir.hit.edu.cn/
國內(nèi)頂尖的nlp實驗室——中科院自動化所宗成慶教授團隊:http://www.nlpr.ia.ac.cn/cip/introduction.htm
哈工大劉挺教授——自然語言處理的十個發(fā)展趨勢:http://www.sohu.com/a/163571379_633698
知乎內(nèi)容——自然語言處理怎么最快入門?:https://www.zhihu.com/question/19895141
十分鐘學習自然語言處理概述:http://www.cnblogs.com/baiboy/p/learnnlp.html
我愛自然語言處理:http://www.52nlp.cn/
北京大學中文系應用語言學專業(yè):http://ccl.pku.edu.cn/all/info.asp?item=2&page=1&expand=6
李航——NLP有5個基本問題,深度學習有4個做得很好:https://www.toutiao.com/i6410689995593482754/
李航的北大公開課(視頻):https://c.m.163.com/news/l/177303.html?from=special
李航的北大公開課(文字版精華):http://mp.weixin.qq.com/s?__biz=MzUxMDc1Mzc0MA==&mid=100000542&idx=3&sn=788fa22a48697d5fb9fcd4e501b6ca74&chksm=797f6dbd4e08e4ab51914d3489dcde38557da37fd64339f67178ca32dbea188a286faba3b5e2&mpshare=1&scene=23&srcid=0724RLmOk8kpaFF3bwKDj5uh#rd
自然語言處理技術(shù)(NLP)在推薦系統(tǒng)中的應用:https://blog.csdn.net/heyc861221/article/details/80130263
騰訊犀牛鳥計劃:https://ur.tencent.com/article/235
概述:http://ccl.pku.edu.cn/alcourse/nlp/LectureNotes/Chapter_01.pdf