自然語言處理概述

一.nlp的主要應用與基礎(chǔ)技術(shù)(個人總結(jié))

應用:

1.翻譯(已經(jīng)做得比較很不錯了,但是實時翻譯還有所不足)***

2.對話(還有非常對的技術(shù)壁壘,可做的東西很多)***

3.文本數(shù)據(jù)挖掘(eg,情感分析,kaggle競賽之雙高預測)

4.信息檢索(eg,百度搜索)

5.文本生成,寫詩,寫事件報道(一場比賽結(jié)束,比賽的信息存在一個數(shù)據(jù)庫里。還有現(xiàn)場直播的解說詞,通過時間軸可以找到對應關(guān)系。那現(xiàn)在,一場足球比賽結(jié)束,馬上就要一個體育報道,這個報道就能形成。報道的文字出來之后,還要自動找圖片配上去,這就涉及到選哪個圖片是最好的,配完圖片就形成一個完整體育報道。)

6.其他,如會議系統(tǒng),如篩選簡歷(信息抽?。?,word里語法檢查等

如果是語音信號,在使用nlp之前,需要做語音信號處理(個人理解),下圖來自于騰訊犀牛鳥計劃:

用到的最基礎(chǔ)的技術(shù):

分詞(中文分詞常用jieba,https://blog.csdn.net/flysky1991/article/details/73948971),文本特征提取(把字符串、文本轉(zhuǎn)化為機器學習模型可處理的數(shù)值特征:TfidfVectorizer),文本相似度計算(常用于信息檢索、數(shù)據(jù)挖掘、機器翻譯等,https://blog.csdn.net/flysky1991/article/details/72786820).......

二.關(guān)鍵的幾個問題(摘自msra周明的北大公開課)

(一)有了大數(shù)據(jù)、神經(jīng)網(wǎng)絡、不斷完善的網(wǎng)絡結(jié)構(gòu)、云計算、落地場景、未來的NLP會發(fā)展的越來越好。有幾點預測:

1、未來的口語機器翻譯一定是普及的,出國的語言交流將不是問題;

2、聊天系統(tǒng)越來越實用;

3、電腦創(chuàng)作詩詞,小說,歌曲將會流行起來;

4、語音助手,物聯(lián)網(wǎng),智能家居,智能硬件等等都會因為自然語言的發(fā)展而普及起來;

5、與其他AI技術(shù)一起再金融、法律、教育、醫(yī)療上得到廣泛應用。

整體上人工智能會提升人的生活質(zhì)量,普惠所有人,因此我認為自然語言是未來的一個很好的方向。

(二)自然語言領(lǐng)域還有哪些的題目還能選呢?

神經(jīng)網(wǎng)絡機器翻譯還可以在做,例如生詞、篇章級的處理還不好,而且領(lǐng)域遷移做的不好,這些領(lǐng)域還可以進一步研究。第二個思路,用小數(shù)據(jù)集來訓練機器翻譯系統(tǒng)。

第二個方向,針對問答系統(tǒng)(QA),除了可以針對知識庫來做,還可以無結(jié)構(gòu)的文本集,表格圖片。第二個和QA有關(guān)的是語義分析。

第三個方向是多輪對話,如何更好地建模上下文,甚至用戶的不同時期的回復來生成好的回復。

最后還有很多跨學科跨領(lǐng)域的地方,例如歌曲創(chuàng)作等等。

而未來創(chuàng)業(yè)呢?主要考慮場景,先從市場需求出發(fā),反推需要的技術(shù)。需要大家了解市場,可以通過在公司實習,了解實際需求,來反思學校學到的東西,哪些是用的上的,哪些還不行。也許可以發(fā)現(xiàn)我們未來創(chuàng)業(yè)的機會。

(三)視頻現(xiàn)在是現(xiàn)象級的事件,發(fā)展很強勁,那么關(guān)于視頻,它和自然語言怎么結(jié)合,未來會爆發(fā)出哪些和自然語言有關(guān)的應用場景?

現(xiàn)在的趨勢是圖文結(jié)合越來越緊密,一個圖用關(guān)鍵詞和一段話進行描述,而視頻也是一樣的,這方面的研究是方興未艾,沒有做的很好,假設這個技術(shù)越來越好的情況下,就能產(chǎn)生很多應用。

把物理和數(shù)字聯(lián)系起來,例如用照相機對實物拍照時,電腦已經(jīng)知道這個圖景的屬性,將這些屬性再經(jīng)過自然語言處理,就可以自動的翻譯識別,生成一個可視化報告,可以完全聯(lián)動起來。

我們可以設想一個照相機的場景,照相機照完后,自動將圖片的一系列信息展示出來,而處理對一系列時序圖片,就相當于是對視頻的處理,我們就能知道視頻出現(xiàn)的人物、物體和事件等等,可以得到文字描述。將來或許也我們也就可以是輸入一段文字,通過圖或者一小段視頻表達出來,這樣圖文的互相轉(zhuǎn)化會產(chǎn)生新的的機會。

(四)現(xiàn)在已經(jīng)有很多團隊開始視頻理解方面做研究,未來根據(jù)圖片,文字生成視頻這款,您感覺會需要多少時間?

這首先要有數(shù)據(jù)集,這些數(shù)據(jù)應該是有一個視頻或者圖片對應的描寫是什么,但目前來看這方面數(shù)據(jù)還不夠,而為了廣泛的應用,我們需要對常見的視頻情景做各種人工數(shù)據(jù)采集。基于這個,再進行神經(jīng)網(wǎng)絡的編解碼訓練,所以我猜測,如果有數(shù)據(jù)集,三年之內(nèi)常見的圖文轉(zhuǎn)化的應用都會被做掉。

(五)相關(guān)技術(shù)

自然語言的這些研究也不是孤立的,實際上它的周圍有一些支撐技術(shù),比如說用戶畫像?;谟脩舢嬒?,可以提供個性化的服務。

云計算使得訓練速度加快,并且很容易的部署,然后機器學習和深度學習,在數(shù)據(jù)提供的條件下,自動學習其中的知識、建模,然后部署到真正的系統(tǒng)里面。

還有是知識圖譜,包含具體領(lǐng)域的一些知識圖譜,比如說金融領(lǐng)域的,或者是常識意義上的知識圖譜。

所有這些技術(shù)綜合起來,使自然語言的任務做得更好。


三.參考資料(行業(yè)概述,不涉及具體技術(shù)細節(jié))

強烈推薦:

周明的北大公開課(視頻):https://c.m.163.com/news/l/180148.html?from=special

周明的北大公開課(文字版精華):http://mp.weixin.qq.com/s?__biz=MzUxMDc1Mzc0MA==&mid=100000542&idx=5&sn=8305be3e1fba0ef7ba3ea383b3ade6c8&chksm=797f6dbd4e08e4ab3c61b5e537849f7f918725042d724a99f3f77a6347b7a221fb7f53ae0d6e&mpshare=1&scene=23&srcid=0724fGB6p9zRc1IRmuHul8Mi#rd

推薦:

知乎內(nèi)容——國內(nèi)有哪些自然語言處理的牛人或團隊?:https://www.zhihu.com/question/24366306

國內(nèi)頂尖的nlp實驗室——哈工大scir(劉挺老師團隊):http://ir.hit.edu.cn/

國內(nèi)頂尖的nlp實驗室——中科院自動化所宗成慶教授團隊:http://www.nlpr.ia.ac.cn/cip/introduction.htm

哈工大劉挺教授——自然語言處理的十個發(fā)展趨勢:http://www.sohu.com/a/163571379_633698

知乎內(nèi)容——自然語言處理怎么最快入門?:https://www.zhihu.com/question/19895141

十分鐘學習自然語言處理概述:http://www.cnblogs.com/baiboy/p/learnnlp.html

我愛自然語言處理:http://www.52nlp.cn/

北京大學中文系應用語言學專業(yè):http://ccl.pku.edu.cn/all/info.asp?item=2&page=1&expand=6

李航——NLP有5個基本問題,深度學習有4個做得很好:https://www.toutiao.com/i6410689995593482754/

李航的北大公開課(視頻):https://c.m.163.com/news/l/177303.html?from=special

李航的北大公開課(文字版精華):http://mp.weixin.qq.com/s?__biz=MzUxMDc1Mzc0MA==&mid=100000542&idx=3&sn=788fa22a48697d5fb9fcd4e501b6ca74&chksm=797f6dbd4e08e4ab51914d3489dcde38557da37fd64339f67178ca32dbea188a286faba3b5e2&mpshare=1&scene=23&srcid=0724RLmOk8kpaFF3bwKDj5uh#rd

自然語言處理技術(shù)(NLP)在推薦系統(tǒng)中的應用:https://blog.csdn.net/heyc861221/article/details/80130263

騰訊犀牛鳥計劃:https://ur.tencent.com/article/235

概述:http://ccl.pku.edu.cn/alcourse/nlp/LectureNotes/Chapter_01.pdf

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。

相關(guān)閱讀更多精彩內(nèi)容

  • References: 《speech and language processing 》2nd & 3rd 《統(tǒng)...
    藝術(shù)叔閱讀 7,954評論 1 8
  • 1.如何對待情緒。 當你們不再把注意力放在外在環(huán)境,而是放在自己的反應和痛苦上時,就不會再把外在世界當成情緒...
    xiaomianger閱讀 762評論 0 0
  • 在這樣的環(huán)境下寫字是相當舒服的!至少這樣的光線是我喜歡的,特意搞了個臺燈放著,這個光線很是舒服! 寫寫東西,思考一...
    景德鎮(zhèn)的故事閱讀 118評論 0 2
  • 她在高中待了兩年,因為學習跟不上決定轉(zhuǎn)學。同學們很舍不得她,因為她在每個人的心中,都是一個活潑開朗,陽光向上又溫...
    闌塵閱讀 270評論 5 2

友情鏈接更多精彩內(nèi)容