NLP是什么呢?
1.語言是生物同類之間由于溝通需要而制定的具有統(tǒng)一編碼解碼標準的聲音(圖像)指令。包含手勢、表情、語音等肢體語言,文字是顯像符號。
2.自然語言通常是指一種自然地隨文化演化的語言。例如英語、漢語、日語等。有別于人造語言,例如世界語、編程語言等。
3.自然語言處理包括自然語言理解和自然語言生成。自然語言理解是將自然語言變成計算機能夠理解的語言,及非結(jié)構(gòu)化文本轉(zhuǎn)變?yōu)榻Y(jié)構(gòu)化信息。
4.NLP的 四大經(jīng)典“AI 完全 ” 難題:問答、復述、文摘、翻譯,只要解決其中一個,另外三個就都解決了。問答就是讓機器人很開放的回答你提的各種各樣問題,就像真人一樣;復述是讓機器用另外一種方式表達出來;文摘就是告訴你一篇很長的文章,讓你寫一個100字的文摘,把它做出來是非常難做的;翻譯也是很困難的,英語思維方式和中文思維方式轉(zhuǎn)換過來,中間會涉及到很多復雜的問題。
圖為整個自然語言處理平臺最核心的框圖,底層是各種各樣的基礎數(shù)據(jù),中間層包含基本的詞法分析、句法分析、語義分析、文檔分析,還有其他各種各樣跟深度學習相關的一些技術;上層是自然語言處理能夠直接掌控和變革的一些算法和業(yè)務,比如內(nèi)容搜索、內(nèi)容推薦、評價、問答、文摘、文本理解等等一系列問題,最上層我們直接支持大業(yè)務的單元,比如商品搜索、推薦、智能交互、翻譯。商業(yè)翻譯和普通機器翻譯是不一樣的,還有廣告、風控、輿情監(jiān)控等等。這個層次結(jié)構(gòu)是比較傳統(tǒng)的方式,為了讓我們平臺具有非常好的落地能力,右邊有一列平臺工程,專門解決如何讓算法能夠快速的用到業(yè)務里面去。
NLP算法歸類整理
下面對我們的算法做一些比較簡單的舉例。
1.詞法分析(分詞、詞性、實體):
–算法:基于Bi-LSTM-CRF算法體系,以及豐富的多領域詞表
–應用:優(yōu)酷、YunOS、螞蟻金服、推薦算法、資訊搜索等
2.句法分析(依存句法分析、成分句法分析):
–算法:Shift-reduce,graph-based,Bi-LSTM
–新聞領域、商品評價、商品標題、搜索Query
–應用:資訊搜索、評價情感分析
3.情感分析(情感對象、情感屬性、情感屬性關聯(lián)):
–算法:情感詞典挖掘,屬性級、句子級、篇章級情感分析
–應用:商品評價、商品問答、品牌輿情、互聯(lián)網(wǎng)輿情
4.句子生成(句子可控改寫、句子壓縮):
–算法:Beam Search、Seq2Seq+Attention
–應用:商品標題壓縮,資訊標題改寫,PUSH消息改寫
5.句子相似度(淺層相似度、語義相似度):
–算法:Edit Distance,Word2Vec,DSSM
–應用:問大家相似問題、商品重發(fā)檢測、影視作品相似等
6.文本分類/聚類(垃圾防控、信息聚合):
–算法:ME,SVM,F(xiàn)astText
–應用:商品類目預測、問答意圖分析、文本垃圾過濾、輿情聚類、名片OCR后語義識別等
7.文本表示(詞向量、句子向量、篇章向量、Seq2Seq):
–Word2Vec、LSTM、DSSM、Seq2Seq為基礎進行深入研究
8.知識庫
–數(shù)據(jù)規(guī)模:電商同義詞,通用同義詞,電商上下位,通用上下位,領域詞庫(電商詞、娛樂領域詞、通用實體詞),情感詞庫
–挖掘算法:bootstrapping,click-through mining,word2vec,k-means,CRF
–應用:語義歸一、語義擴展、Query理解、意圖理解、情感分析
9.語料庫
–分詞、詞性標注數(shù)據(jù),依存句法標注數(shù)據(jù)
有這樣一句話叫“我要買秋天穿的紅色連衣裙”,這句是電商領域中比較常見的,詞法分析結(jié)果會把中間“我要”拆開。分詞要分的很準,它不是每個單字都是一個詞,比如秋天是一個詞,連衣裙是一個詞。下面這一層標簽是對應的詞性。上面這一層就是句子樹型結(jié)構(gòu),它會比較深入的把句子比較深度的結(jié)構(gòu)化。只有把它結(jié)構(gòu)化之后才能導到數(shù)據(jù)庫里面去,才能做后續(xù)的各種機器學習研究和應用,這種叫結(jié)構(gòu)句法分析。