數(shù)學(xué)基礎(chǔ)
代數(shù)
比如矩陣的SVD、QR分解,矩陣逆的求解,正定矩陣、稀疏矩陣等特殊矩陣的一些處理方法和性質(zhì)等等。
大學(xué)的代數(shù)書一起學(xué)習(xí) 網(wǎng)上的各種公開課一起學(xué)習(xí) 國(guó)內(nèi)的一些開放學(xué)習(xí)平臺(tái) 國(guó)外的一些開放學(xué)習(xí)平臺(tái)
網(wǎng)易公開課的鏈接:https://c.open.163.com/search/search.htm?query=線性代數(shù)#/search/all
概率論
經(jīng)典的概率統(tǒng)計(jì)理論 貝葉斯概率統(tǒng)計(jì),貝葉斯概率統(tǒng)計(jì)可能更重要一些 比如樸素貝葉斯模型、隱馬爾卡模型、最大熵模型,這些我們?cè)谧匀徽Z(yǔ)言處理中耳熟能詳?shù)囊恍┧惴ǎ际秦惾~斯模型的一種延伸和實(shí)例。
統(tǒng)計(jì)學(xué)導(dǎo)論http://open.163.com/movie/2011/5/M/O/M807PLQMF_M80HQQGMO.html,貝葉斯統(tǒng)計(jì):https://www.springboard.com/blog/probability-bayes-theorem-data-science/
信息論
信息論作為一種衡量樣本純凈度的有效方法。對(duì)于刻畫兩個(gè)元素之間的習(xí)慣搭配程度非常有效。這個(gè)對(duì)于我們預(yù)測(cè)一個(gè)語(yǔ)素可能的成分(詞性標(biāo)注),成分的可能組成(短語(yǔ)搭配)非常有價(jià)值
同時(shí)這部分知識(shí)也是很多機(jī)器學(xué)習(xí)算法的核心,比如決策樹、隨機(jī)森林等以信息熵作為決策樁的一些算法。對(duì)于這部分知識(shí)的學(xué)習(xí),更多的是要理解各個(gè)熵的計(jì)算方法和優(yōu)缺點(diǎn),比如信息增益和信息增益率的區(qū)別,以及各自在業(yè)務(wù)場(chǎng)景中的優(yōu)缺點(diǎn)。http://open.163.com/special/opencourse/information.html。
代數(shù)→概率論→隨機(jī)過(guò)程
自然語(yǔ)言處理現(xiàn)狀
隨著知識(shí)圖譜在搜索領(lǐng)域的大獲成功,以及知識(shí)圖譜的推廣如火如荼地進(jìn)行中,現(xiàn)在的自然語(yǔ)言處理有明顯和知識(shí)圖譜結(jié)合的趨勢(shì)。特別是在特定領(lǐng)域的客服系統(tǒng)構(gòu)建中,這種趨勢(shì)就更明顯,因?yàn)檫@些系統(tǒng)往往要關(guān)聯(lián)很多領(lǐng)域的知識(shí),而這種知識(shí)的整合和表示,很適合用知識(shí)圖譜來(lái)解決。隨著知識(shí)圖譜基礎(chǔ)工程技術(shù)的完善和進(jìn)步,對(duì)于圖譜構(gòu)建的容易程度也大大提高,所以自然語(yǔ)言處理和知識(shí)圖譜的結(jié)合就越來(lái)越成為趨勢(shì)。
語(yǔ)義理解仍然是自然語(yǔ)言處理中一個(gè)難過(guò)的坎。目前各項(xiàng)自然語(yǔ)言處理技術(shù)基本已經(jīng)比較成熟,但是很多技術(shù)的效果還達(dá)不到商用的水平。特別是在語(yǔ)義理解方面,和商用還有比較大的差距。比如聊天機(jī)器人現(xiàn)在還很難做到正常的聊天水平。不過(guò)隨著各個(gè)研究機(jī)構(gòu)和企業(yè)的不斷努力,進(jìn)步也是飛速的,比如微軟小冰一直在不斷的進(jìn)步。
對(duì)于新的深度學(xué)習(xí)框架,目前在自然語(yǔ)言處理中的應(yīng)用還有待進(jìn)一步加深和提高。比如對(duì)抗學(xué)習(xí)、對(duì)偶學(xué)習(xí)等雖然在圖像處理領(lǐng)域得到了比較好的效果,但是在自然語(yǔ)言處理領(lǐng)域的效果就稍微差一些,這里面的原因是多樣的,因?yàn)闆](méi)有深入研究,就不敢妄言。
目前人機(jī)對(duì)話、問(wèn)答系統(tǒng)、語(yǔ)言翻譯是自然語(yǔ)言處理中的熱門領(lǐng)域,各大公司都有了自己的語(yǔ)音助手,這一塊也都在投入大量的精力在做。當(dāng)然這些上層的應(yīng)用,也都依賴于底層技術(shù)和模型的進(jìn)步,所以對(duì)于底層技術(shù)的研究應(yīng)該說(shuō)一直是熱門,在未來(lái)一段時(shí)間應(yīng)該也都還是熱門。之前聽一個(gè)教授講過(guò)一個(gè)故事,他是做parser的,開始的時(shí)候很火,后來(lái)一段時(shí)間因?yàn)檎麄€(gè)自然語(yǔ)言處理的效果差強(qiáng)人意,所以作為其中一個(gè)基礎(chǔ)工作的parser就隨之受到冷落,曾經(jīng)有段時(shí)間相關(guān)的期刊會(huì)議會(huì)員銳減,但是最近整個(gè)行業(yè)的升溫,這部分工作也隨之而受到重視。不過(guò)因?yàn)樗恢眻?jiān)持在這個(gè)領(lǐng)域,所以建樹頗豐,最近也成為熱門領(lǐng)域和人物。