[自翻譯][機(jī)器學(xué)習(xí)]機(jī)器學(xué)習(xí)與文本分析

本文首次發(fā)表于譯言網(wǎng),翻譯自Technet.com,為[機(jī)器學(xué)習(xí)]系列文章之一。
發(fā)表地址:http://article.yeeyan.org/view/propiram/442378

下面這篇文章來(lái)自微軟研究院的杰出科學(xué)家Ashok Chandra博士和項(xiàng)目經(jīng)理Dhyanesh Narayanan。

在上個(gè)世紀(jì)七十年代,我(Ashok)是一名在斯坦福大學(xué)人工智能實(shí)驗(yàn)室的學(xué)生,那時(shí)大家樂(lè)觀地認(rèn)為,達(dá)到人類(lèi)水平的機(jī)器智能指日可待。好吧,它現(xiàn)在仍然還只是指日可待的狀態(tài)。與此同時(shí),計(jì)算機(jī)卻得益于運(yùn)用機(jī)器學(xué)習(xí)技術(shù)(ML),能力愈發(fā)強(qiáng)大。正是這樣,現(xiàn)如今,幾乎在微軟創(chuàng)造的所有新產(chǎn)品都使用了某種程度的機(jī)器學(xué)習(xí)技術(shù)來(lái)分析語(yǔ)音、數(shù)據(jù)或文本。本文我們將著眼于文本分析。

隨著計(jì)算機(jī)能夠更好地理解自然語(yǔ)言,開(kāi)拓的新領(lǐng)域無(wú)處不在——優(yōu)化的應(yīng)用程序的用戶界面、更出色的搜索引擎、如Cortana和Siri這樣的私人助理,以及推算給定文檔所含內(nèi)容的工具。例如,如果一個(gè)新聞網(wǎng)站文章中的相關(guān)人物,可以基于算法被鏈接至維基百科(或其它合適的數(shù)據(jù)庫(kù)),從而便于讀者獲取關(guān)于那些人的更多信息,那么這個(gè)新聞網(wǎng)站的使用體驗(yàn)便能更為出色。此外,通過(guò)在文本中添加標(biāo)記,人們還能確定文章所談及的具體實(shí)體(比如運(yùn)動(dòng)員、團(tuán)隊(duì)等),如圖1所示:

圖 1 文本分析激勵(lì)方案
圖 1 文本分析激勵(lì)方案

文本分析一直是科學(xué)研究的活躍領(lǐng)域之一,并將繼續(xù)蓬勃發(fā)展。畢竟,創(chuàng)建一個(gè)人類(lèi)所有知識(shí)(以文本形式)的語(yǔ)義模型絕非易事。追溯到上個(gè)世紀(jì)90年代,Brill標(biāo)記技術(shù)[1]雖能確定句子中的詞類(lèi),但[2]這樣的早期工作僅能給新工作起到一個(gè)提示作用。微軟研究院在這項(xiàng)科技領(lǐng)域,一直活躍于創(chuàng)造各種新思路,但出于為了創(chuàng)造生產(chǎn)級(jí)技術(shù)這樣實(shí)用性的考慮,我們?cè)诟钊胙芯繒r(shí)對(duì)新興科學(xué)進(jìn)行了取舍。

在這篇博客日志中,我們?yōu)槟愫?jiǎn)單介紹,通過(guò)使用NER(命名實(shí)體識(shí)別技術(shù))作為一個(gè)參考點(diǎn),機(jī)器學(xué)習(xí)技術(shù)是如何應(yīng)用于文本分析的。作為一個(gè)提供交鑰匙機(jī)器學(xué)習(xí)功能的平臺(tái),微軟Azure ML(Azure機(jī)器學(xué)習(xí))包括通用的文本分析功能,尤其支持NER技術(shù)——因此我們運(yùn)用它將通用理念到特定的設(shè)計(jì)決策進(jìn)行連接。

NER技術(shù)能夠?qū)ξ谋局兴玫娜恕?chǎng)所、組織、球隊(duì)等內(nèi)容進(jìn)行確定。讓我們簡(jiǎn)單看一下運(yùn)用“監(jiān)督式學(xué)習(xí)”(supervised learning)的方法,我們是如何解決這個(gè)問(wèn)題的。

圖2 命名實(shí)體識(shí)別的工作流
圖2 命名實(shí)體識(shí)別的工作流

在設(shè)計(jì)時(shí)期或“學(xué)習(xí)時(shí)期”,系統(tǒng)運(yùn)用訓(xùn)練數(shù)據(jù)來(lái)創(chuàng)建一個(gè)模型,確定學(xué)習(xí)內(nèi)容。對(duì)系統(tǒng)而言,這個(gè)方案從一小組處理任意新文本的范本概括出來(lái)。

訓(xùn)練數(shù)據(jù)由需學(xué)習(xí)的命名實(shí)體而經(jīng)過(guò)人工標(biāo)注的標(biāo)簽所組成。它可能看起來(lái)像這樣:“當(dāng)(球員)Chris Bosh勝過(guò)他人,(球隊(duì))邁阿密熱火就會(huì)成為主宰?!敝档闷诖幵谟?,一個(gè)擁有學(xué)習(xí)其他范本功能的模型,將可以被訓(xùn)練來(lái)識(shí)別新輸入文本中的“球員”實(shí)體和“球隊(duì)”實(shí)體。

設(shè)計(jì)時(shí)期工作流的效果取決于特質(zhì)提?。‵eature Extraction)階段——設(shè)計(jì)的功能所耗費(fèi)的努力越多,通常得到的模型便會(huì)越為強(qiáng)大。比如,局部上下文和一段文字[say, the previous k words and next k words]中的一個(gè)單詞相關(guān)聯(lián),這個(gè)強(qiáng)大的功能便相當(dāng)于我們?nèi)祟?lèi)使用它來(lái)用單詞關(guān)聯(lián)實(shí)體。例如,“San Francisco beat the Cardinals in an intense match yesterday”(San Francisco在昨日激烈的比賽中擊敗Cardinals)這句話中,顯然從上下文中可以知,這里的“San Francisco”是指一個(gè)球隊(duì)(即舊金山巨人隊(duì)),而不是指舊金山這座城市。大寫(xiě)形式是另一個(gè)有用的功能,在識(shí)別如“People”(人)或“Location”(地點(diǎn))等被命名的實(shí)體方面很有幫助。

模型訓(xùn)練,即生成好的模型,同樣是機(jī)器學(xué)習(xí)的內(nèi)容。它通常是由選定的特色功能經(jīng)過(guò)復(fù)雜組合而來(lái)。有一些機(jī)器學(xué)習(xí)技術(shù)是可利用的,包括感知器、條件隨機(jī)域(CRF)等技術(shù)。技術(shù)的選擇取決于,在訓(xùn)練數(shù)據(jù)、處理速度和需同時(shí)學(xué)習(xí)而互異的命名實(shí)體的數(shù)量都有限的條件下,這個(gè)模型能夠變得有多準(zhǔn)確。例如Azure ML NER(Azure機(jī)器學(xué)習(xí)命名實(shí)體識(shí)別技術(shù))模塊便默認(rèn)支持三種實(shí)體類(lèi)型,即People(人)、Places(地點(diǎn))和Organizations(組織)。

運(yùn)行時(shí)期工作流的目標(biāo)是獲取未標(biāo)記的輸入文本,和生成由設(shè)計(jì)時(shí)期創(chuàng)建的模型所識(shí)別的實(shí)體相對(duì)應(yīng)的輸出文本。正如觀察所示,運(yùn)行時(shí)期工作流反復(fù)使用設(shè)計(jì)時(shí)期工作流的特征提取模塊——因此,如果一個(gè)應(yīng)用程序需要高吞吐量的實(shí)體識(shí)別,便不得不在管道線中提供相對(duì)量輕且價(jià)值高的功能。若舉例說(shuō)明的話,Azure ML NER模塊使用了一小組易于計(jì)算的功能,它主要基于局部上下文本,事實(shí)也證明這非常有效。處理過(guò)程中出現(xiàn)歧義之處,使用如Viterbi譯碼的技術(shù)為輸入單詞序列分配實(shí)體標(biāo)簽,問(wèn)題常常便得以解決。

必須認(rèn)識(shí)到NER技術(shù)只是一個(gè)開(kāi)始,然而也是從原始文本中抓取“知識(shí)”的重要的第一步。這篇近期發(fā)布的博客文章描述了NER技術(shù)與一系列相關(guān)技術(shù)結(jié)合后,在Bing的體育App中,是如何激發(fā)出用戶的興趣,提高用戶體驗(yàn)的——并且你可以在Azure ML中使用一模一樣的NER堆棧功能。NER技術(shù)之外,一般自然語(yǔ)言的解析、鏈接和突出,情感分析,事實(shí)提取等等,都是附加步驟來(lái)增強(qiáng)基于內(nèi)容的應(yīng)用程序用戶體驗(yàn),而這些附加的額外技術(shù)正可以在“活用”你的文本上助你一臂之力。

我們希望你能喜歡這篇文章,并期待著您的意見(jiàn)。

參考文獻(xiàn)
[1] Eric Brill, 1992, A simple rule-based part of speech tagger, Applied natural language processing (ANLC ’92)
[2] Li Deng, Dong Yu, 2014, Deep Learning: Methods and Applications
本文由微軟研究院提供,授權(quán)譯言進(jìn)行翻譯,非商業(yè)轉(zhuǎn)載請(qǐng)注明譯者、來(lái)源,未經(jīng)許可不得商業(yè)使用。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容