連載 | 2.1 對(duì)話系統(tǒng)專業(yè)術(shù)語科普

歡迎來到我們的第二節(jié)課,對(duì)話系統(tǒng)專業(yè)術(shù)語科普。

我們之前說過要搭建一個(gè)對(duì)話系統(tǒng),在對(duì)話系統(tǒng)中有很多非常專業(yè)術(shù)語。

今天我會(huì)把常用的術(shù)語給大家做一個(gè)解釋,同時(shí)介紹一下他們?cè)谑裁礃拥膱?chǎng)景下會(huì)被用到和對(duì)話系統(tǒng)的評(píng)價(jià)標(biāo)準(zhǔn)。

image

單輪對(duì)話

簡單來說它就是一問一答,問題用一句話去描述,回答可能用幾句話或者一段文字去回答,不依賴于上下文。

比如我問什么是經(jīng)停航班,那機(jī)器人就會(huì)在它的數(shù)據(jù)庫里去尋找什么是經(jīng)停航班,并做一個(gè)介紹。一般這樣的問答依賴于數(shù)據(jù)庫,專業(yè)一點(diǎn)說是知識(shí)庫。機(jī)器人從知識(shí)庫里檢索到相似的問題并給出答案。

單輪對(duì)話有3個(gè)評(píng)價(jià)指標(biāo):

1.******召回率**

2. 準(zhǔn)確率

3. 問題解決率

image

召回率等于機(jī)器人能回答的問題數(shù)量除以總共的問題數(shù)量,機(jī)器人能回答的數(shù)量越高,它的召回率就越高。

如果會(huì)話的召回率非常低,通常有2種情況:

  • 1. 我們知識(shí)庫里面的問答對(duì)太少,解決辦法就是完善知識(shí)庫,塞更多的問答對(duì)進(jìn)去,這樣機(jī)器人就會(huì)越來越聰明。所以,單輪對(duì)話的系統(tǒng)上線之后,我們也是在反復(fù)的迭代優(yōu)化,讓知識(shí)庫里面的問答對(duì)越來越多。

  • 2.相似的問題知識(shí)庫里面有,但由于語義的問題而沒有找到,這種情況下應(yīng)該去做算法的優(yōu)化。同一個(gè)問題,比如說我的快遞到哪了,或是我的快遞什么時(shí)候到,大概問的都是查詢快遞的問題,要把它歸類到一個(gè)問題,這樣的話叫算法優(yōu)化。

image

準(zhǔn)確率是機(jī)器人正確回答的數(shù),除以問題總數(shù)****。

準(zhǔn)確率并不是閑聊型機(jī)器人的指標(biāo),但是剛剛說的召回率是閑聊機(jī)器人的一個(gè)指標(biāo),除此之外還有情感,是否有趣等等。

但是對(duì)于任務(wù)型和問答型的機(jī)器人來說,就一定要要求準(zhǔn)確率,寧可機(jī)器人不回答,也不能回答錯(cuò)誤。

準(zhǔn)確率這一評(píng)測(cè)指標(biāo),在實(shí)際中需要人工來標(biāo)注機(jī)器人回答的是否準(zhǔn)確。所以場(chǎng)景有的時(shí)候會(huì)相對(duì)比較受限,企業(yè)的客服部門通常會(huì)使用問題解決率,作為日常工作中對(duì)機(jī)器人的主要評(píng)測(cè)指標(biāo)。

那么下面我們就看一下,什么叫做問題解決率。

image

問題解決率等于問題的總數(shù)減去轉(zhuǎn)人工客服的數(shù)量,再減去客戶反饋不滿意的問題數(shù)量。

這個(gè)就不需要人工去標(biāo)注,機(jī)器(系統(tǒng))能直接衡量出來的,企業(yè)需要設(shè)置合理的策略,來判斷什么時(shí)候機(jī)器人要轉(zhuǎn)到人工客服。

比如已經(jīng)檢測(cè)到客戶的狀態(tài)非常不好了,客戶已經(jīng)開始罵人了,就一定要轉(zhuǎn)到人工客服去安撫一下客戶,或者說這個(gè)客戶一個(gè)問題已經(jīng)問了三遍了,機(jī)器人還沒回答,也一定要轉(zhuǎn)到人工去回答。

這些都從側(cè)面反映出機(jī)器人的問題解決率有待提高。

同時(shí)企業(yè)在客服系統(tǒng)中,應(yīng)該提供對(duì)機(jī)器人客服的反饋和打分機(jī)制,這樣我們就可以把客戶反饋不滿意的問題數(shù)量標(biāo)記出來,也可以自動(dòng)的算出這個(gè)問題的解決率,進(jìn)而知道怎么去進(jìn)一步提升我們單輪對(duì)話的系統(tǒng)。

image

單輪對(duì)話還有幾個(gè)難點(diǎn)

第一,識(shí)別同一個(gè)問題的不同表達(dá)方式。我們會(huì)發(fā)現(xiàn),在現(xiàn)實(shí)生活中的一句話,不同的人有不同的表達(dá)方式。如果機(jī)器人不夠智能,可能就需要把上圖中左邊這5種問法,一個(gè)個(gè)的都錄入到我們的知識(shí)庫中。

但做的好的機(jī)器人,可能只要錄入1個(gè),剩下的它可以通過它的聚類,來知道都是同一個(gè)問題。

例如:

  • 我明天去上海出差

  • 我要訂一張去上海的機(jī)票

  • 上海明天幾點(diǎn)有航班

  • 去上海,明天的

  • 明天要去魔都出差,求訂票

這個(gè)時(shí)候,你也要識(shí)別出魔都是上海等等。

這是同一個(gè)問題的多種表達(dá)方式,它其實(shí)都等同于,用戶需要訂明天去上海的機(jī)票。機(jī)器人是否可以準(zhǔn)確地識(shí)別并且進(jìn)行回復(fù),識(shí)別同一個(gè)問題的不同表達(dá)方式,這也是一個(gè)問題。

image

第二,就是理解語義的細(xì)微差別,處理差異性的問題。我們繼續(xù)看這張圖,機(jī)器人說:

  • 你能干嘛?

  • 你干嘛的?

  • 你在干嘛?

  • 你干嘛?。?/p>

這是4種不同的問法。

如果識(shí)別不好的機(jī)器人,看起來都有“你”、“干嘛”,都是4個(gè)字的,看起來它們應(yīng)該都是一個(gè)意思,但顯然這4句話是完全不同的意思。

你能干嘛?我們要回答的是:“我可以幫你預(yù)定機(jī)票和酒店”。

你干嘛的?他是問機(jī)器人是干什么的,應(yīng)該它說:“我是智能訂票機(jī)器人”。

你在干嘛?這個(gè)其實(shí),是一種更多偏向閑聊的,應(yīng)該它說:“我在幫你訂機(jī)票”。

你干嘛?。∵@個(gè)時(shí)候就說明這個(gè)用戶已經(jīng)非常不高興了,應(yīng)該它說:“對(duì)不起,我怎么了”。

所以我們會(huì)發(fā)現(xiàn),語言在敘述中的這些細(xì)微差別,因?yàn)橐粋€(gè)引號(hào)或因?yàn)橐粋€(gè)表達(dá)不一樣,語義也是完全不一樣的。

在問句非常類似,但是語義有差別的情況下,是不是能夠匹配到正確的答案,也是來考驗(yàn)機(jī)器人處理單輪對(duì)話能力的一個(gè)非常難的地方。

image

我們?cè)賮砜吹谌齻€(gè)難點(diǎn),聚類高頻問題,自動(dòng)的學(xué)習(xí)優(yōu)化知識(shí)庫

剛剛我們說了,提高召回率和準(zhǔn)確率是需要完善知識(shí)庫的,但是如果純靠人工去補(bǔ)充知識(shí)庫是非常困難的,如果機(jī)器人沒有自主學(xué)習(xí)能力,那就應(yīng)了一句江湖話:“有多少人工就有多少智能”。每天不停的補(bǔ)數(shù)據(jù)庫,最終補(bǔ)數(shù)據(jù)庫的時(shí)間,比回答問題的時(shí)間還要長,對(duì)企業(yè)就得不償失了。

所以這對(duì)我們的系統(tǒng)有一個(gè)反向的要求,機(jī)器人必須要有一種自主學(xué)習(xí)的能力。它根據(jù)所有的歷史對(duì)話數(shù)據(jù),需要知道哪些數(shù)據(jù)是類似的,把它進(jìn)行聚類。自動(dòng)總結(jié),并且挖掘不在知識(shí)庫內(nèi)的高頻問句,如果這個(gè)高頻問句不在知識(shí)庫中,機(jī)器人或是系統(tǒng),我們總結(jié)出來,人再根據(jù)總結(jié)出來的這些無法解答的高頻論據(jù)進(jìn)行回答,然后再反向補(bǔ)充到我們的知識(shí)庫里邊。

這樣就會(huì)螺旋累積我們的這個(gè)單輪對(duì)話的系統(tǒng),有一個(gè)很好的效果。但這依然也是相對(duì)比較難的,也就是我們的單輪對(duì)話的第三個(gè)難點(diǎn)。聚類高頻問題,自動(dòng)學(xué)習(xí)優(yōu)化知識(shí)庫。

image

多輪對(duì)話

介紹完了單輪對(duì)話,對(duì)應(yīng)的我們就一定會(huì)想到多輪對(duì)話。

什么叫多輪對(duì)話,我們和單輪對(duì)話的特點(diǎn)進(jìn)行一個(gè)對(duì)比,很容易就會(huì)知道什么叫多輪對(duì)話。

單輪是一個(gè)輪次,每一個(gè)輪次是沒有任何關(guān)聯(lián)性的。而多輪代表的就是多個(gè)輪次,每一個(gè)輪次是有相互關(guān)聯(lián)的,所以他要處理不完整的語義情況。

比如說我們這個(gè)例子“北京天氣怎么樣”,回答完了之后,“上海呢?”,它要知道他問的是上海天氣怎么樣,同時(shí)它也能記錄所有的歷史話語,是有一個(gè)記憶的功能的。

image

同樣多輪對(duì)話也有一些指標(biāo)。

1. 多輪對(duì)話的第一個(gè)重要指標(biāo)就是****任務(wù)完成率。

任務(wù)完成率等于成功結(jié)束的多輪會(huì)話數(shù),除以多輪會(huì)話的總數(shù)。成功結(jié)束的會(huì)話數(shù)越多,任務(wù)完成率就越高,也就代表著多輪對(duì)話系統(tǒng)的可用性越高。

但是有一點(diǎn)大家要注意,會(huì)話成功結(jié)束,并不一定意味著問題得到解決,也有可能是客戶沒有從機(jī)器人那里得到需要的答案。通常多輪對(duì)話這個(gè)時(shí)候應(yīng)該轉(zhuǎn)到人工策略,如果機(jī)器人的會(huì)話不能繼續(xù),就轉(zhuǎn)給人工客戶進(jìn)行處理。

比如,一個(gè)用戶和機(jī)器人訂機(jī)票,訂到中間他說我要去魔都的,因?yàn)闄C(jī)器人一直都沒有理解魔都是什么意思,不知道是上海,所以不停的提問。

當(dāng)然,用戶切換了各種方式,在說上海的時(shí)候機(jī)器人可能也沒有理解,機(jī)器人不停的在問:“你要從哪出發(fā)?你要從哪出發(fā)?”,這個(gè)時(shí)候就要把問答切換到人工。

image

2. 多輪對(duì)話的第二個(gè)指標(biāo)是定制的難度。

因?yàn)槎噍唽?duì)話很多時(shí)候就像一個(gè)APP一樣,交互第一步做什么,第二步做什么是需要定制的,定制的難度決定了多輪對(duì)話系統(tǒng)的好壞,也就是多輪對(duì)話系統(tǒng)的一個(gè)評(píng)測(cè)指標(biāo)。

關(guān)于定制難度,我們有3點(diǎn)可以說:

  1. 是否提供完整的 API 接口和開發(fā)文檔,技術(shù)人員能夠快速開發(fā)和集成;

  2. 一個(gè)普通的工程師是否能夠開發(fā)多輪對(duì)話模型;

  3. 界面交互體驗(yàn)是否優(yōu)秀,是否支持直觀可視化的編輯;

我們知道專業(yè)的對(duì)話系統(tǒng)架構(gòu)師非常少,他們薪水要求也比較高,他們懂算法,懂NLP,懂模型,但是卻不是很理解真實(shí)的業(yè)務(wù)場(chǎng)景,所以這時(shí)候系統(tǒng)是不是能讓普通的工程師,甚至一個(gè)普通的客服學(xué)會(huì)使用,是非常重要的。只有這樣,多輪對(duì)話系統(tǒng)才能發(fā)揮自己的價(jià)值。

image

之前給大家介紹多輪對(duì)話的時(shí)候,有人會(huì)問到這么兩個(gè)問題。

第一個(gè)是說,所謂的必要信息,一定要通過與用戶對(duì)話獲取嗎?

這是不一定的,比如說我們要做一個(gè)機(jī)票酒店預(yù)定的機(jī)器人,如果用戶在公眾號(hào)上跟我交流,其實(shí)我已經(jīng)拿到地理位置信息了。這個(gè)時(shí)候,我就不需要再問他你從哪出發(fā),除非他故意要修改,當(dāng)然這就是另外一個(gè)維度的事情了。所以對(duì)話本身包含的信息,只占總傳遞信息量的一小部分。更多的信息來源于說話人的身份、說話的時(shí)間地點(diǎn)等一系列的場(chǎng)景信息。這個(gè)就類比于我們和對(duì)方交流,我們要知道他的“肢體語言”。

多輪對(duì)話的信息獲取方式,也不應(yīng)該僅限于用戶所說的話,我們要通過系統(tǒng)給的基礎(chǔ)的信息去判斷,這個(gè)可以通過和系統(tǒng)CRM打通的方式來完成。

另外,有人也會(huì)問,多輪對(duì)話一定在形式上表現(xiàn)為和用戶的多次交流,才叫多輪對(duì)話嗎?

這個(gè)也不是的,只要我們理解了他的語意,以及在其它的渠道獲得的用戶的信息。比如用戶需要訂票,我已經(jīng)知道了他是從北京出發(fā)了,他跟我說要去上海,我可以直接幫他去訂北京到上海的機(jī)票。

也就是說,如果用戶的話語中,已經(jīng)提供了充足的信息或者我從其它的渠道已經(jīng)拿到了充足的信息,我們就不需要交流太多次數(shù),不一定需要多次交互才叫多輪。

多輪對(duì)話的核心是要完成任務(wù),并不是用交互的數(shù)量來看是不是多輪對(duì)話。

image

多輪對(duì)話同樣也有一些難點(diǎn)。

第一個(gè)是,要準(zhǔn)確的進(jìn)行語義的理解,它和單輪對(duì)話相比更難了,體現(xiàn)在以下三塊:

  • 上下文關(guān)聯(lián):第一句說了,“要一張機(jī)票去上?!?/strong>,第二句說“明天”。要能把第一句和第二句的信息關(guān)聯(lián)起來,最后完成幫助用戶訂票的任務(wù);

  • 支持中途打斷回溯:當(dāng)用戶從A任務(wù)切換到B任務(wù)的時(shí)候,B任務(wù)結(jié)束后,機(jī)器人要能保存之前的信息,讓A任務(wù)繼續(xù)快速的完成;

  • 指代識(shí)別:假設(shè)之前所有的信息機(jī)器人都拿到了,在用戶做出選擇后,機(jī)器人能夠識(shí)別出來用戶的選擇,比如“第二個(gè)吧”,“最后一個(gè)吧”。 沒有必要一定讓用戶按照機(jī)器的標(biāo)準(zhǔn)來輸入。

這些在多輪對(duì)話中都會(huì)有一些難度。

image

第二個(gè)難點(diǎn)是狀態(tài)管理和個(gè)性化語言的生成,這個(gè)分為兩塊:

  • 用戶畫像管理

機(jī)器人應(yīng)該做出一個(gè)千人千面的個(gè)性化問答反饋。

比如去咨詢教育機(jī)構(gòu),在北京的用戶,機(jī)器人應(yīng)該自動(dòng)給他推薦北京的教育機(jī)構(gòu)。在上海的用戶,機(jī)器人應(yīng)該自動(dòng)給他推薦上海的教育機(jī)構(gòu)。這樣用戶才會(huì)覺得,這個(gè)機(jī)器人還能辦點(diǎn)事兒,還稍微有點(diǎn)智能。所以,即使相同的問題,不同地域的人得到的答案是完全不同的;

再舉一個(gè)例子,比如做電商銷售護(hù)膚品或者銷售化妝品,這時(shí)候不同的用戶可能在我們的數(shù)據(jù)庫里已經(jīng)有不同的記錄了,有關(guān)注膚質(zhì)的、關(guān)注價(jià)格的、關(guān)注功效的,所以當(dāng)一個(gè)用戶說:“幫我推薦一個(gè)化妝品”的時(shí)候,機(jī)器人也要根據(jù)不同的用戶背景,給出不同的推薦;

  • 對(duì)話狀態(tài)管理

這是多輪對(duì)話中非常重要的一環(huán),我也用機(jī)票酒店預(yù)定的例子給大家舉例。

比如我要訂一張機(jī)票,最簡單的可能需要有始發(fā)地、目的地,出發(fā)時(shí)間以及乘機(jī)人這四項(xiàng)信息。那么大概有4*4=16種狀態(tài),當(dāng)用戶說不同的話的時(shí)候,機(jī)器人的狀態(tài)也是不一樣的。

比如第一個(gè),請(qǐng)幫我訂一張3月28日北京到上海的機(jī)票。這個(gè)時(shí)候我們要引導(dǎo)用戶提供他的身份信息,因?yàn)槲乙呀?jīng)把前三個(gè)信息都收集到了。始發(fā)地是北京,目的地是上海,出發(fā)時(shí)間是3月28日。

再看第二個(gè),請(qǐng)幫我訂北京到上海的機(jī)票,這個(gè)時(shí)候機(jī)器人就需要同時(shí)引導(dǎo)用戶,說出出發(fā)時(shí)間和乘機(jī)人信息。

對(duì)話狀態(tài)管理也是多輪對(duì)話中很重要的一環(huán),或者說是難點(diǎn)之一

image

意圖識(shí)別

接下來,再給大家介紹一個(gè)名詞,叫做意圖識(shí)別。

意圖識(shí)別是指:提問者的潛在目的以及他的表達(dá)訴求。

你可以把它理解成一句話的目的是什么。比如【我要訂一張北京到上海的機(jī)票】的意圖是訂機(jī)票。

什么情況下需要意圖識(shí)別呢?當(dāng)系統(tǒng)需要將用戶說的話參數(shù)化的時(shí)候,換句話說,任務(wù)型對(duì)話需要用到意圖識(shí)別。而不需要把用戶說的話參數(shù)化的時(shí)候,也就是問答型對(duì)話不需要意圖識(shí)別。

意圖識(shí)別也和預(yù)置的行業(yè)知識(shí)庫有關(guān),知識(shí)庫越完善,機(jī)器人對(duì)用戶意圖的識(shí)別就會(huì)越高。整個(gè)行業(yè)預(yù)置知識(shí)庫也是隨著系統(tǒng)上線之后,不停的根據(jù)用戶和機(jī)器人的交互,收集到更多的語料和反饋,反復(fù)迭代來變得越來越完整的。

在相同的意圖大類下,還可能有更詳細(xì)的意圖的細(xì)分領(lǐng)域。比如,請(qǐng)問你們發(fā)哪家快遞?請(qǐng)問我的快遞走到哪兒了?大的意圖可能都是物流咨詢,但你還是可以再把它做小的意圖分類。你們發(fā)哪家快遞,屬于選擇快遞公司的意圖。請(qǐng)問我的快遞走到哪了,屬于物流狀態(tài)查詢的意圖。

通過意圖識(shí)別這塊的介紹,我們會(huì)發(fā)現(xiàn)意圖識(shí)別也有難點(diǎn)。

意圖識(shí)別的難點(diǎn)就是沒有一個(gè)固定的評(píng)價(jià)標(biāo)準(zhǔn),剛剛我們看的這個(gè)例子,用戶的意圖可能都是人的主觀判斷為準(zhǔn)。剛才說的你可以把它分成一個(gè)大類,也可以再把它分成一個(gè)小類,然后在小類中它代表的意圖名稱有可能不一樣,所以相對(duì)意圖的分類,它可能也比較沒有標(biāo)準(zhǔn)。沒有標(biāo)準(zhǔn)的事一般都會(huì)比較復(fù)雜。

image

那么還有其它四個(gè)難點(diǎn):

  • 1. 用戶輸入不規(guī)范,同一個(gè)問題的不同用戶的表達(dá)方式存在差異

比如說,有人會(huì)在我們的系統(tǒng)里說:“幫我訂一張深滬的高鐵”,深滬的高鐵它代表的是深圳和上海,用戶如果說深滬高鐵,他可能是為了快速的打字,快速的完成,機(jī)器人是不是能夠理解他和另外一個(gè)用戶說的,幫我訂一張深圳到上海的高鐵,是同樣的一個(gè)意思。

  • 2. 多意圖的判斷

比如說,水這個(gè)詞其實(shí)很常見,但在不同的場(chǎng)景里邊意思是不一樣的。如果我說:“我口渴了,要喝點(diǎn)水”,代表的是我們喝的水;如果我是一個(gè)電商平臺(tái),專門賣化妝品的,用戶說:“我要水”,那它可能理解的是我要爽膚水,而不是我口渴的意思。

  • 3. 數(shù)據(jù)的冷啟動(dòng),必須要基于大量的數(shù)據(jù),才能定義并獲取準(zhǔn)確的意圖

最開始的數(shù)據(jù)獲取相對(duì)也比較難。

  • 4. 沒有固定的評(píng)價(jià)標(biāo)準(zhǔn)

很多時(shí)候又有大意圖,又有小意圖。這些分類對(duì)于具體業(yè)務(wù)人員來說是需要非常耐心的整理的。

image

接下來再給大家介紹最后的一些專業(yè)的話術(shù)。

一個(gè)叫做基于語義的解析,還有基于語義的匹配。

image

基于語義解析的對(duì)話理解

要識(shí)別用戶的意圖,并將其參數(shù)化。

什么叫參數(shù)化?

今晚幫我在全聚德定一個(gè)包廂,十個(gè)人的。

這句話人類是能聽懂的,對(duì)于機(jī)器來說,它可能需要結(jié)構(gòu)化的數(shù)據(jù)。參數(shù)化就是相當(dāng)于把它做成一個(gè)結(jié)構(gòu)化的數(shù)據(jù)

  • 餐廳名:全聚德

  • 時(shí)間:2017.07.05,18點(diǎn)

  • 人數(shù):10

做這種非常參數(shù)化的數(shù)據(jù)給到系統(tǒng),然后意圖我們要去識(shí)別出來是預(yù)定餐廳。這個(gè)就叫做基于語義解析的對(duì)話理解。

image

基于語義解析有三個(gè)常見技術(shù)手段,這里簡單的給大家說一下。

  • 第一塊是啟發(fā)式規(guī)則和推導(dǎo)

啟發(fā)式規(guī)則和推導(dǎo)的優(yōu)勢(shì)就是,只要少量的數(shù)據(jù)我們就可以把它啟動(dòng)。因?yàn)樵蹅儎偛耪f了,很多時(shí)候冷啟動(dòng)是很難的,尤其我們剛搭建一個(gè)系統(tǒng)的時(shí)候,很難達(dá)到上千條或上百條的這種對(duì)話都很難。

另外,它的優(yōu)化手段也是直觀可控的,但是它需要大量專業(yè)的知識(shí)和背景知識(shí),而且效果很快就達(dá)到瓶頸了,可遷移性較差。我做好了一個(gè)機(jī)票酒店預(yù)定的機(jī)器人,緊接著我去訂一個(gè)旅游門票,可能就要重新再走一遍。

  • 第二塊是傳統(tǒng)的機(jī)器學(xué)習(xí)

第二塊是傳統(tǒng)的機(jī)器學(xué)習(xí),它是用數(shù)據(jù)和特征來進(jìn)行驅(qū)動(dòng)和優(yōu)化,有較好的泛化效果。

泛化效果就是說不同的話,多個(gè)問法,它能夠聽明白,然后一句話多個(gè)問法都能夠把它歸類,一起去理解。但是它有一個(gè)劣勢(shì),就是需要咱們這個(gè)領(lǐng)域的特征工程,需要標(biāo)注大量的數(shù)據(jù),可遷移性較差,會(huì)比啟發(fā)式規(guī)則強(qiáng)點(diǎn),可控性和可解釋性也較差。

  • 第三塊是深度機(jī)器學(xué)習(xí)

深度的機(jī)器學(xué)習(xí)是純數(shù)據(jù)驅(qū)動(dòng)的,有更好的泛化效果,可遷移性較強(qiáng)。它的劣勢(shì)是需要海量的語料,可控性和可解釋性針對(duì)傳統(tǒng)的機(jī)器學(xué)習(xí)會(huì)更差一點(diǎn)。因?yàn)槲覀冎罊C(jī)器學(xué)習(xí),就是我們丟大量的數(shù)據(jù)喂給機(jī)器,然后告訴它這個(gè)是輸入,那個(gè)是輸出的結(jié)果,然后學(xué)習(xí)搜索出把輸入計(jì)算成輸出結(jié)果的公式,接著就可以用這個(gè)公式去預(yù)測(cè),新的輸入對(duì)應(yīng)的結(jié)果是什么樣的。這個(gè)東西很難去解釋,為什么就識(shí)別出了。

比如說圖像的一個(gè)識(shí)別,為什么就識(shí)別出來這個(gè)是貓,那個(gè)是狗,這個(gè)是很難去解釋的。如果不能解釋,我們可能就沒有辦法去優(yōu)化某一點(diǎn),所以我們就說所有的機(jī)器學(xué)習(xí),它的可控性和可解釋性相對(duì)較差。

這個(gè)是給大家做的一個(gè)簡單介紹。

image

基于語義匹配的對(duì)話理解

另外一塊兒是基于語義匹配的對(duì)話理解,比如說這句話:“我想了解現(xiàn)金貸怎么申請(qǐng)”,這就要從問答庫中找出整句語義與這句話最相似的問題,然后給出這個(gè)相似問題的答案。

那么我想了解現(xiàn)金貸怎么申請(qǐng),因?yàn)樵蹅兊闹R(shí)庫里有這個(gè)標(biāo)準(zhǔn)的問題,現(xiàn)金貸借現(xiàn)金的申請(qǐng)流程是什么,然后下面就可以把回答推過去,所以它其實(shí)是語義的匹配,基于語義匹配的對(duì)話理解

image

基于語義匹配的對(duì)話理解的常見技術(shù)手段,給大家介紹一下。

用戶輸入查詢,在語言處理里邊,然后通過語義計(jì)算,在問答數(shù)據(jù)庫里找到相似的問題,再把這個(gè)相似問題對(duì)應(yīng)的答案推出去。

比如,我想了解一下限號(hào)政策,在問答數(shù)據(jù)庫里找到和它匹配的是限號(hào)政策,把答案推過去。

這一節(jié)我簡單的介紹了一下,對(duì)話系統(tǒng)里邊常用的一些專用術(shù)語,我們只有了解了這些專用術(shù)語,在后續(xù)我們學(xué)習(xí)具體的方法的時(shí)候,也會(huì)得心應(yīng)手。

這節(jié)課就先到這里了,謝謝大家,下期再會(huì)!

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容