機器學習之多樣性排序算法

論文貢獻

  1. 設(shè)計了一個貪婪的多樣性搜索策略;
  2. 設(shè)計了新的用于衡量多樣性指標的metrics;

細節(jié)內(nèi)容

多樣性搜索策略

假設(shè)搜索詞存在語言多樣性的時候,多樣性的搜索策略可以提高Recall。這種情形在推薦場景下會顯得更加重要。
問題定義如下:

圖1:問題定義

其中,V(d|q,c)可以理解為文檔d滿足“帶有真實目的為c的q”的滿意度概率,那么(1-V(d|q,c))就是不滿意的概率。
根據(jù)貝葉斯公式:P(S|q) = \sum_c{P(c|q)P(S|c,q)},因此P(S|c,q)等于上圖中的右邊括號部分,意思就是返回的結(jié)果里面至少有一個以上滿足用戶搜索意圖的概率。

這個問題定義有兩個需要注意的地方:

  1. 目標沒有要求盡量的多樣;
  2. 目前沒有對返回結(jié)果的順序作要求。

但是,后面給的IA貪婪算法卻是對順序有保障的。另外,因為該問題具有很強的子問題結(jié)構(gòu)信息,所以可以采用動態(tài)規(guī)劃的思路進行貪婪搜索。該方法并不能保證一定能夠得到最優(yōu)解,但是卻有一個最壞結(jié)果的error bound。

圖2:貪婪IA算法

其中,參數(shù)的含義分別如下:

  • C(q)是query可能存在的語義集合
  • R(q)是query搜索返回的結(jié)果集合
  • C(d)是document的語義集合
  • P(c|q)是query的語義概率
  • V(d|q,c)是帶有語義c的q查詢時,d滿足要求的概率
  • U(c|q,S)是圖1中公式(1)的右邊括弧中的相乘部分,也就是集合S不滿足“q的語義c”的概率。

注意:需要試驗測試一下原文的正確性,從公式來推導(dǎo),應(yīng)該取argmin,而不是argmax。

多樣性評價metrics

傳統(tǒng)的檢索評估指標,比如NDCG,多是用來衡量檢索結(jié)果與搜索詞的語義相關(guān)性來進行評估的。但是當搜索詞的語義存在多樣性的時候,那么NDCG就不適用了,需要新的指標來進行評估。

該文假設(shè)檢索結(jié)果與檢索詞的相關(guān)度是和檢索詞的語義條件獨立的,并根據(jù)該假設(shè)求的NDCG在不同語義上的期望得到NDCG-IA結(jié)果作為評價指標。

圖3:NDCG-IA

參考論文

http://www.wsdm2009.org/papers/p5-agrawal.pdf

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

  • 前面的文章主要從理論的角度介紹了自然語言人機對話系統(tǒng)所可能涉及到的多個領(lǐng)域的經(jīng)典模型和基礎(chǔ)知識。這篇文章,甚至之后...
    我偏笑_NSNirvana閱讀 14,440評論 2 64
  • 郁金香是一種被賦予了許多愛情的花,它神秘而高貴,多產(chǎn)于荷蘭,在這郁金香盛開的季節(jié),不必去遠方,只需閉上雙眼,冥思想...
    林下生風閱讀 431評論 4 19
  • 今天是女兒考試的日子,不知女兒會不會緊張,發(fā)揮的怎么樣,雖然一次的考試成績代表不了什么,但是成績是對女...
    李美靈媽媽_四年級二班閱讀 277評論 0 1
  • 清風爛醉于酒巷中 大雨滂沱 放縱著自己 街頭乞討的男孩正鄙夷的看著 踏著雨水 一齊北行
    柳晴閱讀 97評論 0 0

友情鏈接更多精彩內(nèi)容