query 改寫的意義及主要方法

同義詞:增加召回,支持query 改寫,并影響排序。(主要是增加對長尾query的召回,優(yōu)化非點擊數據計算的相關性計算)

query改寫:改寫為有點擊的熱門query,從而利用上點擊特征,獲得更好的排序結果。(優(yōu)化中頻query的排序)

同義詞的 數據構造(構造的是對齊語料,也是相似度高的一對文本。為兩個query,或者兩個doc title,或者query_doc。因此可以基于先驗知識,或基于點擊、語義等計算相似度得到,計算相似度也是query改寫的一部分。):

1)現成的結構化數據或其他搜索結果數據;

2)自身積累的session數據,點擊數據。點擊數據包括(query_doc、query_hint、query改寫、anchor數據、共點擊query)

同義詞的?挖掘方法:

1)規(guī)則

2)統(tǒng)計

3)詞向量

query改寫:如果作用在于改寫為有更多點擊數據的query 。則不是生成模型,而是需要以歷史query 為召回集,然后計算相似度,來進行排序。query改寫的方法也是計算幾種相似度的方法。 而計算相似度,無非是要建立兩段文本的特征向量,顯然基于詞是不夠的,需要添加其他維度的特征來擴充表達query。而特征向量的幾個維度有:

1) 詞特征、詞性(屬性)特征、主題特征

2)點擊特征、session數據

3)詞向量特征、點擊帶來的詞向量特征(點擊doc_title作為一個doc,向量化)

?著作權歸作者所有,轉載或內容合作請聯系作者
【社區(qū)內容提示】社區(qū)部分內容疑似由AI輔助生成,瀏覽時請結合常識與多方信息審慎甄別。
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發(fā)布,文章內容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。

相關閱讀更多精彩內容

友情鏈接更多精彩內容