同義詞:增加召回,支持query 改寫,并影響排序。(主要是增加對長尾query的召回,優(yōu)化非點擊數據計算的相關性計算)
query改寫:改寫為有點擊的熱門query,從而利用上點擊特征,獲得更好的排序結果。(優(yōu)化中頻query的排序)
同義詞的 數據構造(構造的是對齊語料,也是相似度高的一對文本。為兩個query,或者兩個doc title,或者query_doc。因此可以基于先驗知識,或基于點擊、語義等計算相似度得到,計算相似度也是query改寫的一部分。):
1)現成的結構化數據或其他搜索結果數據;
2)自身積累的session數據,點擊數據。點擊數據包括(query_doc、query_hint、query改寫、anchor數據、共點擊query)
同義詞的?挖掘方法:
1)規(guī)則
2)統(tǒng)計
3)詞向量
query改寫:如果作用在于改寫為有更多點擊數據的query 。則不是生成模型,而是需要以歷史query 為召回集,然后計算相似度,來進行排序。query改寫的方法也是計算幾種相似度的方法。 而計算相似度,無非是要建立兩段文本的特征向量,顯然基于詞是不夠的,需要添加其他維度的特征來擴充表達query。而特征向量的幾個維度有:
1) 詞特征、詞性(屬性)特征、主題特征
2)點擊特征、session數據
3)詞向量特征、點擊帶來的詞向量特征(點擊doc_title作為一個doc,向量化)