The University of Amsterdam (ILPS) at TREC 2013 Microblog Track

思路:輸入查詢item,官方根據(jù)狄利克雷模型輸出查詢結果,從這些查詢結果中選取部分(1000個)重新排序,然后返回給用戶。

生成查詢(兩個階段)
第一個階段:確定item,方法:標簽(判斷是否為短語查詢) 維基title(查看是否有item在維基有詞條) leftover(不在維基title里邊的item)
第二個階段:根據(jù)上邊得到的items搜索得到twitters,然后選擇幾條擴展item(選擇item)
涉及到的公式:
For each tweet we:

  1. Count the number of unique query concepts present in the unstemmed tweet and divide by total number of query concepts (C).
  2. Count the number of Wikipedia titles present in the tweet and divide by total number of Wikipedia title (T).
  3. Count the number of original query terms present in the tweet and divide by total number of query terms (Q).
  4. Calculate a new tweet score: 0.6C + 0.3T + 0.1Q

相關度:
which selects the difference whichvalue is larger than the average difference plus 1.5 times the standard deviation of the differences: *D *μ + 1.5σ.

對查詢結果排序(三種方法)
第一種方法:考慮特征,以下為特征,然后根據(jù)特征排序

Paste_Image.png

第二種方法:數(shù)據(jù)融合,以下為公式:

Paste_Image.png

第三種方法:URL 助推,擴展url,獲取里邊的信息

實驗結果:
第三種方法最好

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯(lián)系作者
【社區(qū)內容提示】社區(qū)部分內容疑似由AI輔助生成,瀏覽時請結合常識與多方信息審慎甄別。
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發(fā)布,文章內容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。

相關閱讀更多精彩內容

友情鏈接更多精彩內容