1. 項(xiàng)目簡(jiǎn)介
query下拉推薦或query自動(dòng)補(bǔ)全,是在搜索引擎場(chǎng)景中廣泛應(yīng)用的一個(gè)功能;當(dāng)搜索欄中有任意輸入時(shí),搜索欄下方立刻根據(jù)輸入推薦/提示出以輸入為前綴的相關(guān)詞,如圖1所示。

良好的推薦效果不僅能夠節(jié)省用戶輸入提高用戶搜索,同時(shí)對(duì)用戶體驗(yàn)也有極大的提升。接下來的章節(jié)中,將圍繞這個(gè)主題進(jìn)行 詳細(xì)討論其中的問題和挑戰(zhàn),及在實(shí)際業(yè)務(wù)中所采用的方案。
2. 相關(guān)工作
2.1 問題
- 如何鑒別輸入是一個(gè)前綴
- 前綴和候選詞之間如何建立聯(lián)系
- 候選關(guān)鍵詞列表排序規(guī)則
以上是該項(xiàng)目需要解決的主要方面。
對(duì)于問題1,在query suggestion項(xiàng)目中把任意用戶的輸入都作為一個(gè)前綴,不管當(dāng)前輸入是僅有一個(gè)字母還是一個(gè)詞組。
項(xiàng)目中通過在prefixes和候選關(guān)鍵詞之間建立倒排索引將二者聯(lián)系起來,倒排索引的建立在離線狀態(tài)下完成(可定期更新),在線情況實(shí)則只是一個(gè)通過key查找value的過程,而有很多人會(huì)懷疑,按這種方式,這個(gè)效率會(huì)不會(huì)很低,經(jīng)過實(shí)測(cè),在prefix集為150w的情況下,整個(gè)服務(wù)的返回時(shí)間在10ms左右,那么這個(gè)在通用場(chǎng)景下效率完全可以勝任。
最后一點(diǎn)就是候選關(guān)鍵詞列表rank 模型,即如何從候選中選擇合適的關(guān)鍵詞,本項(xiàng)目采用關(guān)鍵詞搜索次數(shù)及其對(duì)應(yīng)結(jié)果數(shù),加權(quán)求和作為每個(gè)keyword的 rank score。
3. 模型和算法
在這個(gè)項(xiàng)目中主要用到的算法和模型相對(duì)較簡(jiǎn)單,主要應(yīng)用在prefix生成、prefix和關(guān)鍵詞倒排索引,及候選關(guān)鍵詞排序。用到的模型包括:
- 1 . 拼音->漢字模型
用于通過漢字(拼音)獲取拼音(漢字),在這個(gè)模型中如果漢字是多音字,則會(huì)將其所有拼音一同返回。 - 2 . prefix生成模型
根據(jù)關(guān)鍵詞、關(guān)鍵詞對(duì)應(yīng)拼音等生成對(duì)應(yīng)的prefix列表。 - 3 . 關(guān)鍵詞排序模型
對(duì)候選關(guān)鍵詞列表進(jìn)行排序,返回最合適的關(guān)鍵詞列表。
4. 策略設(shè)計(jì)
項(xiàng)目整體設(shè)計(jì)思路如下所示:

這是一個(gè)完備的系統(tǒng)設(shè)計(jì)方案,包括數(shù)據(jù)輸入、模型創(chuàng)建、數(shù)據(jù)更新等。項(xiàng)目首先根據(jù)歷史搜索日志或者某種結(jié)構(gòu)化文檔提取出關(guān)鍵詞(這個(gè)過程會(huì)涉及到文本分詞,文本分詞器會(huì)在另一篇文檔中進(jìn)行介紹),并記錄下其對(duì)應(yīng)的檢索次數(shù)和所對(duì)應(yīng)的結(jié)果數(shù)或者是詞頻,作為整個(gè)數(shù)據(jù)模型的輸入,然后用到前術(shù)的算法和模型build data model,這個(gè)過程分為增量更新和全量更新,增量更新就是把送來的數(shù)據(jù)build之后加入到之前的內(nèi)存結(jié)構(gòu)中;全量索引即是用新生成的數(shù)據(jù)模型替換舊的數(shù)據(jù)模型。之所以設(shè)計(jì)數(shù)據(jù)更新這一部分的原因是我們所用數(shù)據(jù)的屬性是在不停的變動(dòng)中,所以要保持?jǐn)?shù)據(jù)新穎度。之后通過已經(jīng)創(chuàng)建好的數(shù)據(jù)模型就可以獲取每個(gè)prefix下的推薦關(guān)鍵詞了。
5. 評(píng)估方案
對(duì)于query suggestion的評(píng)估最主要指標(biāo)是,比較推薦關(guān)鍵詞是否是用戶真實(shí)想要輸入的詞,而本文的設(shè)計(jì)方案只能通過上線后從日志中統(tǒng)計(jì)用戶真實(shí)輸入及推薦結(jié)果的數(shù)據(jù)然后進(jìn)行分析。目前從實(shí)際情況來看,因?yàn)槭菍?duì)搜索日志數(shù)據(jù)進(jìn)行挖掘進(jìn)行推薦,換句話說,推薦的詞一般都是全網(wǎng)熱搜的詞,效果相對(duì)較好。
6. 其他方式及優(yōu)化方向
本文只是描述了一種實(shí)現(xiàn)query suggestion的簡(jiǎn)單方案,在實(shí)際應(yīng)用中,還需要考慮用戶搜索上下文場(chǎng)景進(jìn)行信息以便準(zhǔn)確預(yù)測(cè)用戶想要的真是輸入。總體來說,未來優(yōu)化方向?yàn)椋?/p>
- 考慮用戶上下文信息進(jìn)行準(zhǔn)確推薦
- 排序模型優(yōu)化,采用ML方法去自動(dòng)學(xué)習(xí)每個(gè)部分的權(quán)重
- 考慮是否有其他方式來實(shí)現(xiàn)這個(gè)功能。
項(xiàng)目地址: https://github.com/syw2014/query-suggestion
轉(zhuǎn)載請(qǐng)注明出處:http://www.itdecent.cn/p/aa074cc6a7b3