9999.精品视频,久久机热'这里有精品

1. 項(xiàng)目簡(jiǎn)介

query下拉推薦或query自動(dòng)補(bǔ)全，是在搜索引擎場(chǎng)景中廣泛應(yīng)用的一個(gè)功能；當(dāng)搜索欄中有任意輸入時(shí)，搜索欄下方立刻根據(jù)輸入推薦/提示出以輸入為前綴的相關(guān)詞，如圖1所示。

圖1 query suggestion.png

良好的推薦效果不僅能夠節(jié)省用戶輸入提高用戶搜索，同時(shí)對(duì)用戶體驗(yàn)也有極大的提升。接下來的章節(jié)中，將圍繞這個(gè)主題進(jìn)行詳細(xì)討論其中的問題和挑戰(zhàn)，及在實(shí)際業(yè)務(wù)中所采用的方案。

2. 相關(guān)工作

2.1 問題

如何鑒別輸入是一個(gè)前綴
前綴和候選詞之間如何建立聯(lián)系
候選關(guān)鍵詞列表排序規(guī)則

以上是該項(xiàng)目需要解決的主要方面。
對(duì)于問題1，在query suggestion項(xiàng)目中把任意用戶的輸入都作為一個(gè)前綴，不管當(dāng)前輸入是僅有一個(gè)字母還是一個(gè)詞組。
項(xiàng)目中通過在prefixes和候選關(guān)鍵詞之間建立倒排索引將二者聯(lián)系起來，倒排索引的建立在離線狀態(tài)下完成（可定期更新），在線情況實(shí)則只是一個(gè)通過key查找value的過程，而有很多人會(huì)懷疑，按這種方式，這個(gè)效率會(huì)不會(huì)很低，經(jīng)過實(shí)測(cè)，在prefix集為150w的情況下，整個(gè)服務(wù)的返回時(shí)間在10ms左右，那么這個(gè)在通用場(chǎng)景下效率完全可以勝任。
最后一點(diǎn)就是候選關(guān)鍵詞列表rank 模型，即如何從候選中選擇合適的關(guān)鍵詞，本項(xiàng)目采用關(guān)鍵詞搜索次數(shù)及其對(duì)應(yīng)結(jié)果數(shù)，加權(quán)求和作為每個(gè)keyword的 rank score。

3. 模型和算法

在這個(gè)項(xiàng)目中主要用到的算法和模型相對(duì)較簡(jiǎn)單，主要應(yīng)用在prefix生成、prefix和關(guān)鍵詞倒排索引，及候選關(guān)鍵詞排序。用到的模型包括：

1 . 拼音->漢字模型
用于通過漢字（拼音）獲取拼音（漢字），在這個(gè)模型中如果漢字是多音字，則會(huì)將其所有拼音一同返回。
2 . prefix生成模型
根據(jù)關(guān)鍵詞、關(guān)鍵詞對(duì)應(yīng)拼音等生成對(duì)應(yīng)的prefix列表。
3 . 關(guān)鍵詞排序模型
對(duì)候選關(guān)鍵詞列表進(jìn)行排序，返回最合適的關(guān)鍵詞列表。

4. 策略設(shè)計(jì)

項(xiàng)目整體設(shè)計(jì)思路如下所示：

圖2 系統(tǒng)架構(gòu)圖.png

這是一個(gè)完備的系統(tǒng)設(shè)計(jì)方案，包括數(shù)據(jù)輸入、模型創(chuàng)建、數(shù)據(jù)更新等。項(xiàng)目首先根據(jù)歷史搜索日志或者某種結(jié)構(gòu)化文檔提取出關(guān)鍵詞（這個(gè)過程會(huì)涉及到文本分詞，文本分詞器會(huì)在另一篇文檔中進(jìn)行介紹），并記錄下其對(duì)應(yīng)的檢索次數(shù)和所對(duì)應(yīng)的結(jié)果數(shù)或者是詞頻，作為整個(gè)數(shù)據(jù)模型的輸入，然后用到前術(shù)的算法和模型build data model，這個(gè)過程分為增量更新和全量更新，增量更新就是把送來的數(shù)據(jù)build之后加入到之前的內(nèi)存結(jié)構(gòu)中；全量索引即是用新生成的數(shù)據(jù)模型替換舊的數(shù)據(jù)模型。之所以設(shè)計(jì)數(shù)據(jù)更新這一部分的原因是我們所用數(shù)據(jù)的屬性是在不停的變動(dòng)中，所以要保持?jǐn)?shù)據(jù)新穎度。之后通過已經(jīng)創(chuàng)建好的數(shù)據(jù)模型就可以獲取每個(gè)prefix下的推薦關(guān)鍵詞了。

5. 評(píng)估方案

對(duì)于query suggestion的評(píng)估最主要指標(biāo)是，比較推薦關(guān)鍵詞是否是用戶真實(shí)想要輸入的詞，而本文的設(shè)計(jì)方案只能通過上線后從日志中統(tǒng)計(jì)用戶真實(shí)輸入及推薦結(jié)果的數(shù)據(jù)然后進(jìn)行分析。目前從實(shí)際情況來看，因?yàn)槭菍?duì)搜索日志數(shù)據(jù)進(jìn)行挖掘進(jìn)行推薦，換句話說，推薦的詞一般都是全網(wǎng)熱搜的詞，效果相對(duì)較好。

6. 其他方式及優(yōu)化方向

本文只是描述了一種實(shí)現(xiàn)query suggestion的簡(jiǎn)單方案，在實(shí)際應(yīng)用中，還需要考慮用戶搜索上下文場(chǎng)景進(jìn)行信息以便準(zhǔn)確預(yù)測(cè)用戶想要的真是輸入。總體來說，未來優(yōu)化方向?yàn)椋?/p>

考慮用戶上下文信息進(jìn)行準(zhǔn)確推薦
排序模型優(yōu)化，采用ML方法去自動(dòng)學(xué)習(xí)每個(gè)部分的權(quán)重
考慮是否有其他方式來實(shí)現(xiàn)這個(gè)功能。

項(xiàng)目地址： https://github.com/syw2014/query-suggestion
轉(zhuǎn)載請(qǐng)注明出處：http://www.itdecent.cn/p/aa074cc6a7b3

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

query suggestion/ query 下拉推薦

query suggestion/ query 下拉推薦

1. 項(xiàng)目簡(jiǎn)介

2. 相關(guān)工作

2.1 問題

3. 模型和算法

4. 策略設(shè)計(jì)

5. 評(píng)估方案

6. 其他方式及優(yōu)化方向

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

query suggestion/ query 下拉推薦

1. 項(xiàng)目簡(jiǎn)介

2. 相關(guān)工作

2.1 問題

3. 模型和算法

4. 策略設(shè)計(jì)

5. 評(píng)估方案

6. 其他方式及優(yōu)化方向

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av