記一次搜索排序問題算法設(shè)計(jì)記錄

先上圖


用戶數(shù)據(jù)堆疊


????????在上圖是目前遇到的最大問題,按照一定的排序規(guī)則之后,我們根據(jù)收藏點(diǎn)擊等指標(biāo),將數(shù)據(jù)選出來出現(xiàn)了顯示結(jié)果被一個(gè)用戶霸屏現(xiàn)象,如果是京東淘寶數(shù)據(jù),這種情況是比較好解決的,因?yàn)閿?shù)據(jù)體量是不同級別的。從技術(shù)角度來講,這些都是正常的,因?yàn)檫@些數(shù)據(jù)指標(biāo)和seo都達(dá)到了指標(biāo),才會(huì)被排到了頂部。但是從ctr和業(yè)務(wù)角度來說,統(tǒng)一用戶數(shù)據(jù)霸屏一定是影響用戶體驗(yàn)過程,我這里就不用 用戶域和內(nèi)容域匹配概率 分析了,這個(gè)也是淺顯的東西。我們就此問題討論一下然后,提出解決具體解決方案。?說個(gè)題外話,此問題本身不是算法自身導(dǎo)致的,而是內(nèi)容管控問題,一個(gè)內(nèi)容app上升期都會(huì)遇到的問題,因此,既然是必然出現(xiàn)的,所以有必要將心得洗(寫)出來,大家指正批評。

? ? ? ? ?類似算法對比

????????在實(shí)現(xiàn)過程中,鄙人有設(shè)計(jì)過另外一個(gè)排序算法,情景也比較類似。業(yè)務(wù)如下:我們產(chǎn)品是由一個(gè)渠道詳情頁面的,詳情頁面有評價(jià)內(nèi)容,列表顯示,如果該渠道的評價(jià)是由少量用戶多次評價(jià)出來的,那么在排序過程,按照預(yù)定的指標(biāo)因子對評價(jià)內(nèi)容進(jìn)行排序的話,會(huì)出現(xiàn)相同用戶內(nèi)容堆疊問題。作為排序任務(wù),其實(shí)都是遇到了同樣的情形:在窗口內(nèi)容出現(xiàn)的聚類內(nèi)容不是自己想要的。像評價(jià)內(nèi)容數(shù)據(jù)打算的話,我當(dāng)時(shí)給定的算法基調(diào)是,分桶,按照識別特征分組,接下來游走編碼就能緩解這部分為題。反過來思考,es的搜索能這么做嗎?頻道內(nèi)容做評價(jià)排序的話,我們可以認(rèn)為是將原本數(shù)據(jù)數(shù)據(jù)域維度已經(jīng)分好塊,只是說在子域內(nèi)的數(shù)據(jù)需要排序而已。從業(yè)務(wù)轉(zhuǎn)換為 空間維度 可表示為:es搜索(品類,品牌,詞,排序因子,user) 與渠道評價(jià)(1,排序因子,user)的復(fù)雜度對比。渠道評價(jià)內(nèi)容的排序算法,對排序的桶增加維度,就是 在 搜索模塊的算法。復(fù)用原有的評價(jià)內(nèi)容排序算法,我們需要對內(nèi)容的 品牌和 品類識別 填充數(shù)據(jù),才能對內(nèi)容入桶編號,因此評價(jià)內(nèi)容排序算法不能應(yīng)用到搜索模塊。

? ? ? ? ?需要算出異常用戶

? ? ? ? 我們目前的計(jì)算公式如下:S(I)*ES(I)? ,其中ES(I) 是搜索引擎控制的一個(gè)分值,我們可以將這個(gè)描述為SEO指標(biāo)。S(I)則是指標(biāo)因子

用戶發(fā)布內(nèi)容,會(huì)優(yōu)先去踩點(diǎn),自己的專注領(lǐng)域。一旦在專注領(lǐng)域和指標(biāo)因子都達(dá)標(biāo)了,那么就會(huì)比較有機(jī)會(huì)上top n,在用戶專注度比較高的情況下,就有機(jī)會(huì)出現(xiàn)搜索內(nèi)容霸屏情況。通過數(shù)據(jù)摸索,我發(fā)現(xiàn)數(shù)據(jù)其實(shí)規(guī)律性比較大,我們用戶群聚類,需要得到哪些用戶異常行為可能性比較大,原本的用戶族群100w級別? 可以縮短到1k級別,業(yè)務(wù)是反應(yīng)出來是有一個(gè) 詞搜索 出現(xiàn) 同一用戶霸屏現(xiàn)象,其實(shí)這個(gè)有可能是這個(gè)有一批用戶會(huì)有這樣的現(xiàn)象。

? ? ? ? ?先寫到這里了,因?yàn)槭沁吿幚韱栴}邊記的東西,所以不會(huì)有太多的文字編排。

? ? ? ? 采坑記

在計(jì)算異常用戶的時(shí)候,出現(xiàn)一個(gè)細(xì)節(jié)問題,導(dǎo)致召回率特別高,而精確度不高,能召回表示大方出現(xiàn)問題的可能性比較小,也就是另外一個(gè)影響 檢查用戶是不是異常用戶的 因數(shù)沒有加入?期待改進(jìn)之后效果? go? ? 2020/10/09


? ? ? ? 黎明前的寒冷 2020/10/11

今天調(diào)整了思路,采用了針對 詞的重要程度區(qū)分計(jì)算,融合到 前面計(jì)算影響因子,這個(gè)思路想了很久,感覺應(yīng)該可以,目前在調(diào)試數(shù)據(jù)。


? ? ? ? ?勝利是個(gè)假象??2020/10/12

今天調(diào)試的數(shù)據(jù)來看,召回率沒有降低,但是準(zhǔn)確率還是沒有達(dá)到要求,十分失望,應(yīng)該是降權(quán)的閾值設(shè)置太小了。


? ? ? ? ?初見效果??2020/10/16

今天上了一版生產(chǎn)環(huán)境,效果已經(jīng)出來了,‘床墊’,檢索數(shù)據(jù)還是往優(yōu)化方向顯示。上圖


改進(jìn)后效果


????????初見效果??2020/10/19

? ?周六計(jì)算了數(shù)據(jù),用于改良上周五,出現(xiàn)的 星夕床墊的出現(xiàn)的用戶出現(xiàn)前top 50 概率。



總結(jié): 目前解決思路因?yàn)槭沁呑鲞呌涗泦栴}的方式,所以解決思路還是沒有具體說明:

? ? 1、首先我們需要肯定自己在 搜索圖片這塊的正確性,也就是按照 交互看數(shù)據(jù),以及SEO 的排序方式是合理有效的。

? ? 2、出現(xiàn) 【星夕床墊】用戶 在床墊 領(lǐng)域的檢索出現(xiàn)霸屏情況也是利用了 我們app產(chǎn)品排序準(zhǔn)則,也就是說 競排機(jī)制不太完善,需要改善。

? ? 3、鑒于此情景類似 之前設(shè)計(jì)的 渠道 評價(jià)內(nèi)容排序場景,復(fù)用算法問題經(jīng)過討論 認(rèn)為 維度不同導(dǎo)致需要另外設(shè)計(jì)一套 用于適配當(dāng)前情況。

? ? 4、確定思路之后,就是在,寫代碼檢測? 壞數(shù)據(jù),并且修復(fù)。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

友情鏈接更多精彩內(nèi)容