規(guī)劃搜索產(chǎn)品時,我們可以如何著手

搜索,曾經(jīng)作為PC互聯(lián)網(wǎng)時代的流量霸主,有著舉足輕重的地位。即使在如今APP孤島林立的移動互聯(lián)時代,站內(nèi)搜索仍然是提升產(chǎn)品觸達與流量轉(zhuǎn)化的重要部件,譬如業(yè)界有流傳電商App40%以上的GMV通過搜索貢獻。那么,當我們要規(guī)劃一款搜索產(chǎn)品時,我們主要關(guān)注哪些內(nèi)容,這篇文章希望和你一齊探討。

01 搜索的本質(zhì)

讓我們先來看看搜索的原理是什么。簡單說,就是用戶的輸入(Query)與系統(tǒng)數(shù)據(jù)庫中的內(nèi)容(Content)完成匹配(Match)的過程。這個過程的實現(xiàn)可以歸納為三步:第一是對用戶query的解讀,即query分析;第二是對系統(tǒng)中存儲的數(shù)據(jù)內(nèi)容的理解,即應(yīng)該與哪些內(nèi)容進行匹配并召回數(shù)據(jù);最后是對召回的結(jié)果排序,預(yù)測用戶最想要的是什么并予以呈現(xiàn)。


1.1 Query分析

用戶搜索時輸入的內(nèi)容往往是一串長句或是一個問題,這樣的自然語言,機器是沒法直接識別的,這個時候就需要對query進行拆解。首先是分詞,也就是把長句分解成短語或詞組,比如“雙十一全民購物節(jié)”會被分解為“雙十一/全民/購物節(jié)”,被分解后的詞就可以在系統(tǒng)詞庫中找到。系統(tǒng)詞庫一般可以通過常用詞庫、搜索行為日志、企業(yè)產(chǎn)品名稱、商品品牌、類目等構(gòu)建,定期更新維護。技術(shù)上已有一些開源詞庫可以應(yīng)用,比如jieba、ik等詞庫插件。

但是用戶的query有時候并不總是能精確分詞,譬如輸入了拼音或者錯別字,系統(tǒng)就要把query進行糾錯改寫。或是為了更準確的命中用戶意圖,就要進行同義詞、語義擴展。一般通過構(gòu)建query與糾錯詞、同義詞的映射詞庫來實現(xiàn),數(shù)據(jù)大多來源于用戶搜索日志及人工維護等。近些年得益于深度學習的發(fā)展,如BERT等NLP模型被引入語義擴展應(yīng)用中,效果得到進一步改善。

另外,query分詞后的信息并不都是重要的,某些時候query中的一個關(guān)鍵詞其實才是用戶想要表達的真實意圖,把這個詞提取出來就可以幫助后續(xù)的召回排序階段能更快更準的匹配內(nèi)容,這就是識別及提取關(guān)鍵詞的作用了。

以上無論分詞、關(guān)鍵詞識別或是語義擴展,目的都是對用戶query的解讀,理解用戶真實意圖,為接下來搜索引擎該從系統(tǒng)中召回哪些數(shù)據(jù)框定出大致的范圍。

1.2 召回

召回,也就是把用戶query相關(guān)的內(nèi)容從數(shù)據(jù)庫中篩選出來,在這之前系統(tǒng)有一系列的任務(wù)需要處理。首要任務(wù)當然是建立搜索系統(tǒng)的數(shù)據(jù)庫,一般這個過程就是搜索引擎的索引構(gòu)建。對于一項搜索業(yè)務(wù),比如電商類的搜索,引擎會把商品標題、商品簡介、廣告詞、品牌、類目等文本類的字段納入到索引中,并與詞庫詞典建立一種映射關(guān)系,這樣query分詞后就能快速進行匹配,把命中的內(nèi)容全部從數(shù)據(jù)庫中召回出來。當然,除了標題、簡介等文本類信息,諸如商品的銷量、評論、點擊量等數(shù)值類的字段也會被搜索引擎構(gòu)建到索引中,在接下來的排序階段發(fā)揮作用。

1.3 排序

經(jīng)過搜索召回的數(shù)據(jù)往往是大量的,那么哪些內(nèi)容會被優(yōu)先展示呢?搜索引擎會結(jié)合各個因子的價值賦予一定的權(quán)重,進行綜合后給每條數(shù)據(jù)評定優(yōu)先級分數(shù)。影響搜索排序的因子大體可以分為兩類:1)文本相關(guān),主要考慮搜索詞與內(nèi)容的相關(guān)程度,這一塊已有很多成熟的方案,諸如經(jīng)典的TF-IDF、BM25算法等;2)業(yè)務(wù)相關(guān),如電商類的價格、銷量、時效性,資訊類的閱讀量、分享量等。排序算法及各因子的權(quán)重并不是一成不變的,會隨著數(shù)據(jù)的積累、badcase分析而迭代優(yōu)化,最終效果也是考驗對業(yè)務(wù)的理解。

另外除了相關(guān)性排序,大多搜索系統(tǒng)都加入了個性化排序的能力,一般通過搜索日志挖掘、用戶標簽等與數(shù)據(jù)內(nèi)容聯(lián)合建立點擊率模型,預(yù)測用戶偏好的搜索結(jié)果。

經(jīng)過query分析-召回-排序等一系列步驟后,數(shù)據(jù)內(nèi)容就按相關(guān)性依序呈現(xiàn)到了用戶面前,以上就是搜索實現(xiàn)的基本原理。

02 用戶搜索的故事線

上述解決了搜索是什么的問題,接下來我們看看一款搜索產(chǎn)品一般會具備哪些功能。搜索出現(xiàn)的緣由是信息過載,特別是越來越多長尾內(nèi)容無法有效觸達,用戶需要通過搜索在紛繁的數(shù)據(jù)中快速找到所需,因此搜索的功能便是基于降低用戶使用成本來規(guī)劃的。從用戶視角來看,一次搜索流程的故事線如下圖所示。


2.1 搜索前

(1)搜索輸入形態(tài)

在進入搜索前,一般有幾種交互方式來向系統(tǒng)輸入查找內(nèi)容。主流的就是文本框搜索了,隨著語音識別技術(shù)的發(fā)展一些企業(yè)已開始逐步引入語音搜索(本質(zhì)上仍是通過語音轉(zhuǎn)文字后進行的文本搜索),另外諸多電商產(chǎn)品還有圖片搜索的功能。對這三種輸入形態(tài)可以結(jié)合團隊實力和業(yè)務(wù)需要來規(guī)劃搜索入口設(shè)計。

(2)底紋默認框詞

搜索入口設(shè)計成輸入框的形式時,一般都會有底紋默認詞。對用戶這是作為搜索推薦降低選擇的入口,對企業(yè)則是營銷推廣、流量分發(fā)的廣告位。因此在實現(xiàn)上,通常會結(jié)合用戶的行為數(shù)據(jù)(比如歷史搜索、搜索點擊,甚至于商品購買、瀏覽點贊等搜索外數(shù)據(jù))、熱門搜索、人工干預(yù)做綜合推薦。

2.2 搜索中

從用戶選擇搜索框到輸入搜索詞的過程,也有一些簡化用戶使用的操作。

(1)歷史搜索&熱門搜索

歷史搜索是用戶曾經(jīng)在搜索頁面查詢過的關(guān)鍵詞,一般會按時間由近及遠保留近10條記錄并呈現(xiàn)。

熱門搜索是搜索業(yè)務(wù)中一大流量分發(fā)的廣告位,具有一定的榜單效用從而降低用戶決策提升點擊率,通常由運營人員結(jié)合熱點產(chǎn)品在后臺設(shè)置推廣詞。進階的做法,會結(jié)合用戶之前的行為數(shù)據(jù)加入個性化推薦的算法,達到一定的千人千面效果。

(2)搜索推薦

用戶在使用搜索時也會有意圖不明確的時候,或者搜索之后無法匹配到系統(tǒng)內(nèi)容導致沒有結(jié)果,這時就可以進行搜索推薦。在搜索動線中植入推薦的場景可以很多,比如無結(jié)果推薦與相關(guān)性推薦。

無結(jié)果推薦,就是在用戶搜索后但是沒有搜索內(nèi)容返回,往往是業(yè)務(wù)數(shù)據(jù)偏少或者用戶的query詞條較冷門造成。無搜索結(jié)果是很傷用戶體驗的情境,次數(shù)如果出現(xiàn)多的話用戶下次就不會再用搜索功能了。這個時候就可以結(jié)合用戶的query進行相似搜索詞的推薦,或者結(jié)合用戶與內(nèi)容的屬性進行產(chǎn)品的推薦。

相關(guān)性推薦,常出現(xiàn)在搜索結(jié)果信息流中,以用戶的query詞為基準,推薦更多與他的意圖相關(guān)的詞。需求實現(xiàn)上一般也可以從兩個維度來考慮,即搜索詞的維度與點擊行為的維度。搜索詞維度可以結(jié)合用戶的搜索session來分析,什么是用戶搜索session呢?定義的方式有很多種,可以認為從用戶第一次輸入query到產(chǎn)生實際點擊行為為一次搜索session。當用戶搜索一個詞發(fā)現(xiàn)沒有找到,會接著換個詞繼續(xù)搜索,最終找到想要的內(nèi)容。那么就可以把多個用戶相同的query及后續(xù)相關(guān)搜索詞記錄下來,進行協(xié)同過濾推薦了。點擊行為維度,是把用戶的點擊行為考慮進來,當一條產(chǎn)生了點擊的搜索結(jié)果出現(xiàn)在多個query搜索詞的結(jié)果列表中,例如搜索‘史記’和‘資治通鑒’的用戶最終都在結(jié)果列表中點擊了‘上下五千年叢書’,那么下次就可以把搜‘史記’的關(guān)鍵詞推薦給搜‘資治通鑒’的用戶了。

(3)下拉聯(lián)想詞

聯(lián)想建議是依據(jù)用戶鍵入的文本,系統(tǒng)自動擴充完善,以達到簡化用戶輸入、快速跳轉(zhuǎn)查詢結(jié)果的目的。為了系統(tǒng)建議的內(nèi)容更準確,一般會對query進行糾錯提示、前綴匹配等。

糾錯提示需要支持漢字拼音混合輸入、拼音大小寫輸入等,比如用戶輸入“華為Rongyao手機”,能將拼音提示為正確的漢字“華為榮耀手機”供用戶點選;另外對于用戶輸入的錯別字系統(tǒng)需要改寫成正確的表達,比如“賣當勞”改寫為“麥當勞”,實現(xiàn)上主要以中文拼音為基礎(chǔ)檢索同音字,結(jié)合字詞的編輯距離進行糾錯判斷。

前綴匹配能在用戶開始輸入若干字后快速聯(lián)想出相關(guān)內(nèi)容,比如輸入“女裝”,系統(tǒng)聯(lián)想“女裝套裝”、“女裝上衣”、“女裝連衣裙”等,把用戶可能的后繼搜索詞都關(guān)聯(lián)呈現(xiàn)出來。

2.3 搜索后

用戶輸入query點擊搜索后,系統(tǒng)會給用戶呈現(xiàn)一系列相關(guān)的搜索結(jié)果,那么如何幫助用戶更快更好的從結(jié)果中找到自己的真實意圖呢,需要在技術(shù)算法與產(chǎn)品功能上協(xié)同發(fā)力。

(1)搜索結(jié)果列表

還記得上文提到的排序嗎,搜索結(jié)果列表就是其發(fā)揮作用的主陣地。模型算法上經(jīng)歷了從文本相關(guān)性到個性化算法再到不斷推陳出新的各種神經(jīng)網(wǎng)絡(luò),算法能力升級也使搜索結(jié)果首屏內(nèi)容命中用戶query意圖的概率大大增加。而在產(chǎn)品交互層面,需要結(jié)合企業(yè)業(yè)務(wù)與數(shù)據(jù)內(nèi)容的特性,分析用戶關(guān)注的核心信息以及哪種內(nèi)容更易促動用戶點擊,以此對搜索結(jié)果信息流的圖文呈現(xiàn)、字段展示、業(yè)務(wù)域模塊劃分進行綜合考量布局。

另外,如果企業(yè)/App是具有平臺性質(zhì)(比如微博、抖音、電商類App)可以為第三方提供廣告接入的服務(wù),在搜索結(jié)果信息流中植入廣告feed也是一個重要且復雜的課題,需要考慮廣告與搜索域的原生信息、用戶搜索意圖以及商業(yè)目標等的匹配平衡。

(2)搜索直達/結(jié)果置頂

搜索直達是指用戶的query命中了特定的關(guān)鍵詞,系統(tǒng)會跳過搜索結(jié)果列表,直接轉(zhuǎn)到具體落地頁。比如搜索‘天貓雙11主會場’,直接跳轉(zhuǎn)至活動頁。搜索直達為運營提供了一種工具,配合營銷大促、節(jié)日慶典等重要活動進行宣傳與引流落地。

結(jié)果置頂則是為一些爆款商品或者是主流業(yè)務(wù)產(chǎn)品配置相關(guān)關(guān)鍵詞,或者通過數(shù)據(jù)挖掘發(fā)現(xiàn)某些query下的高頻點擊結(jié)果,當用戶的query匹配時,把相關(guān)結(jié)果在搜索列表中置頂,提供產(chǎn)品快捷入口。比如微信搜一搜中搜索華為會置頂顯示華為商城,并且還會附帶露出更多效果與組件入口,方便用戶直達服務(wù)。

(3)篩選排序

除了系統(tǒng)按文本、權(quán)重、語義做的綜合搜索排序,不同品類的業(yè)務(wù)可以依據(jù)業(yè)務(wù)屬性定制排序及篩選的方式,比如商品的按銷量/價格排序、商戶的距離/好評排序等;篩選是為用戶提供的一套組合過濾器,比如手機品類支持按型號、品牌、類目等篩選,某些時候業(yè)務(wù)多元且復雜,甚至可以提供接口交由上游業(yè)務(wù)實現(xiàn)篩選定制化管理與維護。

以上結(jié)合用戶搜索的故事線大致梳理了主流搜索業(yè)務(wù)包含的產(chǎn)品能力,基于自身業(yè)務(wù)特性完善功能,可以幫助用戶搜索更便利。


03 搜索產(chǎn)品架構(gòu)

搜索產(chǎn)品歷經(jīng)迭代,從入口級工具到中臺化引擎,很多時候搜索業(yè)務(wù)也伴隨著企業(yè)的發(fā)展而承載更多的能力。最后,我們以中臺化的搜索平臺為定位,淺析搜索產(chǎn)品的架構(gòu)規(guī)劃,主要可以從三個維度考慮:數(shù)據(jù)層、平臺層、應(yīng)用層。

數(shù)據(jù)層,是構(gòu)建平臺的基礎(chǔ),中臺炮火強不強,數(shù)據(jù)‘彈藥庫’得先準備好。也可以拆解為三個方面著手:一是詞庫的建設(shè),比如基礎(chǔ)詞庫、同義詞庫、糾錯詞庫、聯(lián)想詞庫等,拆分多個詞庫的好處是能針對特定搜索功能進行專項優(yōu)化。詞庫初始化好了以后,還要考慮是否有人工干預(yù)維護的機制、系統(tǒng)發(fā)現(xiàn)新詞的能力,另外對于某些特定行業(yè)諸如金融、醫(yī)藥等,還會進行相關(guān)專業(yè)詞匯的構(gòu)建。二是用戶相關(guān)數(shù)據(jù),包括用戶基本屬性標簽、行為數(shù)據(jù)、交易數(shù)據(jù)等,大多時候這些數(shù)據(jù)都散落在各個業(yè)務(wù)系統(tǒng),而這些數(shù)據(jù)對優(yōu)化算法模型起到重要作用,那么如何去其他系統(tǒng)取數(shù)、需要哪些字段,就需要商定一個機制。三是垂類數(shù)據(jù)建設(shè),企業(yè)如果具備多元的業(yè)務(wù),就可以對不同垂直業(yè)務(wù)分別取數(shù)、建索引存儲,搜索引擎可以設(shè)計通用的數(shù)據(jù)上報接口,為需要接入平臺的業(yè)務(wù)提供全量/增量數(shù)據(jù)同步的服務(wù)。

平臺層,搭建PaaS化的微服務(wù)能力,把query理解、數(shù)據(jù)召回、內(nèi)容排序等模塊抽象成API式的接口,以滿足不同業(yè)務(wù)定制化的需求。

應(yīng)用層,是最終搜索業(yè)務(wù)與用戶交互的窗口,秉持‘降低用戶搜索的費力度’與‘提升業(yè)務(wù)轉(zhuǎn)化率’的目的,對用戶搜索故事線前、中、后的體驗不斷迭代優(yōu)化與能力豐富。

以上就是本文基本梳理的搜索業(yè)務(wù)構(gòu)建的骨架,市面上的搜索產(chǎn)品大致是上述功能與流程的組合。暫時先總結(jié)到這么多吧,搜索的更多細節(jié)有機會再進一步分析。



公眾號:策略伽?? 歡迎關(guān)注~

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

友情鏈接更多精彩內(nèi)容