姓名:畢曉鵬
學(xué)號:19021210824
【嵌牛導(dǎo)讀】這是一篇關(guān)于電商檢索的論文,講了如何淘寶如何通過用戶上傳的圖片,返回相關(guān)商品
【嵌牛鼻子】商品檢索
【嵌牛提問】你知道更多的電商檢索方法嗎?
【嵌牛正文】
難點(diǎn)
用戶上傳的數(shù)據(jù)帶有復(fù)雜的背景,圖像質(zhì)量不一樣。
商品數(shù)量大,類別之間差異小。
標(biāo)注訓(xùn)練,清洗數(shù)據(jù)成本高。
不僅要使用視覺搜索技術(shù)返回商品,還要考慮商品的質(zhì)量,用戶的購買意愿。
基于分類模型和圖像搜索融合的類目預(yù)測
類目預(yù)測是為了進(jìn)一步減小搜索空間
基于分類模型的商品類別預(yù)測,訓(xùn)練googlenetV1 預(yù)測查詢圖像的類別(14個大類),使用softmax分類函數(shù),每一個類別都對應(yīng)著一個概率。
基于圖像搜索技術(shù)的商品類目預(yù)測,使用googlenetv1輸出的特征,在整個圖像庫里面檢索最相似的top30圖像,對這30幅圖像類別加權(quán)排序,同樣每個類別對應(yīng)一個相應(yīng)的概率。
將上述兩種方法進(jìn)行融合,加權(quán)平均,得到最終的可能商品類別,上述融合方法取得了2%top1的精度提升。
構(gòu)建難樣本
使用triplet loss作為損失函數(shù),負(fù)樣本的選擇,直接用其他類目的圖像,并不是最優(yōu)選擇,通過挖掘用戶的點(diǎn)擊行為,使用用戶點(diǎn)擊圖像和非點(diǎn)擊圖像作為正負(fù)樣本。
聯(lián)合目標(biāo)檢測
對目標(biāo)進(jìn)行裁剪,會去掉很多背景信息,來優(yōu)化檢索性能。如果使用目標(biāo)檢測算法,會造成時間開銷增大,阿里提出了一種聯(lián)合學(xué)習(xí)的方法。這里的目標(biāo)檢測分支并沒有標(biāo)注目標(biāo)框的監(jiān)督信息,這里具體網(wǎng)絡(luò)怎么找到的目標(biāo)信息,還需要再看一下。

重排序
對于視覺搜索返回的商品列表結(jié)果,精確的結(jié)果并不能很好的激發(fā)用戶點(diǎn)擊商品,所以會根據(jù)每個商品的價格、好評等其他信息排序。
圖像索引和檢索
為了提高檢索速度,先使用二值進(jìn)行查詢,這里為了過濾大部分未匹配的數(shù)據(jù),然后在進(jìn)行細(xì)排序,最后根據(jù)重排序來最終確定返回的商品。