亚洲色自拍另类精品,一区二区二三区四区天

9月20日，第四范式資深算法科學(xué)家@程曉澄進行了一次直播分享《機器學(xué)習(xí)在推薦熊中的應(yīng)用》；下面，是個人的干貨總結(jié) ~

注：直播回看地址https://v.douyu.com/show/oERALvEn3Pn71Vw0

一、推薦系統(tǒng)的誕生土壤和早期演進

1、推薦系統(tǒng)的誕生土壤

1）長尾理論的興起：較長的尾部的受眾群體可能超過頭部

2）線下銷售的二八法則：80%的利潤來自20%的商品

3）互聯(lián)網(wǎng)發(fā)布門檻和成本降低后，網(wǎng)站的業(yè)務(wù)情況取決于長尾內(nèi)容的分發(fā)

2、什么是好的帖子：聰明才智+經(jīng)驗rank

1）產(chǎn)品經(jīng)理和運營人員提供個人經(jīng)驗（是否最近更新、引入?yún)^(qū)間和置信度進行評估）

2）通過公式衡量的rank（根據(jù)網(wǎng)站拓撲圖，和網(wǎng)站初始得分、收斂排名、跳出概率有關(guān)），作為當(dāng)時衡量網(wǎng)站推廣水平的重要指標(biāo)。

3、亞馬遜的協(xié)同過濾

1）用戶買過商品后，會有一定概率購買相似商品

（兩個商品的相似通過評分矩陣來刻畫；相似程度通過cos函數(shù)計算出來）

2）給用戶推薦他朋友們喜歡的商品類別

（通過喜好相似度不同的朋友做加權(quán)平均計算；用cos函數(shù)的歸一化解決打分標(biāo)準不同的問題；peason系數(shù)去除打分本身的偏差）

4、經(jīng)驗評估和協(xié)同過濾的不足（需要有更豐富的假設(shè)并對用戶的正負反饋進行自我修正、自我選擇）

1）對用戶喜好的假設(shè)條件不一定成立

2）不一定適用于每個用戶和每一件商品item

3）每個item、category的權(quán)重和表達的信息含量可能不一樣

5、機器學(xué)習(xí)

1）f函數(shù)代表世界上的真理（未知的）可推斷出用戶的喜好

2）根據(jù)歷史數(shù)據(jù)，有一個假設(shè)空間h，在算法A中搜索到最接近真理f的假設(shè)g

3）損失函數(shù)cost衡量g和f的接近程度

4）f函數(shù)可能代表點擊率、觀看時長、評分或其他量化體驗或營收的值

6、矩陣分解的推薦方式

1）y代表用戶對商品item的評分，根據(jù)u（用戶id）和i（item id）

2）通過用戶的喜好維度和商品自身的屬性計算出用戶的喜好程度

7、矩陣分解的局限

1）無法刻畫新用戶和新內(nèi)容

2）無法利用用戶的信息、內(nèi)容的特征（可從線下經(jīng)驗中學(xué)習(xí)）

8、為機器學(xué)習(xí)模型注入更多的特征

1）猜想空間不限于公式、興趣維度、rank方法（用戶信息、商品信息、當(dāng)前上下文信息，歷史銷售記錄），每一種特征的權(quán)重由模型自己去學(xué)習(xí)

2）監(jiān)督學(xué)習(xí)成為廣告投放、搜索排序、電商內(nèi)容推薦領(lǐng)域的核心引擎

二、推薦系統(tǒng)當(dāng)下的基本架構(gòu)

1、候選集召回

1）候選集內(nèi)容達到百億級甚至是千億級（商品、內(nèi)容、搜索結(jié)果），直接用模型計算時間成本比較高

2）初篩的方式：

-排序召回（最新、最熱、最近、最新光顧、各種經(jīng)驗上的評分公式）

-簡單模型、rank召回（item based/user based、矩陣分解）

-規(guī)則召回（天氣、近期搜索瀏覽、朋友的購買、同期過往習(xí)慣等）

3）通過A/B test找到更好的初篩方式

2、模型排序

1）排序考慮更多的因素（時間、季節(jié)、運營者信息、連接方式、行為序列、社交關(guān)系、歷史行為內(nèi)容序列、GPS坐標(biāo)、IP地址）

2）先進的排序模型：Wide&Deep Models

觀看、收藏、購買、搜索序列（RNN）

圖片信息（CNN）、文字信息（word2vec）

一般用前一層的hidden layer去做決策，為了得到更好的結(jié)果會把模型的思考結(jié)果分得更細。

3、生成推薦結(jié)果

僅對結(jié)果做排序用戶無法滿足，需進一步優(yōu)化體驗：

1）多樣化

2）已知內(nèi)容和用戶可能不喜歡的新領(lǐng)域

3）準確性vs多樣性vs新穎性

三、搭建一個推薦系統(tǒng)

1、線上請求

1）選擇候選規(guī)則并過濾

2）通過模型獲取參數(shù)并計算

3）根據(jù)多樣化、去重規(guī)則生成推薦列表

4）內(nèi)容不夠展示時需要擴充召回范圍填充內(nèi)容

2、線下數(shù)據(jù)流閉環(huán)

1）根據(jù)全部候選集信息存儲的表格做搜索并記錄

2）用戶特征和物品特征的拼接、行為反饋數(shù)據(jù)拼接到特征上

3、數(shù)據(jù)分析、算法實驗

1）可響應(yīng)產(chǎn)品、性能、算法需求的架構(gòu)（不斷迭代）

2）可同時進行大量實驗的環(huán)境機制，用以獲取豐富的數(shù)據(jù)

4、面臨的挑戰(zhàn)

1）速度方面：

-數(shù)據(jù)的增長不受技術(shù)限制，在有限時間內(nèi)完成模型訓(xùn)練

-使用更多特征、更復(fù)雜的模型會提高效果，和成本之間如何取舍

-需要有專門為機器學(xué)習(xí)任務(wù)優(yōu)化的計算框架

2）可擴展性方面：

-業(yè)務(wù)增長的速度不僅是量的增長，更是維度的增長（更多場景、更多用戶和內(nèi)容種類）

-快速發(fā)展的創(chuàng)業(yè)公司需要能匹配自己增長全周期的機器學(xué)習(xí)解決方案（做得早且效果好可以形成自己的壁壘）

5、研究方向

1）能收集到更真實無壓力反饋的產(chǎn)品形式、交互設(shè)計

2）更多種類的特征：挖掘圖像、音頻、文本特征、Session類特征

特征工程：通過特征組合、特征變換，豐富假設(shè)空間

3）模型抽象與相匹配的優(yōu)化算法

四、Q&A環(huán)節(jié)

1、當(dāng)前最主流的推薦算法？

邏輯回歸算法

前沿的應(yīng)用：FTRL、LR（極其豐富的特征，簡單線性模型，并發(fā)性能好以及并發(fā)訓(xùn)練實踐上有較多積累）

2、對于一個沒有什么其他用戶交互信息的新用戶，一般怎么做推薦？

用戶訪問到網(wǎng)站和app時有原始數(shù)據(jù)（手機類型、網(wǎng)絡(luò)類型、GPS地理信息、社交賬號信息），特征組合后識別出特定的人群，會有對應(yīng)的統(tǒng)計特征

3、深度學(xué)習(xí)在推薦中的應(yīng)用？

特定場景只能拿到很少的信息，可以通過深度學(xué)習(xí)挖掘未主動提供的信息（頭像、顏值、直播的背景音樂風(fēng)格、直播的內(nèi)容、新聞的文本）

4、對于物料更新比較頻繁的應(yīng)用（比如新聞推薦），id類特征是否能提升效果？

從冷啟動的角度，對信息豐富的用戶做聚類，把新內(nèi)容對他們隨機分發(fā)，收集不同類型用戶的反饋，得到新聞id更適合的人群，再用粗糙的規(guī)模做更大量的分發(fā)，過了分發(fā)初期后，模型能訓(xùn)練出更好的推薦結(jié)果。

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

干貨整理_機器學(xué)習(xí)在推薦系統(tǒng)中的應(yīng)用_AI游學(xué)小分隊_20170922

干貨整理_機器學(xué)習(xí)在推薦系統(tǒng)中的應(yīng)用_AI游學(xué)小分隊_20170922

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

干貨整理_機器學(xué)習(xí)在推薦系統(tǒng)中的應(yīng)用_AI游學(xué)小分隊_20170922

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av