交流目的及解答
反饋現(xiàn)在遇到的問題
獲得解答
確定后續(xù)的技術(shù)路線,借助DT的經(jīng)驗(yàn)來確定選型是否合適
之前定的方案是合適的,但是細(xì)節(jié)上需要進(jìn)一步明確。
得出能夠落實(shí)的方案(理論依據(jù) + 實(shí)現(xiàn)可能)
- 向業(yè)務(wù)請教現(xiàn)有有效規(guī)則經(jīng)驗(yàn),抽象化為特征
- 積累數(shù)據(jù)
- 模型遷移嘗試
- 構(gòu)建稀疏特征,第一步嘗試使用MLR等傳統(tǒng)模型處理,第二步采用多層神經(jīng)網(wǎng)絡(luò)(是否激進(jìn)一些,直接使用神經(jīng)網(wǎng)絡(luò)???)
交流內(nèi)容點(diǎn)
異常值處理
問題
- 是否進(jìn)行異常值處理?
- 使用哪些異常處理的方式會更為合適?
解答
- 盡量使用尊重數(shù)據(jù)本身,不要做異常值處理
特征構(gòu)建及選擇
問題
- 如何進(jìn)行分段(離散化、分箱) ?
- 是否做啞變量處理?
- 如何進(jìn)行選擇(高度線性相關(guān)、近零方差、逐步迭代回歸)?
- 擴(kuò)展維度編碼(是否一起編碼) 做成插件形式?
解答
- 通過業(yè)務(wù)的先驗(yàn)知識,增加強(qiáng)相關(guān)的特征
- 通過比較粗暴的方式,獲取全量的特征(比如每個時間段的點(diǎn)擊),然后通過多層神經(jīng)網(wǎng)絡(luò)(中間層加入特征選取的功能)進(jìn)行篩選和預(yù)測
- 通過高次特征組合的方式,來擴(kuò)展特征
- 盡量使用端到端的方式,進(jìn)行特征選取
- case1 人 品牌 交互行為 時間 ,以這個四個張量維度,作為基礎(chǔ),分別計算各個維度可能擴(kuò)展出來的特征,從而擴(kuò)展出數(shù)百個強(qiáng)關(guān)聯(lián)的特征。例如人的年齡、性別。 品牌的價位,點(diǎn)擊情況等等。
- 總結(jié):盡可能多的選取特征,交給模型去篩選(注:為避免高階特征可能出現(xiàn)的共線性問題,盡量選取抗共線性模型)
稀疏矩陣處理
問題
- 采用神經(jīng)網(wǎng)絡(luò):技術(shù)選型 線下Keras 線上DL4J
- 采用GBDT + LR
- 采用XGBoost
解答
- 第一步可以使用MLR,GBM,XGBoost等
- 后續(xù),構(gòu)建多層神經(jīng)網(wǎng)絡(luò)(層之間,增加不同的特征處理手段)
- 采用流式學(xué)習(xí)的模型,可以考慮進(jìn)行增量學(xué)習(xí)
- 調(diào)優(yōu)經(jīng)驗(yàn):一方面是根據(jù)已有的經(jīng)驗(yàn)(樹的深度,分叉等等)進(jìn)行調(diào)參,另一方面是通過grid search 搜索
數(shù)據(jù)非平衡 & 數(shù)據(jù)提純問題
解答
- 盡量尊重樣本本身,不要對樣本做過多的處理
- case1 文本問題,4萬樣本,百萬級別特征
- case2 圖像問題,3萬樣本
- case3 CTR 問題,4億樣本,億級別特征,正負(fù)樣本1:80
關(guān)于推薦算法
解答
- 可以嘗試
- 無監(jiān)督學(xué)習(xí)一般來說,難以超越有監(jiān)督學(xué)習(xí)
關(guān)于模型遷移
解答
- 相似類型業(yè)務(wù)的模型,可以遷移使用