華工機(jī)器學(xué)習(xí)培訓(xùn)筆記

Day1


一、上午

  1. 傳統(tǒng)程序:數(shù)據(jù) + 程序 -> 電腦 -> 輸出
    機(jī)器學(xué)習(xí):數(shù)據(jù) + 輸出 -> 電腦 -> 程序
  2. 條件概率、邊緣概率、聯(lián)合概率、參考;
    貝葉斯公式、貝葉斯網(wǎng)絡(luò)、概率的鏈?zhǔn)椒▌t(重點(diǎn)理解)、參考;
    概率圖模型(自學(xué),即貝葉斯網(wǎng)絡(luò)和馬爾柯夫網(wǎng)絡(luò));
  3. 概率密度函數(shù)、Transformed Densities(不理解)、參考;
    最大似然估計(jì)、最大后驗(yàn)估計(jì)、參考;
  4. 自信息:不確定性的消除;
    概率:事件的不確定性程度;
    熵、聯(lián)合熵、條件熵、相對(duì)熵、交叉熵、參考
  5. 導(dǎo)數(shù)的鏈?zhǔn)角髮?dǎo)法則

二、下午

  1. 數(shù)據(jù)、代價(jià)函數(shù)、最小化代價(jià)函數(shù)、
  2. 最小二乘法(推導(dǎo))、正則化、梯度下降、線性回歸(FIT,擬合)
  3. 線性分類、支持向量機(jī)(軟間隔、hinge loss)、各種損失函數(shù)
  4. 隨機(jī)梯度下降、批次隨機(jī)梯度下降(節(jié)約內(nèi)存)
  5. Adma(AdaGrad + RMSProp)(重點(diǎn)理解!面試必考?。?/strong>
    AdaGrad:適用于稀疏梯度;當(dāng)梯度較小時(shí),下一步跑得慢;梯度較大時(shí),下一步跑得快。
    RMSProp:自適應(yīng)學(xué)習(xí)率。
  6. 牛頓法:每一步梯度都由一個(gè) xxx 矩陣確定,但是復(fù)雜度高。(自學(xué))
  7. 優(yōu)化算法:分布式(中心化(工業(yè)界常用)、去中心化)、量化


    梯度下降矩陣計(jì)算.png

三、晚上

  1. Linux(環(huán)境變量、常用命令

man: Linux 下的幫助指令。
which:用于查找并顯示給定命令的絕對(duì)路徑。
free:顯示當(dāng)前系統(tǒng)未使用和已使用的內(nèi)在數(shù)目。-h:以可讀的方式顯示。
df:顯示磁盤分區(qū)上的可用空間。掛載點(diǎn)
top:系統(tǒng)的運(yùn)行情況。(load:1、5、15 分鐘的負(fù)載情況)

  1. GPU 的基礎(chǔ)概念
  2. Docker的基礎(chǔ)概念
  3. NVIDIA Docker 的基礎(chǔ)概念 (deepo、docker hub)
  4. 實(shí)驗(yàn)、及相關(guān)代碼


Day2

一、上午

大綱
大綱.png
1. 線性模型:?jiǎn)螌痈兄獧C(jī)(sign -> (-1, 1))、邏輯回歸(sigmoid -> (0,1))。
2. 決策樹(詳見《機(jī)器學(xué)習(xí)》):
決策樹學(xué)習(xí)基本算法

2.1. 純度:the degree that the samples in one leaf node belong to the same class
2.2. 信息熵:平均而言發(fā)生一個(gè)事件我們得到的信息量大小。
2.3. 信息增益:熵 - 條件熵,在一個(gè)條件下,信息不確定性減少的程度。(ID3)
2.4. 增益率:懲罰參數(shù) * 信息增益。(C4.5)
2.5. 基尼系數(shù):是一種與信息熵類似的做特征選擇的方式,可以用來數(shù)據(jù)的不純度。(CART)

3. 集成學(xué)習(xí)(詳見《機(jī)器學(xué)習(xí)》)
集成學(xué)習(xí).png

3.1. 基分類器
3.2. 加性模型

4. AdaBoost(如何訓(xùn)練、合并、更新數(shù)據(jù)分布)(一堆數(shù)學(xué)公式……)

4.1. 流程:


AdaBoost 算法流程.png

4.2. 偽代碼:


AdaBoost 偽代碼.png

4.3. 理論分析:錯(cuò)誤率有上界;模型自由率比較小,不容易過擬合;
4.4. AdaBoost 的局限性:等價(jià)對(duì)待正例和負(fù)例。

4.5. 解決:代價(jià)敏感學(xué)習(xí)


AdaBoost 局限性解決 - 代價(jià)敏感學(xué)習(xí).png

4.6. AdaCost
image.png
AdaCost.png
5. GBDT(基于回歸樹)

5.1.動(dòng)機(jī)


image.png

image.png

5.2. 訓(xùn)練基分類器


1.png

3.png

5.3. 組合分類器:加性模型
image.png

5.4. 改變數(shù)據(jù)分布:殘差。
5.5 偽代碼


梯度提升算法 -偽代碼.png

GBDT 偽代碼(第 3 步).png
6. XGBoost

6.1. 過擬合、欠投合、偏差、方差


新的目標(biāo)函數(shù).png

6.2. XGBoost 目標(biāo)函數(shù)


XGBoost 目標(biāo)函數(shù).png

6.3. How to learn? (……一堆公式+一堆例子,這一部分完全沒聽懂)
7. 剪枝、正則化
image.png
8.準(zhǔn)確度
image.png
9.總結(jié)
image.png
10. 附件: XGBoost的實(shí)驗(yàn)手冊(cè)、調(diào)參

二、下午

大綱

day02 下午大綱.png

照片的形成.png

像素值相關(guān).png

圖片存儲(chǔ).png

沒怎么聽……不太感興趣……


三、晚上

如何做實(shí)驗(yàn)及管理實(shí)驗(yàn)
1. Research Workflow
工作流程.png
2.模型設(shè)計(jì)
Model Design.png
3. 訓(xùn)練數(shù)據(jù)
Training Data.png
4. 目錄結(jié)構(gòu)
Directory Structure.png

checkpoints:用來保存中間結(jié)果。
opts(即 configure):放所有超參數(shù)等各種設(shè)置。
main:訓(xùn)練和測(cè)試的代碼。

5. 命名及注釋
train and annotation.png
6. 管理結(jié)果
Result Management.png



Day6

一、上午 推薦系統(tǒng)
1. 流程
推薦系統(tǒng)工作流程.png
2. 協(xié)同過濾:過對(duì)用戶歷史行為數(shù)據(jù)的挖掘發(fā)現(xiàn)用戶的偏好,基于不同的偏好對(duì)用戶進(jìn)行群組劃分并推薦品味相似的商品。
協(xié)同過濾.png

2.1. 協(xié)同過濾分類


協(xié)同過濾分類.png

2.2. 協(xié)同過濾的基本方法


image.png
3. User-based 模型
User-based 模型.png

3.1. 基本問題


User-based 模型的三個(gè)基本問題.png

3.1.1 相似度(套一個(gè)PCC公式,皮爾森)


相似度計(jì)算.png

3.1.2. 計(jì)算總分
總分.png

3.1.3. 取幾個(gè)近鄰(經(jīng)驗(yàn)值)
近鄰數(shù).png

3.2. 模型的優(yōu)化


User-based 模型優(yōu)化,近鄰算法.png

3.3 模型分析
image.png
4. Item-based 模型

4.1 模型的直觀理解:利用其他相似值相同的 item,來評(píng)估 target item。


image.png

4.2 相似度計(jì)算:PCC 或者 余弦相似度


image.png

4.3 預(yù)測(cè)
[圖片上傳失敗...(image-749553-1532742673361)]

4.4 優(yōu)勢(shì):可以做離線預(yù)測(cè)。

5. 以上兩個(gè)模型的基本問題:冷啟動(dòng)(content-based, 遷移學(xué)習(xí))
image.png
6. Model-based 模型(難)
推薦的論文.png

使用 SVD 去 xxx.png

矩陣的評(píng)估.png
7. 聚類模型
image.png
8. 概率模型

[圖片上傳中...(image.png-952044-1532744092074-0)]

9. 分類模型
image.png
10. content-based 模型
image.png
11. learn to rank
image.png

二、Deep learning for RS

1.主流模型
image.png

image.png

image.png

image.png
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容