1. 什么是機器學(xué)習(xí)
從歷史數(shù)據(jù)中尋找規(guī)律,把規(guī)律用到對未來不確定場景的決策。規(guī)律=數(shù)學(xué)公式。
機器學(xué)習(xí)發(fā)展的原動力
- 從歷史數(shù)據(jù)中尋找規(guī)律,把規(guī)律用到未來自動做出決策
- 用數(shù)據(jù)代替expert(因為專家決策有片面性主觀性)
- 經(jīng)濟驅(qū)動,數(shù)據(jù)變現(xiàn)
業(yè)務(wù)發(fā)展歷史
- 基于專家經(jīng)驗——>然后由程序員用if-else實現(xiàn)
- 基于統(tǒng)計,分析人員對統(tǒng)計數(shù)據(jù)進行分析(強烈依賴于分析人員的業(yè)務(wù)能力)
- 機器學(xué)習(xí)
- 離線學(xué)習(xí):跑個定時腳本,訓(xùn)練模型。例如:根據(jù)歷史數(shù)據(jù)當(dāng)天晚上訓(xùn)練好模型后以供第二天使用;
- 在線學(xué)習(xí):當(dāng)用戶發(fā)起一次請求,模型就在線學(xué)習(xí)一次,結(jié)合實時數(shù)據(jù)訓(xùn)練模型。
2. 生活中的機器學(xué)習(xí)
購物籃分析——關(guān)聯(lián)規(guī)則;
用戶細分精準營銷——聚類
垃圾郵件識別——樸素貝葉斯
信用卡防欺詐——決策樹
互聯(lián)網(wǎng)廣告——CTR預(yù)估
推薦系統(tǒng)——協(xié)同過濾
3. 數(shù)據(jù)分析和機器學(xué)習(xí)
| 數(shù)據(jù)分析 | 機器學(xué)習(xí) | |
|---|---|---|
| 處理的數(shù)據(jù) | 交易數(shù)據(jù)(和錢有關(guān));少量數(shù)據(jù);采樣分析 | 行為數(shù)據(jù);海量數(shù)據(jù);全量分析 |
| 解決的業(yè)務(wù)問題 | 報告過去的事 | 預(yù)測未來的事 |
| 技術(shù)手段 | 用戶驅(qū)動(依賴于分析人員的經(jīng)驗技術(shù)) | 算法+數(shù)據(jù)驅(qū)動 |
| 目標(biāo)用戶 | 公司高層 | 用戶個體 |
4. 常用算法
算法分類
- 按照算法學(xué)習(xí)方式
算法的目的是找出輸入X和輸出Y之間的關(guān)系。
有監(jiān)督學(xué)習(xí):有用于訓(xùn)練的樣本數(shù)據(jù),樣本數(shù)據(jù)中包含輸入以及對應(yīng)的輸出。
根據(jù)樣本數(shù)據(jù)訓(xùn)練得到一個最優(yōu)模型(即為X和Y的關(guān)系),再根據(jù)這個模型將新的輸入映射為對應(yīng)的輸出。
例如:在人對事物的認識過程中,小時候被家長教這是鳥、那是魚……這就相當(dāng)于有輸入和對應(yīng)輸出的樣本數(shù)據(jù)。當(dāng)我們見識多了,腦子里就慢慢得到了一些泛化的模型,這就是訓(xùn)練得到的函數(shù)。從而不需要大人在身邊指點,我們也能分辨出來哪些是鳥、是房子。無監(jiān)督學(xué)習(xí):事先沒有任何訓(xùn)練樣本。
例如:我們參觀畫展,事先對藝術(shù)一無所知,但欣賞完很多作品后,我們也能把他們分為不同的派別(例如朦朧派,寫實派……,即使我們不知道什么是朦朧派、什么是寫實派,但至少能把他們分成幾類)。半監(jiān)督學(xué)習(xí)
- 按照要解決的問題的類型
- 分類與回歸
- 聚類
- 標(biāo)注
- 按照算法類似性
- 生成模型
- 判別模型
| 生成模型 | 判別模型 | |
|---|---|---|
| 輸出結(jié)果的形式 | 給出屬于A/B/C類的概率,類似陪審團 | 通過給定函數(shù)判斷Y/N,類似大法官裁決,非一即二 |
常見算法


5. 機器學(xué)習(xí)解決問題的框架
- 確定目標(biāo)
- 明確業(yè)務(wù)需求
- 準備數(shù)據(jù)
- 特征工程(Feature Engineering):該部分工作對模型的最終效果影響很大
- 訓(xùn)練模型
- 定義模型
- 定義損失函數(shù)
- 優(yōu)化算法
- 模型評估
- 交叉驗證:將不同算法帶入同一數(shù)據(jù)中,驗證效果
- 效果評估:評出幾個算法之間的差別、效果
6.Demo
7. 參考文獻
慕課網(wǎng)_初識機器學(xué)習(xí)-理論篇
聚類(序)——監(jiān)督學(xué)習(xí)與無監(jiān)督學(xué)習(xí)
機器學(xué)習(xí)常用算法總結(jié)