AI產(chǎn)品經(jīng)理一定要看懂機(jī)器學(xué)習(xí)1


本文概括介紹了機(jī)器學(xué)習(xí)定義和其七大步驟,后續(xù)文章將就七大步驟展開(kāi)詳細(xì)介紹。AI產(chǎn)品經(jīng)理雖然不用具體算法調(diào)參,但工作內(nèi)容一定和7大步驟相互滲透,息息相關(guān)。比如AI數(shù)據(jù)PM就要和數(shù)據(jù)采集處理天天打交道,AI+行業(yè)PM更注重于數(shù)據(jù)的應(yīng)用行業(yè)場(chǎng)景的落地,算法PM更不用說(shuō),每天工作的內(nèi)容都是圍繞算法訓(xùn)練和測(cè)試的精度。


1、機(jī)器學(xué)習(xí)是什么?

1.1定義:

機(jī)器學(xué)習(xí)是讓計(jì)算機(jī)從數(shù)據(jù)經(jīng)驗(yàn)中學(xué)習(xí)出一套算法模型,使之具備預(yù)測(cè)識(shí)別問(wèn)題的能力。

1.2和人工智能,深度學(xué)習(xí),神經(jīng)網(wǎng)絡(luò)傻傻分不清的關(guān)系:

機(jī)器學(xué)習(xí)是人工智能的分支,深度學(xué)習(xí)是可以高效處理復(fù)雜模型的一種機(jī)器學(xué)習(xí),典型模型是神經(jīng)網(wǎng)絡(luò)。


人工智能,機(jī)器學(xué)習(xí)、深度學(xué)習(xí),神經(jīng)網(wǎng)絡(luò)的關(guān)系



2、機(jī)器學(xué)習(xí)七步驟

7大步驟

2.1數(shù)據(jù)收集:

機(jī)器學(xué)習(xí)形象化理解就是從數(shù)據(jù)樣本中學(xué)習(xí)總結(jié)出一套普遍適用的規(guī)律。所以一般來(lái)說(shuō),同等條件下數(shù)據(jù)量越大,種類越豐富,覆蓋越精細(xì),質(zhì)量越高,訓(xùn)練效果越好。反之,沒(méi)有這些數(shù)據(jù),機(jī)器學(xué)習(xí)就是巧婦難為無(wú)米之炊。

2.2數(shù)據(jù)處理:

不可能所有收集來(lái)的數(shù)據(jù)都是符合要求的,所以需要對(duì)不同渠道和批次收集來(lái)的數(shù)據(jù)進(jìn)行種類、質(zhì)量、數(shù)量等維度的綜合評(píng)估。然后按需成比例分為2類:訓(xùn)練集(包括驗(yàn)證集)和測(cè)試集。

介紹2種數(shù)據(jù)分法:

1)留出法:80%左右訓(xùn)練集、20%左右測(cè)試集。缺陷:測(cè)試集小時(shí),評(píng)估結(jié)果方差大,訓(xùn)練集小時(shí),評(píng)估結(jié)果偏差大

2)交叉驗(yàn)證法:將樣本分為10個(gè)子集,每次用9個(gè)做訓(xùn)練,1個(gè)做測(cè)試。迭代10次后,最終結(jié)果取10次均值。缺陷:數(shù)據(jù)集較大,比如百萬(wàn)級(jí)時(shí),計(jì)算復(fù)雜度過(guò)高。

注:驗(yàn)證集是用來(lái)進(jìn)行模型選擇和調(diào)參得評(píng)估。比如60%做訓(xùn)練、20%做驗(yàn)證、20%做測(cè)試集

2.3模型選擇:

1)選擇參數(shù):首先要需要由人工設(shè)定或算法自己學(xué)習(xí)產(chǎn)生多個(gè)參數(shù),比如識(shí)別香蕉這個(gè)任務(wù),人為設(shè)定或算法學(xué)習(xí)將顏色、形狀、果實(shí)軟硬程度這3個(gè)特征(參數(shù))作為識(shí)別需要關(guān)注得屬性。

2)確定任務(wù)所屬的算法類型

一般把機(jī)器學(xué)習(xí)算法按照任務(wù)和數(shù)據(jù)集的特點(diǎn)分為以下三類:

? ? ?1、監(jiān)督學(xué)習(xí) (有正確標(biāo)記信息的數(shù)據(jù)集,用于回歸分類)

? ? ?2、無(wú)監(jiān)督學(xué)習(xí)(無(wú)標(biāo)記信息的數(shù)據(jù)集,用于聚類、降維)

? ? ?3、強(qiáng)化學(xué)習(xí)(介于監(jiān)督和無(wú)監(jiān)督之間,當(dāng)預(yù)測(cè)不正確時(shí),會(huì)告訴算法不對(duì)但不告訴算法怎么改,要算法自己不斷試探直到找到正確答案,用于游戲、機(jī)器人)

3)確定算法模型

不同的算法模型有不同的特點(diǎn),所以需要依據(jù)任務(wù)的特點(diǎn)選擇最合適的模型。比如預(yù)測(cè)股票得漲跌需要能處理連續(xù)數(shù)據(jù)的函數(shù),如線性函數(shù)。有沒(méi)有得癌癥,收到的電子郵件是不是垃圾郵件屬于分類問(wèn)題,則需要找到能處理離散數(shù)據(jù)的函數(shù)模型,如logistic。

2.4模型訓(xùn)練

輸入初始值,不斷迭代直到輸出最優(yōu)的結(jié)果。

以線性回歸模型舉例。假設(shè)h(x)是存在的實(shí)際函數(shù),θ是參數(shù)向量,用J(θ)來(lái)表示實(shí)際樣本和假設(shè)函數(shù)得到的值之間的方差即代價(jià)函數(shù)。算法的目的是通過(guò)梯度下降等方法找到J(θ)的最小值。


梯度下降的意思是通過(guò)一點(diǎn)點(diǎn)改變參數(shù)的選值,直到找到使得J(θ)最小的值。用來(lái)控制移動(dòng)步伐的叫做學(xué)習(xí)參數(shù)。如下圖,橫坐標(biāo)表示迭代次數(shù),縱坐標(biāo)表示J(θ),若學(xué)習(xí)率取值正確,這個(gè)曲線會(huì)越來(lái)越接近X軸,且最終將在500次迭代時(shí)收斂于某一個(gè)穩(wěn)定值。

2.5模型驗(yàn)證

訓(xùn)練結(jié)束,需要對(duì)訓(xùn)練的效果進(jìn)行評(píng)估。所以需要使用之前預(yù)留的從未使用過(guò)的測(cè)試數(shù)據(jù)。就好像一個(gè)學(xué)生通過(guò)題庫(kù)訓(xùn)練后,要用一套從沒(méi)在題庫(kù)出現(xiàn)過(guò)的題目來(lái)測(cè)試這個(gè)學(xué)生的學(xué)習(xí)效果一樣。但是我們需要從哪些維度來(lái)衡量學(xué)生在測(cè)試中考試的成績(jī)和在題庫(kù)中訓(xùn)練的成績(jī)的好壞呢?又要如何分析差距的原因。方差和偏差,查準(zhǔn)率和查全率、訓(xùn)練誤差、泛化誤差、過(guò)擬合和欠擬合這些可能聽(tīng)過(guò)但傻傻分不清的維度就常常在這個(gè)環(huán)節(jié)被提到。(后面再寫(xiě)一篇做詳細(xì)介紹)

2.6調(diào)整參數(shù)

參數(shù)的設(shè)定對(duì)結(jié)果的精度和耗時(shí)至關(guān)重要。

諸如2.4中提到的學(xué)習(xí)參數(shù)如果設(shè)定的不合適,就會(huì)遇到下面幾種情況:

1)學(xué)習(xí)率設(shè)定的過(guò)小,像小寶寶的小步子,可能會(huì)收斂的很慢,要迭代很多次才會(huì)找到最優(yōu)解。

2)學(xué)習(xí)率設(shè)定的過(guò)大,每個(gè) 步子都移動(dòng)的太大,可能錯(cuò)過(guò)最低點(diǎn),找不到收斂值,且會(huì)離最優(yōu)解越來(lái)越遠(yuǎn)。

出現(xiàn)諸如以上的問(wèn)題都會(huì)影響模型的精度。所以需要結(jié)合模型驗(yàn)證的結(jié)果來(lái)調(diào)整參數(shù)。

2.7投入使用

來(lái)到機(jī)器學(xué)習(xí)的最后一步就是使其價(jià)值落地的實(shí)現(xiàn)。現(xiàn)在人臉識(shí)別、文本識(shí)別、語(yǔ)音識(shí)別的應(yīng)用,背后都是利用機(jī)器學(xué)習(xí)對(duì)未知樣本的預(yù)測(cè)實(shí)現(xiàn)的。



參考:

書(shū):《機(jī)器學(xué)習(xí)》周志華

視頻:《機(jī)器學(xué)習(xí)》吳恩達(dá)

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容