收藏!836分鐘的谷歌機(jī)器學(xué)習(xí)教程,帶你10分鐘看完!—— Jinkey 原創(chuàng)

原文鏈接 https://jinkey.ai/post/tech/shou-cang-!836fen-zhong-de-gu-ge-ji-qi-xue-xi-jiao-cheng-dai-ni-10fen-zhong-kan-wan
本文作者 Jinkey(微信公眾號(hào) jinkey-love,官網(wǎng) https://jinkey.ai
文章允許非篡改署名轉(zhuǎn)載,刪除或修改本段版權(quán)信息轉(zhuǎn)載的,視為侵犯知識(shí)產(chǎn)權(quán),我們保留追求您法律責(zé)任的權(quán)利,特此聲明!

0 引言

  • 為了尊重原意,部分名詞不進(jìn)行翻譯。
  • 為了更通俗易懂的解釋概念,使用低維度的情況來(lái)解釋。

1 機(jī)器學(xué)習(xí)概念

1.1 主要術(shù)語(yǔ)

標(biāo)簽
預(yù)測(cè)的事物,即 y = ax + b 中的 y 變量,如房?jī)r(jià)、動(dòng)物種類、是否垃圾郵件等。

特征
輸入變量,即 y = ax + b 中的 x 變量,x 可以是一個(gè),也可以是多個(gè),用 {x1, x2, ..., xn} 組成的向量來(lái)表示。比如
電子郵件的文本字詞、郵箱地址、發(fā)送時(shí)間等

樣本
具體某一個(gè)示例,比如一封郵件。
有標(biāo)簽樣本:郵件(x) + 是否垃圾郵件(y)
無(wú)標(biāo)簽樣本:郵件(x)

模型
模型定義了特征與標(biāo)簽之間的關(guān)系。簡(jiǎn)單的理解為 y = ax + b 中的 a和 b。
訓(xùn)練:輸入(0, 1) , (1, 3) , (2, 5) 求出 a = 2, b = 1
預(yù)測(cè):輸入 x = 10, 推斷出 y = 10*2 +1 = 13

回歸
預(yù)測(cè)連續(xù)值, 如:

  • 加利福尼亞州一棟房產(chǎn)的價(jià)值是多少?
  • 用戶點(diǎn)擊此廣告的概率是多少?

分類
預(yù)測(cè)離散值, 如:

  • 某個(gè)指定電子郵件是垃圾郵件還是非垃圾郵件?
  • 這是一張狗、貓還是倉(cāng)鼠圖片?
  • 這是 Jinkey(公眾號(hào) jinkey-love) 寫(xiě)的文章還是其他人寫(xiě)的文章?

損失
預(yù)測(cè)值和目標(biāo)值的差距。

左側(cè)模型的損失較大;右側(cè)模型的損失較小。

一種常見(jiàn)的損失函數(shù)就是我們的義務(wù)教育階段都學(xué)過(guò)的"兩點(diǎn)間的直線距離",其中 x1=x2:

1.2 降低損失

大家都玩過(guò)猜數(shù)字游戲,主持人出一個(gè) 1-100 內(nèi)的數(shù)字,其他人輪流猜測(cè),玩家 A 提出一個(gè)數(shù)字,主持人只會(huì)說(shuō)大了還是小了。這個(gè)過(guò)程靠猜測(cè)不停地逼近真實(shí)值(也就是不停地縮小損失的過(guò)程)

Gradient Descent
其中一個(gè)常見(jiàn)的降低損失的方法就是梯度下降(Gradient Descent),用高中知識(shí)就可以理解了。
假如損失函數(shù) loss = x^2 + 2x + 1 的梯度函數(shù)就是 loss' = 2x + 2

假如一開(kāi)始輸入x 等于 -3, -2, -1, 1, 2, 3,y’即梯度分別等于 -4, -2, 0, 2, 4,所以如果輸入的樣本是(-2, ?) 則梯度下降的方向就是從 -2 -> -1 移動(dòng),如果輸入的樣本是 (2, ?)就是從 2 -> -1 來(lái)降低損失函數(shù)的值,慢慢移動(dòng)到 -1 得到了損失函數(shù)的極小值。

看到這里你是否覺(jué)得直接通過(guò)高中的知識(shí)求導(dǎo)得到極小值就可以了?但如果變量不止一個(gè),如果上述垃圾郵件樣本包含的特征:文本內(nèi)容包含“貸款”的數(shù)量、郵箱地址、發(fā)送時(shí)間等等,損失函數(shù)就可能是三維甚至多維的,存在一個(gè)或多個(gè)“局部最低小”,并且導(dǎo)數(shù)或偏導(dǎo)數(shù)不能求出的情況下,只能通過(guò)“有技巧地猜數(shù)字”來(lái)逼近真實(shí)值:


梯度下降方法有 隨機(jī)梯度下降 SGD小批量梯度下降 mini-batch SGD。至于具體差異,本文不展開(kāi)說(shuō)明,谷歌的教程也是為了速成。一般采用 mini-batch SGD 會(huì)更加高效。

你可能會(huì)問(wèn)不知道算法怎么寫(xiě)代碼?
在谷歌的 Tensorflow 框架里面,梯度下降就是一行代碼而已, 所以初學(xué)者有個(gè)初步概念即可:

tf.train.GradientDescentOptimizer()

Learning Rate
上面所說(shuō)

-2 -> -1 來(lái)降低損失函數(shù)的值

這里引入了學(xué)習(xí)率的概念-2到-1移動(dòng)說(shuō)明學(xué)習(xí)率是1。如果從-2移動(dòng)到-1.8,學(xué)習(xí)率則是0.2。

學(xué)習(xí)率太大容易跳過(guò)最小值(or 極小值),如藍(lán)線所示,學(xué)習(xí)率太小導(dǎo)致學(xué)習(xí)時(shí)間很長(zhǎng)。

學(xué)習(xí)率 Playground:
https://developers.google.com/machine-learning/crash-course/fitter/graph

1.3 過(guò)擬合

損失很低,但仍然是糟糕的模型,因?yàn)檫^(guò)度擬合了訓(xùn)練集數(shù)據(jù),導(dǎo)致在測(cè)試集或訓(xùn)練集等新樣本上效果很差。


過(guò)擬合

1.4 拆分?jǐn)?shù)據(jù)

訓(xùn)練集和測(cè)試集 (Training and Test Sets)

  • 訓(xùn)練集 - 用于訓(xùn)練模型的子集。
  • 測(cè)試集 - 用于測(cè)試訓(xùn)練后模型的子集。

訓(xùn)練集和測(cè)試集 Playground:
https://developers.google.cn/machine-learning/crash-course/training-and-test-sets/playground-exercise

某些情況下為了防止不小心在訓(xùn)練過(guò)程引入對(duì)測(cè)試集的擬合,引入驗(yàn)證集(就是把數(shù)據(jù)分成三份)

1.5 特征工程

所有類型的數(shù)據(jù),最終都要轉(zhuǎn)換為數(shù)字的形式,計(jì)算機(jī)才能學(xué)習(xí)。使用的特征要注意:

  • 在數(shù)據(jù)集中出現(xiàn)大約 5 次以上,比如不能用數(shù)據(jù)的唯一 id 作為特征
  • 具有清晰明確的含義
  • 不包含超出范圍的異常斷點(diǎn)或“神奇”的值,比如電影評(píng)分為 -1 或 NaN
  • 特征的定義不應(yīng)隨時(shí)間發(fā)生變化,比如地點(diǎn):北京是固定的,但不要用地點(diǎn):219

特征組合 Playground:
https://developers.google.cn/machine-learning/crash-course/feature-crosses/playground-exercises

1.5.1 數(shù)據(jù)類型

數(shù)值數(shù)據(jù)

離散數(shù)據(jù)(直接用或者先離散化)0、1、2
連續(xù)數(shù)據(jù) 0.001、0.2、1.0、2.2

文本數(shù)據(jù)

作為分類標(biāo)簽
{'Netherlands', 'Belgium', 'Luxembourg'}
轉(zhuǎn)換為 {0, 1, 2}

作為自然語(yǔ)言學(xué)習(xí)
A = “Jinkey 是中國(guó)人”
B = “Jinkey 是中國(guó)的學(xué)生”
A + B 的詞列表:(Jinkey, 是, 中國(guó), 人, 的, 學(xué)生)
如果具有某個(gè)詞就用1表示、不具有就用0表示,這樣就把 A 表示成:
A = (1, 1, 1, 1, 0, 0)
B = (1, 1, 1, 0, 1, 1)

圖像數(shù)據(jù)

彩色圖片是分開(kāi) RGBA 四通道的值作為圖片特征,灰度圖把灰度作為圖片特征,黑白圖黑色的像素為1白色為0。


1.5.2 數(shù)據(jù)清洗

縮放特征值
有一個(gè)特征 A (字段)的值是500000, 有一個(gè)特征B(字段)的值是0.1,這時(shí)候需要根據(jù)所有樣本的 A 特征的最大值和最小值把特征值縮放到[0, 1]之間:

縮放值 = (真實(shí)值 - 平均值)/ 標(biāo)準(zhǔn)差

處理極端值

  • 對(duì)每個(gè)值取對(duì)數(shù)
  • 對(duì)大于某個(gè)值的特征值進(jìn)行截?cái)?,比?(1, 2, 3, 666, 2,3)-> (1, 2, 3, 3, 2,3)

分箱
其實(shí)就是把數(shù)值離散化成一個(gè)個(gè)區(qū)間,然后用某個(gè)符號(hào)來(lái)標(biāo)識(shí)


比如緯度37.4可以轉(zhuǎn)換成兩種形式:

  • 6(第6個(gè)區(qū)間)
  • [0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0] (作為一個(gè)11維張量,37.4屬于第6個(gè)區(qū)間,所以為1)
    這種方式也成為 one-hot 編碼(具有一個(gè)特征為1,否則為0)

特征組合
特征組合是指通過(guò)將兩個(gè)或多個(gè)輸入特征相乘來(lái)對(duì)特征空間中的非線性規(guī)律進(jìn)行編碼的合成特征。
[A X B]:將兩個(gè)特征的值相乘形成的特征組合。
[A x B x C x D x E]:將五個(gè)特征的值相乘形成的特征組合。
[A x A]:對(duì)單個(gè)特征的值求平方形成的特征組合。

其他

  • 遺漏值。 例如,有人忘記為某個(gè)房屋的年齡輸入值。
  • 重復(fù)樣本。 例如,服務(wù)器錯(cuò)誤地將同一條記錄上傳了兩次。
  • 不良標(biāo)簽。 例如,有人錯(cuò)誤地將一顆橡樹(shù)的圖片標(biāo)記為楓樹(shù)。
  • 不良特征值。 例如,有人輸入了多余的位數(shù),或者溫度計(jì)被遺落在太陽(yáng)底下。

1.5.3 正則化

L2 正則

為什么要正則化?
懲罰復(fù)雜的模型(過(guò)擬合的模型)

機(jī)器學(xué)習(xí)訓(xùn)練目標(biāo)是損失函數(shù)最小化,如果復(fù)雜模型也算是一種損失,那么可以把模型復(fù)雜度加入到損失函數(shù)的公式里面。

如何衡量一個(gè)模型的復(fù)雜程度?
各變量權(quán)重的平方和(L2正則)

效果:

  • 使權(quán)重值接近于 0(但并非正好為 0)
  • 使權(quán)重的平均值接近于 0,且呈正態(tài)(鐘形曲線或高斯曲線)分布

Lambda正則系數(shù)
在正則項(xiàng)前加系數(shù) Lambda,其對(duì)權(quán)重的影響如圖:

lambda 值過(guò)高 -> 模型會(huì)非常簡(jiǎn)單 -> 欠擬合
lambda 值過(guò)低 -> 模型會(huì)非常復(fù)雜 -> 過(guò)擬合

L1 正則

為什么有 L2 正則 還要 L1 正則
L2 正則化可以使權(quán)重變小,但是并不能使它們正好為 0.0,這樣高維度特征矢量會(huì)消耗大量的內(nèi)存

L1 正則項(xiàng)是絕對(duì)值

正則化 Playground:
L2 https://developers.google.cn/machine-learning/crash-course/regularization-for-simplicity/playground-exercise-overcrossing
L1 https://developers.google.cn/machine-learning/crash-course/regularization-for-sparsity/playground-exercise

1.6 邏輯回歸 (Logistic Regression)

怎么分析一個(gè)句子屬于褒義還是貶義?
把從句子推倒出(褒義詞數(shù)量,貶義詞數(shù)量)二維向量做為特征 X,把人工標(biāo)記的特征標(biāo)為 Y,就進(jìn)行邏輯回歸。

比如我們有一系列人工標(biāo)記的樣本:

罩杯 腿長(zhǎng)(m) 是否美女
A 0.4
A 1.0
C 0.5
C 1.0
D 1.2
D 0.4

通過(guò)一個(gè)神奇的公式,機(jī)器學(xué)習(xí)到一些規(guī)律,比如機(jī)器學(xué)習(xí)到罩杯是 C 的女生是美女的概率為0.5; 腿長(zhǎng) 為 1m 的女生被判斷為美女的概率是 0.5。

當(dāng)輸入一個(gè)新的樣本,系統(tǒng)就能根據(jù)學(xué)習(xí)到的模型1 / (1+exp(w0+w1*x1+w2*x2+...+wm*xm)),算出新加入的女生屬于美女的概率是多少,比如說(shuō)算出來(lái)是0.6的概率,那么如果定義閾值為 0.5, 那么0.6>0.5,所以就認(rèn)為她是個(gè)美女。

0.5 稱為分類閾值 classification threshold,為了將邏輯回歸值(是美女的概率)映射到二元類別(是美女/不是美女),您必須指定分類閾值。

邏輯回歸的損失函數(shù)

和線性回歸采用平方損失不同,邏輯回歸的損失函數(shù)是對(duì)數(shù)損失函數(shù)Log Loss,定義如下


入門(mén)的你,你大可不必記住這個(gè)公司,因?yàn)樵?tensorflow 里面要使用這個(gè)損失函數(shù),只需要一行代碼:

loss = tf.reduce_mean(tf.nn.sigmoid_cross_entropy_with_logits(logits=model_output, labels=y_target))

混淆矩陣 Confusion Matrix

對(duì)于二分類,我們使用混淆矩陣來(lái)表示所有可能的分類結(jié)果。

名詞 解析
真正例 模型將正類別樣本正確地預(yù)測(cè)為正類別
真負(fù)例 模型將負(fù)類別樣本正確地預(yù)測(cè)為負(fù)類別
假正例 模型將負(fù)類別樣本錯(cuò)誤地預(yù)測(cè)為正類別
假負(fù)例 模型將正類別樣本錯(cuò)誤地預(yù)測(cè)為負(fù)類別

以《狼來(lái)了》的故事為例:


精確率 Precision

在被識(shí)別為正類別的樣本中,確實(shí)為正類別的比例是多少?

召回率 Recall

在所有正類別樣本中,被正確識(shí)別為正類別的比例是多少?

精確率和召回率往往是此消彼長(zhǎng)的情況。也就是說(shuō),提高精確率通常會(huì)降低召回率值

ROC 曲線
Receiver Operating Characteristic Curve, 用于繪制采用不同分類閾值時(shí)的 TPR 與 FPR。

AUC 面積
ROC 曲線下面積,Area under the ROC Curve。

1.7 神經(jīng)網(wǎng)絡(luò)

為什么有邏輯回歸等傳統(tǒng)機(jī)器學(xué)習(xí)方法還要神經(jīng)網(wǎng)絡(luò)?
處理非線性問(wèn)題(y = ax + b 這種叫做線性模型)

彩色小球代表神經(jīng)元


神經(jīng)網(wǎng)絡(luò) Playground:
https://developers.google.cn/machine-learning/crash-course/introduction-to-neural-networks/playground-exercises

1.7.1 激活函數(shù)

把y = ax + b的 結(jié)果作為自變量輸入激活函數(shù): f(ax+b) 來(lái)作為神經(jīng)元的輸出值


1.7.2 訓(xùn)練神經(jīng)網(wǎng)絡(luò)

方法:反向傳播

具體過(guò)程你可以拿起筆,自己按照本文作者(公眾號(hào)jinkey-love)之前翻譯的文章來(lái)推演一遍:《用筆一步步演示人工神經(jīng)網(wǎng)絡(luò)的反向傳播算法——Jinkey 翻譯》

可能出現(xiàn)的異常:


上圖是之前網(wǎng)絡(luò)很流行的圖,說(shuō)每天進(jìn)步一點(diǎn)點(diǎn),一年就會(huì)有很大收獲;每天退步一點(diǎn)點(diǎn),一年就會(huì)落后很多。這里就可以引出梯度消失梯度爆炸的概念。

梯度消失

在深度網(wǎng)絡(luò)中,計(jì)算這些梯度時(shí),可能涉及許多小項(xiàng)的乘積。

當(dāng)較低層的梯度逐漸消失到 0 時(shí),這些層的訓(xùn)練速度會(huì)非常緩慢,甚至不再訓(xùn)練。

梯度爆炸

網(wǎng)絡(luò)中的權(quán)重過(guò)大,則較低層的梯度會(huì)涉及許多大項(xiàng)的乘積。

在這種情況下,梯度就會(huì)爆炸:梯度過(guò)大導(dǎo)致難以收斂。

批標(biāo)準(zhǔn)化可以降低學(xué)習(xí)速率,因而有助于防止梯度爆炸。

隨機(jī)失活 Dropout

在梯度下降法的每一步中隨機(jī)丟棄一些網(wǎng)絡(luò)單元。丟棄得越多,正則化效果就越強(qiáng):

  • 0.0 = 無(wú)丟棄正則化
  • 1.0 = 丟棄所有內(nèi)容。模型學(xué)不到任何規(guī)律
  • 0.0 和 1.0 之間的值更有用

1.7.3 多類別神經(jīng)網(wǎng)絡(luò)

二分類 多分類
硬幣正面 40%,反面 60% 貓 20%, 狗 50%, 猴 30%
概率和為 1 概率和為 1
激活函數(shù)為Sigmoid 激活函數(shù)為Softmax

1.7.4 嵌套 (Embedding)

高維空間向低維空間的轉(zhuǎn)換,用于計(jì)算兩個(gè)實(shí)體的相似度。
比如電影類別有科幻、成人、卡通
那么,
《小豬佩奇》就可以轉(zhuǎn)換成one-hoting編碼(0,0,1)
《星球大戰(zhàn)》就可以轉(zhuǎn)換成one-hoting編碼(1,1,0)
《喜愛(ài)夜蒲》就可以轉(zhuǎn)換成one-hoting編碼(0,1,0)

《小豬佩奇》和《星球大戰(zhàn)》的距離3,《星球大戰(zhàn)》和 《喜愛(ài)夜蒲》的距離為1,所以當(dāng)一個(gè)用戶看了電影《星球大戰(zhàn)》,可以給他推薦《喜愛(ài)夜蒲》而不是《小豬佩奇》。

2 機(jī)器學(xué)習(xí)工程

2.1 生產(chǎn)環(huán)境機(jī)器學(xué)習(xí)系統(tǒng)

  • 盡可能重復(fù)使用常規(guī)機(jī)器學(xué)習(xí)系統(tǒng)組件。
  • Google CloudML 解決方案包括 Dataflow 和 TF Serving
  • 可以在 Spark、Hadoop 等其他平臺(tái)中找到組件
  • 了解機(jī)器學(xué)習(xí)系統(tǒng)的一些范例及其要求,找到自己需要哪些組件?

2.2 訓(xùn)練方法

靜態(tài)模型 - 離線訓(xùn)練

  • 易于構(gòu)建和測(cè)試 - 使用批量訓(xùn)練和測(cè)試,對(duì)其進(jìn)行迭代,直到達(dá)到良好效果。
  • 仍然需要對(duì)輸入進(jìn)行監(jiān)控
  • 模型容易過(guò)時(shí)

動(dòng)態(tài)模型 - 在線訓(xùn)練

  • 隨著時(shí)間推移不斷為訓(xùn)練數(shù)據(jù)注入新數(shù)據(jù),定期同步更新版本。
  • 使用漸進(jìn)式驗(yàn)證,而不是批量訓(xùn)練和測(cè)試
  • 需要監(jiān)控、模型回滾和數(shù)據(jù)隔離功能
  • 會(huì)根據(jù)變化作出相應(yīng)調(diào)整,避免了過(guò)時(shí)問(wèn)題

2.3 預(yù)測(cè)方法

離線預(yù)測(cè)

使用 MapReduce 或類似方法批量進(jìn)行所有可能的預(yù)測(cè)。
記錄到表格中,然后提供給緩存/查詢表。

優(yōu)點(diǎn)

  • 不需要過(guò)多擔(dān)心推理成本。
  • 可以使用批量方法。
  • 可以在推送之前對(duì)數(shù)據(jù)預(yù)測(cè)執(zhí)行后期驗(yàn)證。

缺點(diǎn)

  • 只能對(duì)我們知曉的數(shù)據(jù)進(jìn)行預(yù)測(cè),不適用于存在長(zhǎng)尾的情況。
  • 更新可能延遲數(shù)小時(shí)或數(shù)天。

在線預(yù)測(cè)

使用服務(wù)器根據(jù)需要進(jìn)行預(yù)測(cè)。

優(yōu)點(diǎn)

  • 可在新項(xiàng)目加入時(shí)對(duì)其進(jìn)行預(yù)測(cè),非常適合存在長(zhǎng)尾的情況。
  • 計(jì)算量非常大,對(duì)延遲較為敏感,可能會(huì)限制模型的復(fù)雜度。
    缺點(diǎn)
  • 監(jiān)控需求更多。

2.4 數(shù)據(jù)依賴關(guān)系

可靠性

信號(hào)是否始終可用?信號(hào)來(lái)源是否不可靠?

比如

  • 信號(hào)是否來(lái)自因負(fù)載過(guò)重而崩潰的服務(wù)器?
  • 信號(hào)是否來(lái)自每年 8 月去度假的人群?

版本控制

計(jì)算此數(shù)據(jù)的系統(tǒng)是否發(fā)生過(guò)變化?

比如

  • 多久一次?
  • 您如何知道系統(tǒng)發(fā)生變化的時(shí)間?

必要性

特征的實(shí)用性是否能證明值得添加此特征?

相關(guān)性

是否有任何特征密不可分,以至于需要采取額外策略來(lái)梳理它們?

反饋環(huán)

一個(gè)模型是否會(huì)影響另一個(gè)模型
比如兩個(gè)股價(jià)預(yù)測(cè)模型為例:

  • 模型 A - 不理想的預(yù)測(cè)模型
  • 模型 B

由于模型 A 有誤,因此會(huì)導(dǎo)致錯(cuò)誤地決定購(gòu)買(mǎi)股票 X 的股票,而購(gòu)買(mǎi)這些股票會(huì)抬高股票 X 的價(jià)格。模型 B 將股票 X 的股價(jià)用作輸入特征,因此它很容易對(duì)股票 X 的價(jià)值得出錯(cuò)誤結(jié)論。然后,模型 B 會(huì)根據(jù)模型 A 的錯(cuò)誤行為購(gòu)買(mǎi)或銷售股票 X 的股份,反過(guò)來(lái),模型 B 的行為會(huì)影響模型 A,而這樣很可能會(huì)觸發(fā)郁金香狂熱效應(yīng)或?qū)е?X 公司的股價(jià)下滑。

3 機(jī)器學(xué)習(xí)系統(tǒng)在現(xiàn)實(shí)世界里的應(yīng)用

3.1 癌癥預(yù)測(cè)

特征:病人年齡、性別、 醫(yī)療狀況、醫(yī)院名稱、生命體征、檢驗(yàn)結(jié)果
預(yù)測(cè):是否會(huì)患有癌癥

以上設(shè)定存在什么問(wèn)題?

模型中包含的一個(gè)特征是醫(yī)院名稱,比如"癌癥中心"等專門(mén)治療癌癥的機(jī)構(gòu),已經(jīng)暗含了在醫(yī)生的診斷結(jié)論,這叫做標(biāo)簽泄露**。當(dāng)模型嘗試取代醫(yī)生去判斷新樣本時(shí)(還未就醫(yī) ),模型無(wú)法得知該信息,導(dǎo)致預(yù)測(cè)的結(jié)果非常糟糕。

3.2 文學(xué)

特征:文學(xué)語(yǔ)句
預(yù)測(cè):作者的政治派別

以上設(shè)定存在什么問(wèn)題?

當(dāng)我們創(chuàng)建測(cè)試訓(xùn)練和驗(yàn)證拆分內(nèi)容時(shí), 我們是通過(guò)逐句拆分樣本來(lái)實(shí)現(xiàn)的。也就是說(shuō),同一個(gè)作者的語(yǔ)句會(huì)一部分會(huì)被編入訓(xùn)練集,一部分會(huì)編入測(cè)試集,這導(dǎo)致訓(xùn)練的模型可以了解某個(gè)作者在語(yǔ)言使用方面的特質(zhì), 而不僅僅是了解他使用的隱喻手法。所以應(yīng)該在作者的層面,這個(gè)作者的所有語(yǔ)句要么都作為訓(xùn)練集,要么都作為測(cè)試集。

3.3 機(jī)器學(xué)習(xí)準(zhǔn)則

  • 確保第一個(gè)模型簡(jiǎn)單易用
  • 著重確保數(shù)據(jù)管道的正確性
  • 使用簡(jiǎn)單且可觀察的指標(biāo)進(jìn)行訓(xùn)練和評(píng)估
  • 擁有并監(jiān)控您的輸入特征
  • 將您的模型配置視為代碼:進(jìn)行審核并記錄在案
  • 記下所有實(shí)驗(yàn)的結(jié)果,尤其是“失敗”的結(jié)果

編程練習(xí)

Pandas 簡(jiǎn)介

使用 TensorFlow 的起始步驟

合成特征和離群值

驗(yàn)證:編程練習(xí)

特征集:編程練習(xí)

特征組合編程練習(xí)

邏輯回歸編程練習(xí)

稀疏性和 L1 正則化:編程練習(xí)

神經(jīng)網(wǎng)絡(luò)簡(jiǎn)介:編程練習(xí)

提高神經(jīng)網(wǎng)絡(luò)性能:編程練習(xí)

MNIST 數(shù)字分類編程練習(xí)

嵌套編程練習(xí)

v

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容