原文鏈接 https://jinkey.ai/post/tech/shou-cang-!836fen-zhong-de-gu-ge-ji-qi-xue-xi-jiao-cheng-dai-ni-10fen-zhong-kan-wan
本文作者 Jinkey（微信公眾號(hào) jinkey-love，官網(wǎng) https://jinkey.ai）
文章允許非篡改署名轉(zhuǎn)載，刪除或修改本段版權(quán)信息轉(zhuǎn)載的，視為侵犯知識(shí)產(chǎn)權(quán)，我們保留追求您法律責(zé)任的權(quán)利，特此聲明！

0 引言

為了尊重原意，部分名詞不進(jìn)行翻譯。
為了更通俗易懂的解釋概念，使用低維度的情況來(lái)解釋。

1 機(jī)器學(xué)習(xí)概念

1.1 主要術(shù)語(yǔ)

標(biāo)簽
預(yù)測(cè)的事物，即 y = ax + b 中的 y 變量，如房?jī)r(jià)、動(dòng)物種類、是否垃圾郵件等。

特征
輸入變量，即 y = ax + b 中的 x 變量，x 可以是一個(gè)，也可以是多個(gè)，用 {x1, x2, ..., xn} 組成的向量來(lái)表示。比如
電子郵件的文本字詞、郵箱地址、發(fā)送時(shí)間等

樣本
具體某一個(gè)示例，比如一封郵件。
有標(biāo)簽樣本：郵件(x) + 是否垃圾郵件(y)
無(wú)標(biāo)簽樣本：郵件(x)

模型
模型定義了特征與標(biāo)簽之間的關(guān)系。簡(jiǎn)單的理解為 y = ax + b 中的 a和 b。
訓(xùn)練：輸入(0, 1) , (1, 3) , (2, 5) 求出 a = 2， b = 1
預(yù)測(cè)：輸入 x = 10，推斷出 y = 10*2 +1 = 13

回歸
預(yù)測(cè)連續(xù)值，如：

加利福尼亞州一棟房產(chǎn)的價(jià)值是多少？
用戶點(diǎn)擊此廣告的概率是多少？

分類
預(yù)測(cè)離散值，如：

某個(gè)指定電子郵件是垃圾郵件還是非垃圾郵件？
這是一張狗、貓還是倉(cāng)鼠圖片？
這是 Jinkey（公眾號(hào) jinkey-love）寫(xiě)的文章還是其他人寫(xiě)的文章？

損失
預(yù)測(cè)值和目標(biāo)值的差距。

左側(cè)模型的損失較大；右側(cè)模型的損失較小。

一種常見(jiàn)的損失函數(shù)就是我們的義務(wù)教育階段都學(xué)過(guò)的"兩點(diǎn)間的直線距離"，其中 x1=x2：

1.2 降低損失

大家都玩過(guò)猜數(shù)字游戲，主持人出一個(gè) 1-100 內(nèi)的數(shù)字，其他人輪流猜測(cè)，玩家 A 提出一個(gè)數(shù)字，主持人只會(huì)說(shuō)大了還是小了。這個(gè)過(guò)程靠猜測(cè)不停地逼近真實(shí)值（也就是不停地縮小損失的過(guò)程）

Gradient Descent
其中一個(gè)常見(jiàn)的降低損失的方法就是梯度下降(Gradient Descent)，用高中知識(shí)就可以理解了。
假如損失函數(shù) loss = x^2 + 2x + 1 的梯度函數(shù)就是 loss' = 2x + 2

假如一開(kāi)始輸入x 等于 -3, -2, -1, 1, 2, 3，y’即梯度分別等于 -4, -2, 0, 2, 4，所以如果輸入的樣本是(-2, ?) 則梯度下降的方向就是從 -2 -> -1 移動(dòng)，如果輸入的樣本是 (2, ?)就是從 2 -> -1 來(lái)降低損失函數(shù)的值，慢慢移動(dòng)到 -1 得到了損失函數(shù)的極小值。

看到這里你是否覺(jué)得直接通過(guò)高中的知識(shí)求導(dǎo)得到極小值就可以了？但如果變量不止一個(gè)，如果上述垃圾郵件樣本包含的特征：文本內(nèi)容包含“貸款”的數(shù)量、郵箱地址、發(fā)送時(shí)間等等，損失函數(shù)就可能是三維甚至多維的，存在一個(gè)或多個(gè)“局部最低小”，并且導(dǎo)數(shù)或偏導(dǎo)數(shù)不能求出的情況下，只能通過(guò)“有技巧地猜數(shù)字”來(lái)逼近真實(shí)值：

梯度下降方法有 隨機(jī)梯度下降 SGD 和 小批量梯度下降 mini-batch SGD。至于具體差異，本文不展開(kāi)說(shuō)明，谷歌的教程也是為了速成。一般采用 mini-batch SGD 會(huì)更加高效。

你可能會(huì)問(wèn)不知道算法怎么寫(xiě)代碼？
在谷歌的 Tensorflow 框架里面，梯度下降就是一行代碼而已, 所以初學(xué)者有個(gè)初步概念即可：

tf.train.GradientDescentOptimizer()

Learning Rate
上面所說(shuō)

從 -2 -> -1 來(lái)降低損失函數(shù)的值

這里引入了學(xué)習(xí)率的概念-2到-1移動(dòng)說(shuō)明學(xué)習(xí)率是1。如果從-2移動(dòng)到-1.8，學(xué)習(xí)率則是0.2。

學(xué)習(xí)率太大容易跳過(guò)最小值（or 極小值），如藍(lán)線所示，學(xué)習(xí)率太小導(dǎo)致學(xué)習(xí)時(shí)間很長(zhǎng)。

學(xué)習(xí)率 Playground：
https://developers.google.com/machine-learning/crash-course/fitter/graph

1.3 過(guò)擬合

損失很低，但仍然是糟糕的模型，因?yàn)檫^(guò)度擬合了訓(xùn)練集數(shù)據(jù)，導(dǎo)致在測(cè)試集或訓(xùn)練集等新樣本上效果很差。

過(guò)擬合

1.4 拆分?jǐn)?shù)據(jù)

訓(xùn)練集和測(cè)試集 (Training and Test Sets)

訓(xùn)練集 - 用于訓(xùn)練模型的子集。
測(cè)試集 - 用于測(cè)試訓(xùn)練后模型的子集。

訓(xùn)練集和測(cè)試集 Playground:
https://developers.google.cn/machine-learning/crash-course/training-and-test-sets/playground-exercise

某些情況下為了防止不小心在訓(xùn)練過(guò)程引入對(duì)測(cè)試集的擬合，引入驗(yàn)證集（就是把數(shù)據(jù)分成三份）

1.5 特征工程

所有類型的數(shù)據(jù)，最終都要轉(zhuǎn)換為數(shù)字的形式，計(jì)算機(jī)才能學(xué)習(xí)。使用的特征要注意：

在數(shù)據(jù)集中出現(xiàn)大約 5 次以上，比如不能用數(shù)據(jù)的唯一 id 作為特征
具有清晰明確的含義
不包含超出范圍的異常斷點(diǎn)或“神奇”的值，比如電影評(píng)分為 -1 或 NaN
特征的定義不應(yīng)隨時(shí)間發(fā)生變化，比如地點(diǎn)：北京是固定的，但不要用地點(diǎn)：219

特征組合 Playground:
https://developers.google.cn/machine-learning/crash-course/feature-crosses/playground-exercises

1.5.1 數(shù)據(jù)類型

數(shù)值數(shù)據(jù)

離散數(shù)據(jù)（直接用或者先離散化）0、1、2
連續(xù)數(shù)據(jù) 0.001、0.2、1.0、2.2

文本數(shù)據(jù)

作為分類標(biāo)簽
{'Netherlands', 'Belgium', 'Luxembourg'}
轉(zhuǎn)換為 {0， 1， 2}

作為自然語(yǔ)言學(xué)習(xí)
A = “Jinkey 是中國(guó)人”
B = “Jinkey 是中國(guó)的學(xué)生”
A + B 的詞列表：（Jinkey, 是, 中國(guó), 人, 的, 學(xué)生）
如果具有某個(gè)詞就用1表示、不具有就用0表示，這樣就把 A 表示成：
A = （1, 1, 1, 1, 0, 0）
B = （1, 1, 1, 0, 1, 1）

圖像數(shù)據(jù)

彩色圖片是分開(kāi) RGBA 四通道的值作為圖片特征，灰度圖把灰度作為圖片特征，黑白圖黑色的像素為1白色為0。

1.5.2 數(shù)據(jù)清洗

縮放特征值
有一個(gè)特征 A (字段)的值是500000，有一個(gè)特征B（字段）的值是0.1，這時(shí)候需要根據(jù)所有樣本的 A 特征的最大值和最小值把特征值縮放到[0, 1]之間：

縮放值 = （真實(shí)值 - 平均值）/ 標(biāo)準(zhǔn)差

處理極端值

對(duì)每個(gè)值取對(duì)數(shù)
對(duì)大于某個(gè)值的特征值進(jìn)行截?cái)?，比?（1， 2， 3， 666， 2，3）-> （1， 2， 3， 3， 2，3）

分箱
其實(shí)就是把數(shù)值離散化成一個(gè)個(gè)區(qū)間，然后用某個(gè)符號(hào)來(lái)標(biāo)識(shí)

比如緯度37.4可以轉(zhuǎn)換成兩種形式：

6（第6個(gè)區(qū)間）
[0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0] （作為一個(gè)11維張量，37.4屬于第6個(gè)區(qū)間，所以為1）
這種方式也成為 one-hot 編碼（具有一個(gè)特征為1，否則為0）

特征組合
特征組合是指通過(guò)將兩個(gè)或多個(gè)輸入特征相乘來(lái)對(duì)特征空間中的非線性規(guī)律進(jìn)行編碼的合成特征。
[A X B]：將兩個(gè)特征的值相乘形成的特征組合。
[A x B x C x D x E]：將五個(gè)特征的值相乘形成的特征組合。
[A x A]：對(duì)單個(gè)特征的值求平方形成的特征組合。

其他

遺漏值。例如，有人忘記為某個(gè)房屋的年齡輸入值。
重復(fù)樣本。例如，服務(wù)器錯(cuò)誤地將同一條記錄上傳了兩次。
不良標(biāo)簽。例如，有人錯(cuò)誤地將一顆橡樹(shù)的圖片標(biāo)記為楓樹(shù)。
不良特征值。例如，有人輸入了多余的位數(shù)，或者溫度計(jì)被遺落在太陽(yáng)底下。

1.5.3 正則化

L2 正則

為什么要正則化？
懲罰復(fù)雜的模型（過(guò)擬合的模型）

機(jī)器學(xué)習(xí)訓(xùn)練目標(biāo)是損失函數(shù)最小化，如果復(fù)雜模型也算是一種損失，那么可以把模型復(fù)雜度加入到損失函數(shù)的公式里面。

如何衡量一個(gè)模型的復(fù)雜程度？
各變量權(quán)重的平方和（L2正則）

效果：

使權(quán)重值接近于 0（但并非正好為 0）
使權(quán)重的平均值接近于 0，且呈正態(tài)（鐘形曲線或高斯曲線）分布

Lambda正則系數(shù)
在正則項(xiàng)前加系數(shù) Lambda，其對(duì)權(quán)重的影響如圖：

lambda 值過(guò)高 -> 模型會(huì)非常簡(jiǎn)單 -> 欠擬合
lambda 值過(guò)低 -> 模型會(huì)非常復(fù)雜 -> 過(guò)擬合

L1 正則

為什么有 L2 正則還要 L1 正則
L2 正則化可以使權(quán)重變小，但是并不能使它們正好為 0.0，這樣高維度特征矢量會(huì)消耗大量的內(nèi)存

L1 正則項(xiàng)是絕對(duì)值

正則化 Playground:
L2 https://developers.google.cn/machine-learning/crash-course/regularization-for-simplicity/playground-exercise-overcrossing
L1 https://developers.google.cn/machine-learning/crash-course/regularization-for-sparsity/playground-exercise

1.6 邏輯回歸 (Logistic Regression)

怎么分析一個(gè)句子屬于褒義還是貶義？
把從句子推倒出（褒義詞數(shù)量，貶義詞數(shù)量）二維向量做為特征 X，把人工標(biāo)記的特征標(biāo)為 Y，就進(jìn)行邏輯回歸。

比如我們有一系列人工標(biāo)記的樣本：

罩杯	腿長(zhǎng)（m）	是否美女
A	0.4	否
A	1.0	否
C	0.5	否
C	1.0	是
D	1.2	是
D	0.4	否

通過(guò)一個(gè)神奇的公式，機(jī)器學(xué)習(xí)到一些規(guī)律，比如機(jī)器學(xué)習(xí)到罩杯是 C 的女生是美女的概率為0.5; 腿長(zhǎng) 為 1m 的女生被判斷為美女的概率是 0.5。

當(dāng)輸入一個(gè)新的樣本，系統(tǒng)就能根據(jù)學(xué)習(xí)到的模型1 / (1+exp(w0+w1*x1+w2*x2+...+wm*xm))，算出新加入的女生屬于美女的概率是多少，比如說(shuō)算出來(lái)是0.6的概率，那么如果定義閾值為 0.5，那么0.6>0.5，所以就認(rèn)為她是個(gè)美女。

0.5 稱為分類閾值 classification threshold，為了將邏輯回歸值（是美女的概率）映射到二元類別（是美女/不是美女），您必須指定分類閾值。

邏輯回歸的損失函數(shù)

和線性回歸采用平方損失不同，邏輯回歸的損失函數(shù)是對(duì)數(shù)損失函數(shù)Log Loss，定義如下

入門(mén)的你，你大可不必記住這個(gè)公司，因?yàn)樵?tensorflow 里面要使用這個(gè)損失函數(shù)，只需要一行代碼：

loss = tf.reduce_mean(tf.nn.sigmoid_cross_entropy_with_logits(logits=model_output, labels=y_target))

混淆矩陣 Confusion Matrix

對(duì)于二分類，我們使用混淆矩陣來(lái)表示所有可能的分類結(jié)果。

名詞	解析
真正例	模型將正類別樣本正確地預(yù)測(cè)為正類別
真負(fù)例	模型將負(fù)類別樣本正確地預(yù)測(cè)為負(fù)類別
假正例	模型將負(fù)類別樣本錯(cuò)誤地預(yù)測(cè)為正類別
假負(fù)例	模型將正類別樣本錯(cuò)誤地預(yù)測(cè)為負(fù)類別

以《狼來(lái)了》的故事為例：

精確率 Precision

在被識(shí)別為正類別的樣本中，確實(shí)為正類別的比例是多少？

召回率 Recall

在所有正類別樣本中，被正確識(shí)別為正類別的比例是多少？

精確率和召回率往往是此消彼長(zhǎng)的情況。也就是說(shuō)，提高精確率通常會(huì)降低召回率值

ROC 曲線
Receiver Operating Characteristic Curve, 用于繪制采用不同分類閾值時(shí)的 TPR 與 FPR。

AUC 面積
ROC 曲線下面積，Area under the ROC Curve。

1.7 神經(jīng)網(wǎng)絡(luò)

為什么有邏輯回歸等傳統(tǒng)機(jī)器學(xué)習(xí)方法還要神經(jīng)網(wǎng)絡(luò)？
處理非線性問(wèn)題（y = ax + b 這種叫做線性模型）

彩色小球代表神經(jīng)元

神經(jīng)網(wǎng)絡(luò) Playground:
https://developers.google.cn/machine-learning/crash-course/introduction-to-neural-networks/playground-exercises

1.7.1 激活函數(shù)

把y = ax + b的結(jié)果作為自變量輸入激活函數(shù)： f(ax+b) 來(lái)作為神經(jīng)元的輸出值

1.7.2 訓(xùn)練神經(jīng)網(wǎng)絡(luò)

方法：反向傳播

具體過(guò)程你可以拿起筆，自己按照本文作者（公眾號(hào)jinkey-love）之前翻譯的文章來(lái)推演一遍：《用筆一步步演示人工神經(jīng)網(wǎng)絡(luò)的反向傳播算法——Jinkey 翻譯》

可能出現(xiàn)的異常：

上圖是之前網(wǎng)絡(luò)很流行的圖，說(shuō)每天進(jìn)步一點(diǎn)點(diǎn)，一年就會(huì)有很大收獲；每天退步一點(diǎn)點(diǎn)，一年就會(huì)落后很多。這里就可以引出梯度消失和梯度爆炸的概念。

梯度消失

在深度網(wǎng)絡(luò)中，計(jì)算這些梯度時(shí)，可能涉及許多小項(xiàng)的乘積。

當(dāng)較低層的梯度逐漸消失到 0 時(shí)，這些層的訓(xùn)練速度會(huì)非常緩慢，甚至不再訓(xùn)練。

梯度爆炸

網(wǎng)絡(luò)中的權(quán)重過(guò)大，則較低層的梯度會(huì)涉及許多大項(xiàng)的乘積。

在這種情況下，梯度就會(huì)爆炸：梯度過(guò)大導(dǎo)致難以收斂。

批標(biāo)準(zhǔn)化可以降低學(xué)習(xí)速率，因而有助于防止梯度爆炸。

隨機(jī)失活 Dropout

在梯度下降法的每一步中隨機(jī)丟棄一些網(wǎng)絡(luò)單元。丟棄得越多，正則化效果就越強(qiáng)：

0.0 = 無(wú)丟棄正則化
1.0 = 丟棄所有內(nèi)容。模型學(xué)不到任何規(guī)律
0.0 和 1.0 之間的值更有用

1.7.3 多類別神經(jīng)網(wǎng)絡(luò)

二分類	多分類
硬幣正面 40%，反面 60%	貓 20%，狗 50%，猴 30%
概率和為 1	概率和為 1
激活函數(shù)為Sigmoid	激活函數(shù)為Softmax

1.7.4 嵌套 (Embedding)

高維空間向低維空間的轉(zhuǎn)換，用于計(jì)算兩個(gè)實(shí)體的相似度。
比如電影類別有科幻、成人、卡通
那么，
《小豬佩奇》就可以轉(zhuǎn)換成one-hoting編碼（0，0，1）
《星球大戰(zhàn)》就可以轉(zhuǎn)換成one-hoting編碼（1，1，0）
《喜愛(ài)夜蒲》就可以轉(zhuǎn)換成one-hoting編碼（0，1，0）

《小豬佩奇》和《星球大戰(zhàn)》的距離3，《星球大戰(zhàn)》和《喜愛(ài)夜蒲》的距離為1，所以當(dāng)一個(gè)用戶看了電影《星球大戰(zhàn)》，可以給他推薦《喜愛(ài)夜蒲》而不是《小豬佩奇》。

2 機(jī)器學(xué)習(xí)工程

2.1 生產(chǎn)環(huán)境機(jī)器學(xué)習(xí)系統(tǒng)

盡可能重復(fù)使用常規(guī)機(jī)器學(xué)習(xí)系統(tǒng)組件。
Google CloudML 解決方案包括 Dataflow 和 TF Serving
可以在 Spark、Hadoop 等其他平臺(tái)中找到組件
了解機(jī)器學(xué)習(xí)系統(tǒng)的一些范例及其要求，找到自己需要哪些組件？

2.2 訓(xùn)練方法

靜態(tài)模型 - 離線訓(xùn)練

易于構(gòu)建和測(cè)試 - 使用批量訓(xùn)練和測(cè)試，對(duì)其進(jìn)行迭代，直到達(dá)到良好效果。
仍然需要對(duì)輸入進(jìn)行監(jiān)控
模型容易過(guò)時(shí)

動(dòng)態(tài)模型 - 在線訓(xùn)練

隨著時(shí)間推移不斷為訓(xùn)練數(shù)據(jù)注入新數(shù)據(jù)，定期同步更新版本。
使用漸進(jìn)式驗(yàn)證，而不是批量訓(xùn)練和測(cè)試
需要監(jiān)控、模型回滾和數(shù)據(jù)隔離功能
會(huì)根據(jù)變化作出相應(yīng)調(diào)整，避免了過(guò)時(shí)問(wèn)題

2.3 預(yù)測(cè)方法

離線預(yù)測(cè)

使用 MapReduce 或類似方法批量進(jìn)行所有可能的預(yù)測(cè)。
記錄到表格中，然后提供給緩存/查詢表。

優(yōu)點(diǎn)

不需要過(guò)多擔(dān)心推理成本。
可以使用批量方法。
可以在推送之前對(duì)數(shù)據(jù)預(yù)測(cè)執(zhí)行后期驗(yàn)證。

缺點(diǎn)

只能對(duì)我們知曉的數(shù)據(jù)進(jìn)行預(yù)測(cè)，不適用于存在長(zhǎng)尾的情況。
更新可能延遲數(shù)小時(shí)或數(shù)天。

在線預(yù)測(cè)

使用服務(wù)器根據(jù)需要進(jìn)行預(yù)測(cè)。

優(yōu)點(diǎn)

可在新項(xiàng)目加入時(shí)對(duì)其進(jìn)行預(yù)測(cè)，非常適合存在長(zhǎng)尾的情況。
計(jì)算量非常大，對(duì)延遲較為敏感，可能會(huì)限制模型的復(fù)雜度。
缺點(diǎn)
監(jiān)控需求更多。

2.4 數(shù)據(jù)依賴關(guān)系

可靠性

信號(hào)是否始終可用？信號(hào)來(lái)源是否不可靠？

比如

信號(hào)是否來(lái)自因負(fù)載過(guò)重而崩潰的服務(wù)器？
信號(hào)是否來(lái)自每年 8 月去度假的人群？

版本控制

計(jì)算此數(shù)據(jù)的系統(tǒng)是否發(fā)生過(guò)變化？

比如

多久一次？
您如何知道系統(tǒng)發(fā)生變化的時(shí)間？

必要性

特征的實(shí)用性是否能證明值得添加此特征？

相關(guān)性

是否有任何特征密不可分，以至于需要采取額外策略來(lái)梳理它們？

反饋環(huán)

一個(gè)模型是否會(huì)影響另一個(gè)模型
比如兩個(gè)股價(jià)預(yù)測(cè)模型為例：

模型 A - 不理想的預(yù)測(cè)模型
模型 B

由于模型 A 有誤，因此會(huì)導(dǎo)致錯(cuò)誤地決定購(gòu)買(mǎi)股票 X 的股票，而購(gòu)買(mǎi)這些股票會(huì)抬高股票 X 的價(jià)格。模型 B 將股票 X 的股價(jià)用作輸入特征，因此它很容易對(duì)股票 X 的價(jià)值得出錯(cuò)誤結(jié)論。然后，模型 B 會(huì)根據(jù)模型 A 的錯(cuò)誤行為購(gòu)買(mǎi)或銷售股票 X 的股份，反過(guò)來(lái)，模型 B 的行為會(huì)影響模型 A，而這樣很可能會(huì)觸發(fā)郁金香狂熱效應(yīng)或?qū)е?X 公司的股價(jià)下滑。

3 機(jī)器學(xué)習(xí)系統(tǒng)在現(xiàn)實(shí)世界里的應(yīng)用

3.1 癌癥預(yù)測(cè)

特征：病人年齡、性別、醫(yī)療狀況、醫(yī)院名稱、生命體征、檢驗(yàn)結(jié)果
預(yù)測(cè)：是否會(huì)患有癌癥

以上設(shè)定存在什么問(wèn)題？

模型中包含的一個(gè)特征是醫(yī)院名稱，比如"癌癥中心"等專門(mén)治療癌癥的機(jī)構(gòu)，已經(jīng)暗含了在醫(yī)生的診斷結(jié)論，這叫做標(biāo)簽泄露**。當(dāng)模型嘗試取代醫(yī)生去判斷新樣本時(shí)（還未就醫(yī) ），模型無(wú)法得知該信息，導(dǎo)致預(yù)測(cè)的結(jié)果非常糟糕。

3.2 文學(xué)

特征：文學(xué)語(yǔ)句
預(yù)測(cè)：作者的政治派別

以上設(shè)定存在什么問(wèn)題？

當(dāng)我們創(chuàng)建測(cè)試訓(xùn)練和驗(yàn)證拆分內(nèi)容時(shí)，我們是通過(guò)逐句拆分樣本來(lái)實(shí)現(xiàn)的。也就是說(shuō)，同一個(gè)作者的語(yǔ)句會(huì)一部分會(huì)被編入訓(xùn)練集，一部分會(huì)編入測(cè)試集，這導(dǎo)致訓(xùn)練的模型可以了解某個(gè)作者在語(yǔ)言使用方面的特質(zhì)，而不僅僅是了解他使用的隱喻手法。所以應(yīng)該在作者的層面，這個(gè)作者的所有語(yǔ)句要么都作為訓(xùn)練集，要么都作為測(cè)試集。

3.3 機(jī)器學(xué)習(xí)準(zhǔn)則

確保第一個(gè)模型簡(jiǎn)單易用
著重確保數(shù)據(jù)管道的正確性
使用簡(jiǎn)單且可觀察的指標(biāo)進(jìn)行訓(xùn)練和評(píng)估
擁有并監(jiān)控您的輸入特征
將您的模型配置視為代碼：進(jìn)行審核并記錄在案
記下所有實(shí)驗(yàn)的結(jié)果，尤其是“失敗”的結(jié)果

編程練習(xí)

神經(jīng)網(wǎng)絡(luò)簡(jiǎn)介：編程練習(xí)

提高神經(jīng)網(wǎng)絡(luò)性能：編程練習(xí)

MNIST 數(shù)字分類編程練習(xí)

嵌套編程練習(xí)

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av