
原文鏈接 https://jinkey.ai/post/tech/shou-cang-!836fen-zhong-de-gu-ge-ji-qi-xue-xi-jiao-cheng-dai-ni-10fen-zhong-kan-wan
本文作者 Jinkey(微信公眾號(hào) jinkey-love,官網(wǎng) https://jinkey.ai)
文章允許非篡改署名轉(zhuǎn)載,刪除或修改本段版權(quán)信息轉(zhuǎn)載的,視為侵犯知識(shí)產(chǎn)權(quán),我們保留追求您法律責(zé)任的權(quán)利,特此聲明!
0 引言
- 為了尊重原意,部分名詞不進(jìn)行翻譯。
- 為了更通俗易懂的解釋概念,使用低維度的情況來(lái)解釋。
1 機(jī)器學(xué)習(xí)概念
1.1 主要術(shù)語(yǔ)
標(biāo)簽
預(yù)測(cè)的事物,即 y = ax + b 中的 y 變量,如房?jī)r(jià)、動(dòng)物種類、是否垃圾郵件等。
特征
輸入變量,即 y = ax + b 中的 x 變量,x 可以是一個(gè),也可以是多個(gè),用 {x1, x2, ..., xn} 組成的向量來(lái)表示。比如
電子郵件的文本字詞、郵箱地址、發(fā)送時(shí)間等
樣本
具體某一個(gè)示例,比如一封郵件。
有標(biāo)簽樣本:郵件(x) + 是否垃圾郵件(y)
無(wú)標(biāo)簽樣本:郵件(x)
模型
模型定義了特征與標(biāo)簽之間的關(guān)系。簡(jiǎn)單的理解為 y = ax + b 中的 a和 b。
訓(xùn)練:輸入(0, 1) , (1, 3) , (2, 5) 求出 a = 2, b = 1
預(yù)測(cè):輸入 x = 10, 推斷出 y = 10*2 +1 = 13
回歸
預(yù)測(cè)連續(xù)值, 如:
- 加利福尼亞州一棟房產(chǎn)的價(jià)值是多少?
- 用戶點(diǎn)擊此廣告的概率是多少?
分類
預(yù)測(cè)離散值, 如:
- 某個(gè)指定電子郵件是垃圾郵件還是非垃圾郵件?
- 這是一張狗、貓還是倉(cāng)鼠圖片?
- 這是 Jinkey(公眾號(hào) jinkey-love) 寫(xiě)的文章還是其他人寫(xiě)的文章?
損失
預(yù)測(cè)值和目標(biāo)值的差距。

一種常見(jiàn)的損失函數(shù)就是我們的義務(wù)教育階段都學(xué)過(guò)的"兩點(diǎn)間的直線距離",其中 x1=x2:

1.2 降低損失
大家都玩過(guò)猜數(shù)字游戲,主持人出一個(gè) 1-100 內(nèi)的數(shù)字,其他人輪流猜測(cè),玩家 A 提出一個(gè)數(shù)字,主持人只會(huì)說(shuō)大了還是小了。這個(gè)過(guò)程靠猜測(cè)不停地逼近真實(shí)值(也就是不停地縮小損失的過(guò)程)
Gradient Descent
其中一個(gè)常見(jiàn)的降低損失的方法就是梯度下降(Gradient Descent),用高中知識(shí)就可以理解了。
假如損失函數(shù) loss = x^2 + 2x + 1 的梯度函數(shù)就是 loss' = 2x + 2

假如一開(kāi)始輸入x 等于 -3, -2, -1, 1, 2, 3,y’即梯度分別等于 -4, -2, 0, 2, 4,所以如果輸入的樣本是(-2, ?) 則梯度下降的方向就是從 -2 -> -1 移動(dòng),如果輸入的樣本是 (2, ?)就是從 2 -> -1 來(lái)降低損失函數(shù)的值,慢慢移動(dòng)到 -1 得到了損失函數(shù)的極小值。
看到這里你是否覺(jué)得直接通過(guò)高中的知識(shí)求導(dǎo)得到極小值就可以了?但如果變量不止一個(gè),如果上述垃圾郵件樣本包含的特征:文本內(nèi)容包含“貸款”的數(shù)量、郵箱地址、發(fā)送時(shí)間等等,損失函數(shù)就可能是三維甚至多維的,存在一個(gè)或多個(gè)“局部最低小”,并且導(dǎo)數(shù)或偏導(dǎo)數(shù)不能求出的情況下,只能通過(guò)“有技巧地猜數(shù)字”來(lái)逼近真實(shí)值:

梯度下降方法有 隨機(jī)梯度下降 SGD 和 小批量梯度下降 mini-batch SGD。至于具體差異,本文不展開(kāi)說(shuō)明,谷歌的教程也是為了速成。一般采用 mini-batch SGD 會(huì)更加高效。
你可能會(huì)問(wèn)不知道算法怎么寫(xiě)代碼?
在谷歌的 Tensorflow 框架里面,梯度下降就是一行代碼而已, 所以初學(xué)者有個(gè)初步概念即可:
tf.train.GradientDescentOptimizer()
Learning Rate
上面所說(shuō)
從
-2 -> -1來(lái)降低損失函數(shù)的值
這里引入了學(xué)習(xí)率的概念-2到-1移動(dòng)說(shuō)明學(xué)習(xí)率是1。如果從-2移動(dòng)到-1.8,學(xué)習(xí)率則是0.2。

學(xué)習(xí)率太大容易跳過(guò)最小值(or 極小值),如藍(lán)線所示,學(xué)習(xí)率太小導(dǎo)致學(xué)習(xí)時(shí)間很長(zhǎng)。
學(xué)習(xí)率 Playground:
https://developers.google.com/machine-learning/crash-course/fitter/graph
1.3 過(guò)擬合
損失很低,但仍然是糟糕的模型,因?yàn)檫^(guò)度擬合了訓(xùn)練集數(shù)據(jù),導(dǎo)致在測(cè)試集或訓(xùn)練集等新樣本上效果很差。

1.4 拆分?jǐn)?shù)據(jù)
訓(xùn)練集和測(cè)試集 (Training and Test Sets)
- 訓(xùn)練集 - 用于訓(xùn)練模型的子集。
- 測(cè)試集 - 用于測(cè)試訓(xùn)練后模型的子集。
訓(xùn)練集和測(cè)試集 Playground:
https://developers.google.cn/machine-learning/crash-course/training-and-test-sets/playground-exercise
某些情況下為了防止不小心在訓(xùn)練過(guò)程引入對(duì)測(cè)試集的擬合,引入驗(yàn)證集(就是把數(shù)據(jù)分成三份)

1.5 特征工程
所有類型的數(shù)據(jù),最終都要轉(zhuǎn)換為數(shù)字的形式,計(jì)算機(jī)才能學(xué)習(xí)。使用的特征要注意:
- 在數(shù)據(jù)集中出現(xiàn)大約 5 次以上,比如不能用數(shù)據(jù)的唯一 id 作為特征
- 具有清晰明確的含義
- 不包含超出范圍的異常斷點(diǎn)或“神奇”的值,比如電影評(píng)分為 -1 或 NaN
- 特征的定義不應(yīng)隨時(shí)間發(fā)生變化,比如
地點(diǎn):北京是固定的,但不要用地點(diǎn):219
特征組合 Playground:
https://developers.google.cn/machine-learning/crash-course/feature-crosses/playground-exercises
1.5.1 數(shù)據(jù)類型
數(shù)值數(shù)據(jù)
離散數(shù)據(jù)(直接用或者先離散化)0、1、2
連續(xù)數(shù)據(jù) 0.001、0.2、1.0、2.2
文本數(shù)據(jù)
作為分類標(biāo)簽
{'Netherlands', 'Belgium', 'Luxembourg'}
轉(zhuǎn)換為 {0, 1, 2}
作為自然語(yǔ)言學(xué)習(xí)
A = “Jinkey 是中國(guó)人”
B = “Jinkey 是中國(guó)的學(xué)生”
A + B 的詞列表:(Jinkey, 是, 中國(guó), 人, 的, 學(xué)生)
如果具有某個(gè)詞就用1表示、不具有就用0表示,這樣就把 A 表示成:
A = (1, 1, 1, 1, 0, 0)
B = (1, 1, 1, 0, 1, 1)
圖像數(shù)據(jù)
彩色圖片是分開(kāi) RGBA 四通道的值作為圖片特征,灰度圖把灰度作為圖片特征,黑白圖黑色的像素為1白色為0。

1.5.2 數(shù)據(jù)清洗
縮放特征值
有一個(gè)特征 A (字段)的值是500000, 有一個(gè)特征B(字段)的值是0.1,這時(shí)候需要根據(jù)所有樣本的 A 特征的最大值和最小值把特征值縮放到[0, 1]之間:
縮放值 = (真實(shí)值 - 平均值)/ 標(biāo)準(zhǔn)差
處理極端值
- 對(duì)每個(gè)值取對(duì)數(shù)
- 對(duì)大于某個(gè)值的特征值進(jìn)行截?cái)?,比?(1, 2, 3, 666, 2,3)-> (1, 2, 3, 3, 2,3)
分箱
其實(shí)就是把數(shù)值離散化成一個(gè)個(gè)區(qū)間,然后用某個(gè)符號(hào)來(lái)標(biāo)識(shí)

比如緯度37.4可以轉(zhuǎn)換成兩種形式:
- 6(第6個(gè)區(qū)間)
- [0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0] (作為一個(gè)11維張量,37.4屬于第6個(gè)區(qū)間,所以為1)
這種方式也成為one-hot 編碼(具有一個(gè)特征為1,否則為0)
特征組合
特征組合是指通過(guò)將兩個(gè)或多個(gè)輸入特征相乘來(lái)對(duì)特征空間中的非線性規(guī)律進(jìn)行編碼的合成特征。
[A X B]:將兩個(gè)特征的值相乘形成的特征組合。
[A x B x C x D x E]:將五個(gè)特征的值相乘形成的特征組合。
[A x A]:對(duì)單個(gè)特征的值求平方形成的特征組合。
其他
- 遺漏值。 例如,有人忘記為某個(gè)房屋的年齡輸入值。
- 重復(fù)樣本。 例如,服務(wù)器錯(cuò)誤地將同一條記錄上傳了兩次。
- 不良標(biāo)簽。 例如,有人錯(cuò)誤地將一顆橡樹(shù)的圖片標(biāo)記為楓樹(shù)。
- 不良特征值。 例如,有人輸入了多余的位數(shù),或者溫度計(jì)被遺落在太陽(yáng)底下。
1.5.3 正則化
L2 正則
為什么要正則化?
懲罰復(fù)雜的模型(過(guò)擬合的模型)
機(jī)器學(xué)習(xí)訓(xùn)練目標(biāo)是損失函數(shù)最小化,如果復(fù)雜模型也算是一種損失,那么可以把模型復(fù)雜度加入到損失函數(shù)的公式里面。
如何衡量一個(gè)模型的復(fù)雜程度?
各變量權(quán)重的平方和(L2正則)
效果:
- 使權(quán)重值接近于 0(但并非正好為 0)
- 使權(quán)重的平均值接近于 0,且呈正態(tài)(鐘形曲線或高斯曲線)分布

Lambda正則系數(shù)
在正則項(xiàng)前加系數(shù) Lambda,其對(duì)權(quán)重的影響如圖:

lambda 值過(guò)高 -> 模型會(huì)非常簡(jiǎn)單 -> 欠擬合
lambda 值過(guò)低 -> 模型會(huì)非常復(fù)雜 -> 過(guò)擬合
L1 正則
為什么有 L2 正則 還要 L1 正則
L2 正則化可以使權(quán)重變小,但是并不能使它們正好為 0.0,這樣高維度特征矢量會(huì)消耗大量的內(nèi)存
L1 正則項(xiàng)是絕對(duì)值
正則化 Playground:
L2 https://developers.google.cn/machine-learning/crash-course/regularization-for-simplicity/playground-exercise-overcrossing
L1 https://developers.google.cn/machine-learning/crash-course/regularization-for-sparsity/playground-exercise
1.6 邏輯回歸 (Logistic Regression)
怎么分析一個(gè)句子屬于褒義還是貶義?
把從句子推倒出(褒義詞數(shù)量,貶義詞數(shù)量)二維向量做為特征 X,把人工標(biāo)記的特征標(biāo)為 Y,就進(jìn)行邏輯回歸。
比如我們有一系列人工標(biāo)記的樣本:
| 罩杯 | 腿長(zhǎng)(m) | 是否美女 |
|---|---|---|
| A | 0.4 | 否 |
| A | 1.0 | 否 |
| C | 0.5 | 否 |
| C | 1.0 | 是 |
| D | 1.2 | 是 |
| D | 0.4 | 否 |
通過(guò)一個(gè)神奇的公式,機(jī)器學(xué)習(xí)到一些規(guī)律,比如機(jī)器學(xué)習(xí)到罩杯是 C 的女生是美女的概率為0.5; 腿長(zhǎng) 為 1m 的女生被判斷為美女的概率是 0.5。
當(dāng)輸入一個(gè)新的樣本,系統(tǒng)就能根據(jù)學(xué)習(xí)到的模型1 / (1+exp(w0+w1*x1+w2*x2+...+wm*xm)),算出新加入的女生屬于美女的概率是多少,比如說(shuō)算出來(lái)是0.6的概率,那么如果定義閾值為 0.5, 那么0.6>0.5,所以就認(rèn)為她是個(gè)美女。
0.5 稱為分類閾值 classification threshold,為了將邏輯回歸值(是美女的概率)映射到二元類別(是美女/不是美女),您必須指定分類閾值。
邏輯回歸的損失函數(shù)
和線性回歸采用平方損失不同,邏輯回歸的損失函數(shù)是對(duì)數(shù)損失函數(shù)Log Loss,定義如下

入門(mén)的你,你大可不必記住這個(gè)公司,因?yàn)樵?tensorflow 里面要使用這個(gè)損失函數(shù),只需要一行代碼:
loss = tf.reduce_mean(tf.nn.sigmoid_cross_entropy_with_logits(logits=model_output, labels=y_target))
混淆矩陣 Confusion Matrix
對(duì)于二分類,我們使用混淆矩陣來(lái)表示所有可能的分類結(jié)果。
| 名詞 | 解析 |
|---|---|
| 真正例 | 模型將正類別樣本正確地預(yù)測(cè)為正類別 |
| 真負(fù)例 | 模型將負(fù)類別樣本正確地預(yù)測(cè)為負(fù)類別 |
| 假正例 | 模型將負(fù)類別樣本錯(cuò)誤地預(yù)測(cè)為正類別 |
| 假負(fù)例 | 模型將正類別樣本錯(cuò)誤地預(yù)測(cè)為負(fù)類別 |
以《狼來(lái)了》的故事為例:

精確率 Precision
在被識(shí)別為正類別的樣本中,確實(shí)為正類別的比例是多少?

召回率 Recall
在所有正類別樣本中,被正確識(shí)別為正類別的比例是多少?

精確率和召回率往往是此消彼長(zhǎng)的情況。也就是說(shuō),提高精確率通常會(huì)降低召回率值
ROC 曲線
Receiver Operating Characteristic Curve, 用于繪制采用不同分類閾值時(shí)的 TPR 與 FPR。

AUC 面積
ROC 曲線下面積,Area under the ROC Curve。

1.7 神經(jīng)網(wǎng)絡(luò)
為什么有邏輯回歸等傳統(tǒng)機(jī)器學(xué)習(xí)方法還要神經(jīng)網(wǎng)絡(luò)?
處理非線性問(wèn)題(y = ax + b 這種叫做線性模型)
彩色小球代表神經(jīng)元

神經(jīng)網(wǎng)絡(luò) Playground:
https://developers.google.cn/machine-learning/crash-course/introduction-to-neural-networks/playground-exercises
1.7.1 激活函數(shù)
把y = ax + b的 結(jié)果作為自變量輸入激活函數(shù): f(ax+b) 來(lái)作為神經(jīng)元的輸出值

1.7.2 訓(xùn)練神經(jīng)網(wǎng)絡(luò)
方法:反向傳播
具體過(guò)程你可以拿起筆,自己按照本文作者(公眾號(hào)jinkey-love)之前翻譯的文章來(lái)推演一遍:《用筆一步步演示人工神經(jīng)網(wǎng)絡(luò)的反向傳播算法——Jinkey 翻譯》
可能出現(xiàn)的異常:

上圖是之前網(wǎng)絡(luò)很流行的圖,說(shuō)每天進(jìn)步一點(diǎn)點(diǎn),一年就會(huì)有很大收獲;每天退步一點(diǎn)點(diǎn),一年就會(huì)落后很多。這里就可以引出梯度消失和梯度爆炸的概念。
梯度消失
在深度網(wǎng)絡(luò)中,計(jì)算這些梯度時(shí),可能涉及許多小項(xiàng)的乘積。
當(dāng)較低層的梯度逐漸消失到 0 時(shí),這些層的訓(xùn)練速度會(huì)非常緩慢,甚至不再訓(xùn)練。
梯度爆炸
網(wǎng)絡(luò)中的權(quán)重過(guò)大,則較低層的梯度會(huì)涉及許多大項(xiàng)的乘積。
在這種情況下,梯度就會(huì)爆炸:梯度過(guò)大導(dǎo)致難以收斂。
批標(biāo)準(zhǔn)化可以降低學(xué)習(xí)速率,因而有助于防止梯度爆炸。
隨機(jī)失活 Dropout
在梯度下降法的每一步中隨機(jī)丟棄一些網(wǎng)絡(luò)單元。丟棄得越多,正則化效果就越強(qiáng):
- 0.0 = 無(wú)丟棄正則化
- 1.0 = 丟棄所有內(nèi)容。模型學(xué)不到任何規(guī)律
- 0.0 和 1.0 之間的值更有用
1.7.3 多類別神經(jīng)網(wǎng)絡(luò)

| 二分類 | 多分類 |
|---|---|
| 硬幣正面 40%,反面 60% | 貓 20%, 狗 50%, 猴 30% |
| 概率和為 1 | 概率和為 1 |
| 激活函數(shù)為Sigmoid | 激活函數(shù)為Softmax |
1.7.4 嵌套 (Embedding)
高維空間向低維空間的轉(zhuǎn)換,用于計(jì)算兩個(gè)實(shí)體的相似度。
比如電影類別有科幻、成人、卡通
那么,
《小豬佩奇》就可以轉(zhuǎn)換成one-hoting編碼(0,0,1)
《星球大戰(zhàn)》就可以轉(zhuǎn)換成one-hoting編碼(1,1,0)
《喜愛(ài)夜蒲》就可以轉(zhuǎn)換成one-hoting編碼(0,1,0)
《小豬佩奇》和《星球大戰(zhàn)》的距離3,《星球大戰(zhàn)》和 《喜愛(ài)夜蒲》的距離為1,所以當(dāng)一個(gè)用戶看了電影《星球大戰(zhàn)》,可以給他推薦《喜愛(ài)夜蒲》而不是《小豬佩奇》。
2 機(jī)器學(xué)習(xí)工程
2.1 生產(chǎn)環(huán)境機(jī)器學(xué)習(xí)系統(tǒng)
- 盡可能重復(fù)使用常規(guī)機(jī)器學(xué)習(xí)系統(tǒng)組件。
- Google CloudML 解決方案包括 Dataflow 和 TF Serving
- 可以在 Spark、Hadoop 等其他平臺(tái)中找到組件
- 了解機(jī)器學(xué)習(xí)系統(tǒng)的一些范例及其要求,找到自己需要哪些組件?
2.2 訓(xùn)練方法
靜態(tài)模型 - 離線訓(xùn)練
- 易于構(gòu)建和測(cè)試 - 使用批量訓(xùn)練和測(cè)試,對(duì)其進(jìn)行迭代,直到達(dá)到良好效果。
- 仍然需要對(duì)輸入進(jìn)行監(jiān)控
- 模型容易過(guò)時(shí)
動(dòng)態(tài)模型 - 在線訓(xùn)練
- 隨著時(shí)間推移不斷為訓(xùn)練數(shù)據(jù)注入新數(shù)據(jù),定期同步更新版本。
- 使用漸進(jìn)式驗(yàn)證,而不是批量訓(xùn)練和測(cè)試
- 需要監(jiān)控、模型回滾和數(shù)據(jù)隔離功能
- 會(huì)根據(jù)變化作出相應(yīng)調(diào)整,避免了過(guò)時(shí)問(wèn)題
2.3 預(yù)測(cè)方法
離線預(yù)測(cè)
使用 MapReduce 或類似方法批量進(jìn)行所有可能的預(yù)測(cè)。
記錄到表格中,然后提供給緩存/查詢表。
優(yōu)點(diǎn)
- 不需要過(guò)多擔(dān)心推理成本。
- 可以使用批量方法。
- 可以在推送之前對(duì)數(shù)據(jù)預(yù)測(cè)執(zhí)行后期驗(yàn)證。
缺點(diǎn)
- 只能對(duì)我們知曉的數(shù)據(jù)進(jìn)行預(yù)測(cè),不適用于存在長(zhǎng)尾的情況。
- 更新可能延遲數(shù)小時(shí)或數(shù)天。
在線預(yù)測(cè)
使用服務(wù)器根據(jù)需要進(jìn)行預(yù)測(cè)。
優(yōu)點(diǎn)
- 可在新項(xiàng)目加入時(shí)對(duì)其進(jìn)行預(yù)測(cè),非常適合存在長(zhǎng)尾的情況。
- 計(jì)算量非常大,對(duì)延遲較為敏感,可能會(huì)限制模型的復(fù)雜度。
缺點(diǎn) - 監(jiān)控需求更多。
2.4 數(shù)據(jù)依賴關(guān)系
可靠性
信號(hào)是否始終可用?信號(hào)來(lái)源是否不可靠?
比如
- 信號(hào)是否來(lái)自因負(fù)載過(guò)重而崩潰的服務(wù)器?
- 信號(hào)是否來(lái)自每年 8 月去度假的人群?
版本控制
計(jì)算此數(shù)據(jù)的系統(tǒng)是否發(fā)生過(guò)變化?
比如
- 多久一次?
- 您如何知道系統(tǒng)發(fā)生變化的時(shí)間?
必要性
特征的實(shí)用性是否能證明值得添加此特征?
相關(guān)性
是否有任何特征密不可分,以至于需要采取額外策略來(lái)梳理它們?
反饋環(huán)
一個(gè)模型是否會(huì)影響另一個(gè)模型
比如兩個(gè)股價(jià)預(yù)測(cè)模型為例:
- 模型 A - 不理想的預(yù)測(cè)模型
- 模型 B
由于模型 A 有誤,因此會(huì)導(dǎo)致錯(cuò)誤地決定購(gòu)買(mǎi)股票 X 的股票,而購(gòu)買(mǎi)這些股票會(huì)抬高股票 X 的價(jià)格。模型 B 將股票 X 的股價(jià)用作輸入特征,因此它很容易對(duì)股票 X 的價(jià)值得出錯(cuò)誤結(jié)論。然后,模型 B 會(huì)根據(jù)模型 A 的錯(cuò)誤行為購(gòu)買(mǎi)或銷售股票 X 的股份,反過(guò)來(lái),模型 B 的行為會(huì)影響模型 A,而這樣很可能會(huì)觸發(fā)郁金香狂熱效應(yīng)或?qū)е?X 公司的股價(jià)下滑。
3 機(jī)器學(xué)習(xí)系統(tǒng)在現(xiàn)實(shí)世界里的應(yīng)用
3.1 癌癥預(yù)測(cè)
特征:病人年齡、性別、 醫(yī)療狀況、醫(yī)院名稱、生命體征、檢驗(yàn)結(jié)果
預(yù)測(cè):是否會(huì)患有癌癥
以上設(shè)定存在什么問(wèn)題?
模型中包含的一個(gè)特征是醫(yī)院名稱,比如"癌癥中心"等專門(mén)治療癌癥的機(jī)構(gòu),已經(jīng)暗含了在醫(yī)生的診斷結(jié)論,這叫做標(biāo)簽泄露**。當(dāng)模型嘗試取代醫(yī)生去判斷新樣本時(shí)(還未就醫(yī) ),模型無(wú)法得知該信息,導(dǎo)致預(yù)測(cè)的結(jié)果非常糟糕。
3.2 文學(xué)
特征:文學(xué)語(yǔ)句
預(yù)測(cè):作者的政治派別
以上設(shè)定存在什么問(wèn)題?
當(dāng)我們創(chuàng)建測(cè)試訓(xùn)練和驗(yàn)證拆分內(nèi)容時(shí), 我們是通過(guò)逐句拆分樣本來(lái)實(shí)現(xiàn)的。也就是說(shuō),同一個(gè)作者的語(yǔ)句會(huì)一部分會(huì)被編入訓(xùn)練集,一部分會(huì)編入測(cè)試集,這導(dǎo)致訓(xùn)練的模型可以了解某個(gè)作者在語(yǔ)言使用方面的特質(zhì), 而不僅僅是了解他使用的隱喻手法。所以應(yīng)該在作者的層面,這個(gè)作者的所有語(yǔ)句要么都作為訓(xùn)練集,要么都作為測(cè)試集。
3.3 機(jī)器學(xué)習(xí)準(zhǔn)則
- 確保第一個(gè)模型簡(jiǎn)單易用
- 著重確保數(shù)據(jù)管道的正確性
- 使用簡(jiǎn)單且可觀察的指標(biāo)進(jìn)行訓(xùn)練和評(píng)估
- 擁有并監(jiān)控您的輸入特征
- 將您的模型配置視為代碼:進(jìn)行審核并記錄在案
- 記下所有實(shí)驗(yàn)的結(jié)果,尤其是“失敗”的結(jié)果
編程練習(xí)
神經(jīng)網(wǎng)絡(luò)簡(jiǎn)介:編程練習(xí)
提高神經(jīng)網(wǎng)絡(luò)性能:編程練習(xí)
v