色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

<tfoot id="saiky"><rt id="saiky"></rt></tfoot><ul id="saiky"></ul>

<abbr id="saiky"></abbr>

<fieldset id="saiky"><input id="saiky"></input></fieldset>

登錄注冊寫文章

ML學(xué)習(xí)筆記：Gradient Descent

ML學(xué)習(xí)筆記：Gradient Descent

Review

回顧在線性回歸中函數(shù)最優(yōu)化計算的過程中，需要對梯度進(jìn)行計算，然后一步一步微調(diào)參數(shù)w和b，最后得到一個使loss最小的最優(yōu)解。

每次都是沿著法線的方向?qū)Y(jié)果進(jìn)行微調(diào)修改參數(shù)

Tip 1: Tuning your learning rates

如果學(xué)習(xí)率過大，就會在最低點(diǎn)上面來回動蕩，永遠(yuǎn)都到不了最低點(diǎn)；
如果學(xué)習(xí)率過小，就會使收斂過慢，需要訓(xùn)練很久才能到達(dá)最優(yōu)結(jié)果。

可以對學(xué)習(xí)率實時進(jìn)行調(diào)整，一開始很大，然后逐漸減少。這個就是常規(guī)的方法，也稱Vanilla Gradient dedcent

更好的解決方案：Adagrad。
用前一次的學(xué)習(xí)率乘以vanilla參數(shù)然后再除以前面所有梯度的均方根。

對Adagrag進(jìn)行簡化

問題：在Adagrag中，分子和分母的變化方向是一樣的，是否造成矛盾？

直觀的理由是造成一種反差的效果：

當(dāng)前面幾步比較慢的時候，后面會根據(jù)前面的梯度下降的值計算出一個比較小的均方根，導(dǎo)致下一步比較大；
當(dāng)前面幾步比較快的時候，后面會根據(jù)前面的梯度下降的值計算出一個比較大的均方根，導(dǎo)致下一步比較?。?/p>

最優(yōu)的梯度下降方法應(yīng)該是接近最低點(diǎn)的時候梯度下降速度減慢，而不是一直保持一個線性的值。

Tip 2: Stochastic Gradient Descent

思想：只對一個隨機(jī)的樣品進(jìn)行梯度下降——加快訓(xùn)練速度

傳統(tǒng)的梯度下降：一步要計算20個；隨機(jī)梯度下降：一步計算一個，20步計算20個。

Tip 3: Feature Scaling

特征縮放：使不同的特征擁有一樣的規(guī)模大小

原因：使梯度線偏向于一個圓形，更好的進(jìn)行梯度下降

縮放方法：使數(shù)據(jù)的平均值為0，方差為1

為什么梯度下降方法有效？

梯度下降的目標(biāo)：給定一個點(diǎn)，找到一個最“陡峭”的方向前進(jìn)一步。如何找到這一個陡峭的方向？

泰勒公式：

圓圈的半徑足夠小，即學(xué)習(xí)率足夠小，每次沿著梯度下降最快的方向走一步，就會找到圓圈內(nèi)最小值

兩個參數(shù)的情況：

雖然Gradient Descent方法有效找到一個“最低點(diǎn)”，但是還是會存在很多的問題，我們會在以后的學(xué)習(xí)中去解決它們。

膠片來自于臺灣大學(xué)李宏毅教授的《機(jī)器學(xué)習(xí)課程》，侵刪!

最后編輯于：2019.11.16 17:03:16

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成，瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明：文章內(nèi)容（如有圖片或視頻亦包括在內(nèi)）由作者上傳并發(fā)布，文章內(nèi)容僅代表作者本人觀點(diǎn)，簡書系信息發(fā)布平臺，僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

cs231n課程筆記：最優(yōu)化
筆記參考：https://zhuanlan.zhihu.com/p/20894041?refer=intellig...
spectre_hola閱讀 800評論 0贊 0
機(jī)器學(xué)習(xí)術(shù)語表
機(jī)器學(xué)習(xí)術(shù)語表本術(shù)語表中列出了一般的機(jī)器學(xué)習(xí)術(shù)語和 TensorFlow 專用術(shù)語的定義。 A A/B 測試 (...
yalesaleng閱讀 2,142評論 0贊 11

Hulu面試題(三)
https://mp.weixin.qq.com/s/BuHiG9FjX-OiSNWx3KquQQ 17.隨機(jī)梯度...
_龍雀閱讀 4,009評論 0贊 4
【新手百科】機(jī)器學(xué)習(xí)中梯度下降算法（包括其變式算法）簡介
編譯：AI100，本文經(jīng)授權(quán)發(fā)布，轉(zhuǎn)載請聯(lián)系A(chǔ)I100. 英文：https://www.analyticsvidh...
Major術(shù)業(yè)閱讀 1,145評論 0贊 5
遇見未知的自己14
重新和身體聯(lián)結(jié) 原來瑜伽和呼吸這么奇妙啊。讓自己的呼吸放緩，放慢，可以延長壽命。我辦了瑜伽卡，兩年也沒用完。是時...
麗麗_8228閱讀 166評論 0贊 0

友情鏈接更多精彩內(nèi)容

贊1贊

贊賞

手機(jī)看全文

库尔勒市| 霍山县| 贵港市| 日土县| 周宁县| 临高县| 山阳县| 阜新市| 张家界市| 厦门市| 兴业县| 沙洋县| 西青区| 融水| 高密市| 九台市| 沁水县| 文水县| 雷山县| 吉林市| 南雄市| 乌兰浩特市| 博白县| 哈密市| 临泉县| 雅安市| 社会| 富裕县| 江阴市| 南岸区| 晋城| 绥芬河市| 聊城市| 巍山| 镇雄县| 尼木县| 四川省| 夹江县| 新郑市| 三江| 修水县|