強化自己的學(xué)習(xí)

在人工智能的強化學(xué)習(xí)算法中有三個核心因素:環(huán)境(environment),行動(action),反饋(reward)。

環(huán)境一般是常量,起碼在一段時間里是不變的,然后就是經(jīng)過大量的多輪行動,行動的目的是適應(yīng)環(huán)境,獲得最優(yōu)路徑,或者最大值,其實這就是模仿人類的活動方式,不論是學(xué)習(xí)一門新的知識和進行一項新的工作,一般出不了這個套路,當然學(xué)習(xí)和工作有很多現(xiàn)成的經(jīng)驗可以加以吸收,但這些也是前人在學(xué)習(xí)工作中總結(jié)出來的,也逃不出這個套路!

除去環(huán)境這個因素,人能掌控的就是行動了,不斷的嘗試,就像學(xué)編程就要通過寫程序來適應(yīng)電腦編譯器這個環(huán)境,寫作也得通過不斷的寫來適應(yīng)文字這個環(huán)境,形成自己的風(fēng)格!在現(xiàn)在這個社會,在做中學(xué)習(xí)無疑是最現(xiàn)實的,無論是代碼還是寫作,想適應(yīng)環(huán)境是靠學(xué)是不會成就你自己的能力的。如人飲水,冷暖還得自己去體會!

通過行動產(chǎn)生的反饋,指導(dǎo)下一次行動,就要有良好的日志記錄和有對行動價值評估能力,在學(xué)習(xí)中,通過做題考試這個行動很容易得到反饋,對的不用去理會,看錯的主要看錯的。

在工作中則相反,社會發(fā)展飛速,時間是第一稀缺資源,錯的不用去理會,看對的也就是最有成效的方法。

在學(xué)習(xí)中糾結(jié)于錯誤問題的成績基本差不了,但如果這個習(xí)慣帶到工作中一般都呵呵了,工作看成效,記住正確的工作方式方法就行了,如果編程發(fā)現(xiàn)了一個編譯器問題,你和它死磕,老板會很不滿意的。這就能解釋很多學(xué)霸們到了社會工作中會有一段不適應(yīng)的時期。

寫作應(yīng)該是介乎于兩者之間,把文章寫出來,發(fā)布到網(wǎng)上,獲得讀者的反饋,瀏覽量就是最大的反饋,起碼看的人多,評論就更應(yīng)該重視了,好的差的都要自己再評估一下,再做優(yōu)化!如同強化學(xué)習(xí)算法一樣,大量的寫作才有大量的反饋,能力才能提升!

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容