強化學(xué)習(xí)算法從不同方面有多種分類方式,根據(jù)是否構(gòu)建問題模型可以分為無模型算法和基于模型的算法;根據(jù)執(zhí)行策略和評估策略是否一致,可以分為同步策略算法和異步策略算法;根據(jù)算法更新策略,分為回合更新的蒙特卡羅算法和單步更新的時間差分算法。另外,根據(jù)智能體動作選取方式,可將強化學(xué)習(xí)算法分為基于值、基于策略以及結(jié)合值和策略三種算法,這也是當(dāng)前最主流的分類方式。
基于值的強化學(xué)習(xí)算法通過獲取最優(yōu)價值函數(shù),選取最大價值函數(shù)對應(yīng)的動作,隱式地構(gòu)建最優(yōu)策略。代表性算法包括Q-learning、SARSA,以及與深度學(xué)習(xí)結(jié)合后的Deep Q-Network(DQN)算法。此類方法大多通過動態(tài)規(guī)劃或值函數(shù)估計方法獲取最優(yōu)價值函數(shù),且為了保證效率采用時間差分方法進(jìn)行單步或者多步更新,而不是蒙特卡洛回合更新方式?;谥档膹娀瘜W(xué)習(xí)算法具備樣本利用率較高、價值函數(shù)估值方差小、不易陷入局部最優(yōu)的優(yōu)點,但是此類算法只能解決離散動作空間問題,容易出現(xiàn)過擬合,且可以處理的問題復(fù)雜度非常受限。同時,由于動作選取對價值函數(shù)的變化十分敏感,基于值的強化學(xué)習(xí)方法收斂性質(zhì)較差。
基于策略的強化學(xué)習(xí)算法是跨越值函數(shù)計算,直接進(jìn)行最佳策略搜索?;诓呗缘膹娀瘜W(xué)習(xí)算法通過最大化累積獎勵來更新策略參數(shù),相比于基于值的強化學(xué)習(xí)算法,基于策略的強化學(xué)習(xí)算法具備離散和連續(xù)空間問題的處理能力,并且具有更好的收斂性,但是與此同時,基于策略的方法收斂軌跡方差大、樣本利用率低、容易陷入局部最優(yōu)也是當(dāng)前面臨的重要問題。
執(zhí)行者-評論者(actor-critic)算法將基于值的強化學(xué)習(xí)算法(對應(yīng)評論者,critic)與基于策略的強化學(xué)習(xí)算法(對應(yīng)執(zhí)行者,actor)方法進(jìn)行結(jié)合,同時學(xué)習(xí)策略和價值函數(shù)。Actor根據(jù)critic反饋的價值函數(shù)訓(xùn)練策略,而critic訓(xùn)練值函數(shù),使用時間差分法進(jìn)行單步更新。通常情況下,執(zhí)行者-評論者方法被認(rèn)為是一類基于策略的方法,特殊之處在于使用價值作為策略梯度的基準(zhǔn),是基于策略的方法對估計方差的改進(jìn)。執(zhí)行者-評論者兼?zhèn)浠诓呗缘姆椒ê突谥捣椒▋煞矫娴膬?yōu)勢,值函數(shù)估計方差小、樣本利用率高,算法整體的訓(xùn)練速度快。與此同時,執(zhí)行者-評論者方法也繼承了相應(yīng)缺點,例如actor對樣本的探索不足,critic 容易陷入過擬合的困境。并且,本身不易收斂的critic在與actor結(jié)合后,收斂性質(zhì)更差。
綜上所述,由于強化學(xué)習(xí)“交互-試錯”的基礎(chǔ)學(xué)習(xí)機制,使其常常面臨狀態(tài)-動作空間的維度災(zāi)難、探索與利用的矛盾、時間信度分配等問題。狀態(tài)和動作維度過高,使得Agent在巨大的狀態(tài)-動作空間下,很難或根本無法遍歷所有情況,導(dǎo)致算法無法學(xué)習(xí)到合理的策略。在訓(xùn)練過程中,Agent需要利用已有經(jīng)驗選擇能夠獲得獎勵最大的動作,另一方面需要擴大搜索范圍,選擇從未選擇過的動作,探索未知,以期獲取更優(yōu)決策。環(huán)境的反饋信號具有延遲性和稀疏性,即Agent在執(zhí)行多步動作之后才會獲得獎勵,中間動作無反饋信號。解決上述問題的一個直觀方法就是對人類的先驗知識加以充分利用,指導(dǎo)模型學(xué)習(xí)過程。
強化學(xué)習(xí)隨想1
最后編輯于 :
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。