99热这里有精彩一区,.com九九久久

強化學(xué)習(xí)算法從不同方面有多種分類方式，根據(jù)是否構(gòu)建問題模型可以分為無模型算法和基于模型的算法；根據(jù)執(zhí)行策略和評估策略是否一致，可以分為同步策略算法和異步策略算法；根據(jù)算法更新策略，分為回合更新的蒙特卡羅算法和單步更新的時間差分算法。另外，根據(jù)智能體動作選取方式，可將強化學(xué)習(xí)算法分為基于值、基于策略以及結(jié)合值和策略三種算法，這也是當(dāng)前最主流的分類方式。
基于值的強化學(xué)習(xí)算法通過獲取最優(yōu)價值函數(shù)，選取最大價值函數(shù)對應(yīng)的動作，隱式地構(gòu)建最優(yōu)策略。代表性算法包括Q-learning、SARSA，以及與深度學(xué)習(xí)結(jié)合后的Deep Q-Network（DQN）算法。此類方法大多通過動態(tài)規(guī)劃或值函數(shù)估計方法獲取最優(yōu)價值函數(shù)，且為了保證效率采用時間差分方法進(jìn)行單步或者多步更新，而不是蒙特卡洛回合更新方式?；谥档膹娀瘜W(xué)習(xí)算法具備樣本利用率較高、價值函數(shù)估值方差小、不易陷入局部最優(yōu)的優(yōu)點，但是此類算法只能解決離散動作空間問題，容易出現(xiàn)過擬合，且可以處理的問題復(fù)雜度非常受限。同時，由于動作選取對價值函數(shù)的變化十分敏感，基于值的強化學(xué)習(xí)方法收斂性質(zhì)較差。
基于策略的強化學(xué)習(xí)算法是跨越值函數(shù)計算，直接進(jìn)行最佳策略搜索?；诓呗缘膹娀瘜W(xué)習(xí)算法通過最大化累積獎勵來更新策略參數(shù)，相比于基于值的強化學(xué)習(xí)算法，基于策略的強化學(xué)習(xí)算法具備離散和連續(xù)空間問題的處理能力，并且具有更好的收斂性，但是與此同時，基于策略的方法收斂軌跡方差大、樣本利用率低、容易陷入局部最優(yōu)也是當(dāng)前面臨的重要問題。
執(zhí)行者-評論者（actor-critic）算法將基于值的強化學(xué)習(xí)算法（對應(yīng)評論者，critic）與基于策略的強化學(xué)習(xí)算法（對應(yīng)執(zhí)行者，actor）方法進(jìn)行結(jié)合，同時學(xué)習(xí)策略和價值函數(shù)。Actor根據(jù)critic反饋的價值函數(shù)訓(xùn)練策略，而critic訓(xùn)練值函數(shù)，使用時間差分法進(jìn)行單步更新。通常情況下，執(zhí)行者-評論者方法被認(rèn)為是一類基于策略的方法，特殊之處在于使用價值作為策略梯度的基準(zhǔn)，是基于策略的方法對估計方差的改進(jìn)。執(zhí)行者-評論者兼?zhèn)浠诓呗缘姆椒ê突谥捣椒▋煞矫娴膬?yōu)勢，值函數(shù)估計方差小、樣本利用率高，算法整體的訓(xùn)練速度快。與此同時，執(zhí)行者-評論者方法也繼承了相應(yīng)缺點，例如actor對樣本的探索不足，critic 容易陷入過擬合的困境。并且，本身不易收斂的critic在與actor結(jié)合后，收斂性質(zhì)更差。
綜上所述，由于強化學(xué)習(xí)“交互-試錯”的基礎(chǔ)學(xué)習(xí)機制，使其常常面臨狀態(tài)-動作空間的維度災(zāi)難、探索與利用的矛盾、時間信度分配等問題。狀態(tài)和動作維度過高，使得Agent在巨大的狀態(tài)-動作空間下，很難或根本無法遍歷所有情況，導(dǎo)致算法無法學(xué)習(xí)到合理的策略。在訓(xùn)練過程中，Agent需要利用已有經(jīng)驗選擇能夠獲得獎勵最大的動作，另一方面需要擴大搜索范圍，選擇從未選擇過的動作，探索未知，以期獲取更優(yōu)決策。環(huán)境的反饋信號具有延遲性和稀疏性，即Agent在執(zhí)行多步動作之后才會獲得獎勵，中間動作無反饋信號。解決上述問題的一個直觀方法就是對人類的先驗知識加以充分利用，指導(dǎo)模型學(xué)習(xí)過程。

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

強化學(xué)習(xí)隨想1

強化學(xué)習(xí)隨想1

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

強化學(xué)習(xí)隨想1

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av