Applications of Deep Reinforcement Learning in Communications and Networking: A Survey 筆記

深度強化學(xué)習(xí)在通信和網(wǎng)絡(luò)中的應(yīng)用:一項調(diào)查
Applications of Deep Reinforcement Learning in Communications and Networking: A Survey - IEEE Journals & Magazine
[1810.07862] Applications of Deep Reinforcement Learning in Communications and Networking: A Survey
N. C. Luong et al., "Applications of Deep Reinforcement Learning in Communications and Networking: A Survey," in IEEE Communications Surveys & Tutorials, vol. 21, no. 4, pp. 3133-3174, Fourthquarter 2019.

摘要

本文提供了有關(guān)深度強化學(xué)習(xí)(DRL)在通信和網(wǎng)絡(luò)中的應(yīng)用的綜合文獻綜述。
物聯(lián)網(wǎng)(IoT)和無人機(UAV)網(wǎng)絡(luò)等現(xiàn)代網(wǎng)絡(luò)變得更加分散和自治。在這樣的網(wǎng)絡(luò)中,網(wǎng)絡(luò)實體需要在本地做出決策,以在網(wǎng)絡(luò)環(huán)境不確定的情況下最大化網(wǎng)絡(luò)性能。
當狀態(tài)和動作空間較小時,給定它們的狀態(tài),強化學(xué)習(xí)已被有效地用于使網(wǎng)絡(luò)實體能夠獲得包括例如決策或動作的最佳策略。
但是,在復(fù)雜的大規(guī)模網(wǎng)絡(luò)中,狀態(tài)和動作空間通常很大,強化學(xué)習(xí)可能無法在合理的時間內(nèi)找到最佳策略。
因此,已經(jīng)開發(fā)了DRL,將強化學(xué)習(xí)與深度學(xué)習(xí)相結(jié)合,以克服該缺點。

在此調(diào)查中,我們首先提供從基本概念到高級模型的DRL教程。
然后,我們回顧了為解決通信和網(wǎng)絡(luò)中出現(xiàn)的新問題而提出的DRL方法。
這些問題包括動態(tài)網(wǎng)絡(luò)訪問,數(shù)據(jù)速率控制無線緩存,數(shù)據(jù)分載,網(wǎng)絡(luò)安全性連接性保留,這些對5G及更高版本等下一代網(wǎng)絡(luò)都很重要。
此外,我們介紹了DRL在流量路由資源共享數(shù)據(jù)收集中的應(yīng)用。
最后,我們重點介紹了應(yīng)用DRL的重要挑戰(zhàn),未解決的問題以及未來的研究方向。

INTRODUCTION

強化學(xué)習(xí)[1]是機器學(xué)習(xí)最重要的研究方向之一,在過去20年中對人工智能(AI)的發(fā)展產(chǎn)生了重大影響。強化學(xué)習(xí)是一個學(xué)習(xí)過程,在該過程中,代理可以定期做出決策,觀察結(jié)果,然后自動調(diào)整其策略以實現(xiàn)最佳策略。但是,盡管這種學(xué)習(xí)過程已經(jīng)收斂,但仍需要花費大量時間才能制定出最佳策略,因為它必須探索并獲得整個系統(tǒng)的知識,從而使其不適用于大規(guī)模網(wǎng)絡(luò)。因此,強化學(xué)習(xí)的應(yīng)用在實踐中非常有限。
最近,深度學(xué)習(xí)[2]被引入作為一種新的突破技術(shù)。它可以克服強化學(xué)習(xí)的局限性,從而為強化學(xué)習(xí)的發(fā)展開辟新紀元,即深度強化學(xué)習(xí)(DRL)。 DRL擁有深度神經(jīng)網(wǎng)絡(luò)(DNN)的優(yōu)勢來訓(xùn)練學(xué)習(xí)過程,從而提高了學(xué)習(xí)速度和強化學(xué)習(xí)算法的性能。
結(jié)果,DRL已在實踐中的眾多強化學(xué)習(xí)應(yīng)用中被采用,例如機器人技術(shù),計算機視覺,語音識別和自然語言處理[2]。DRL最著名的應(yīng)用程序之一是AlphaGo,這是第一個計算機程序,它可以在全尺寸19×19板上無障礙地擊敗人類專業(yè)人員。

在通信和網(wǎng)絡(luò)領(lǐng)域,DRL最近已被用作有效解決各種問題和挑戰(zhàn)的新興工具。尤其是,諸如物聯(lián)網(wǎng)(IoT),異構(gòu)網(wǎng)絡(luò)(HetNets)和無人機(UAV)網(wǎng)絡(luò)之類的現(xiàn)代網(wǎng)絡(luò)在本質(zhì)上變得更加分散,臨時和自治。諸如IoT設(shè)備,移動用戶和UAV之類的網(wǎng)絡(luò)實體需要做出本地和自主決策,例如頻譜訪問,數(shù)據(jù)速率選擇,發(fā)射功率控制和基站關(guān)聯(lián),以實現(xiàn)包括吞吐量在內(nèi)的不同網(wǎng)絡(luò)的目標最大化和能耗最小化。在不確定和隨機的環(huán)境下,大多數(shù)決策問題可以通過所謂的馬爾可夫決策過程(MDP)建模[4]??梢圆捎脛討B(tài)編程[5],[6]和其他算法(例如值迭代)以及強化學(xué)習(xí)技術(shù)來求解MDP。但是,現(xiàn)代網(wǎng)絡(luò)規(guī)模龐大且復(fù)雜,因此技術(shù)的計算復(fù)雜度迅速變得難以控制。結(jié)果,DRL已經(jīng)發(fā)展成為克服挑戰(zhàn)的替代解決方案。

通常,DRL方法具有以下優(yōu)點:

  • DRL可以獲得復(fù)雜的網(wǎng)絡(luò)優(yōu)化解決方案。
    因此,它使現(xiàn)代網(wǎng)絡(luò)中的網(wǎng)絡(luò)控制器(例如基站)能夠解決非凸和復(fù)雜的問題(例如,聯(lián)合用戶關(guān)聯(lián),計算和傳輸時間表),從而在沒有完整而準確的網(wǎng)絡(luò)信息的情況下獲得最佳解決方案。
  • DRL使網(wǎng)絡(luò)實體可以學(xué)習(xí)和建立有關(guān)通信和網(wǎng)絡(luò)環(huán)境的知識
    因此,通過使用DRL,例如移動用戶的網(wǎng)絡(luò)實體可以在不知道信道模型和移動性模式的情況下學(xué)習(xí)最優(yōu)策略,例如基站選擇,信道選擇,切換決策,緩存和卸載決策。
  • DRL提供自主決策。
    使用DRL方法,網(wǎng)絡(luò)實體可以進行觀察并在本地之間以最少的信息交換或不進行信息交換的情況下獲得最佳策略。 這不僅減少了通信開銷,而且提高了網(wǎng)絡(luò)的安全性和魯棒性。
  • DRL顯著提高了學(xué)習(xí)速度,尤其是在狀態(tài)動作空間較大的問題中。
    因此,在大規(guī)模網(wǎng)絡(luò)(例如具有數(shù)千個設(shè)備的IoT系統(tǒng))中,DRL允許網(wǎng)絡(luò)控制器或IoT網(wǎng)關(guān)動態(tài)控制用戶關(guān)聯(lián),頻譜訪問以及為大量IoT設(shè)備和移動用戶傳輸功率。
  • 通信和網(wǎng)絡(luò)中的其他一些問題,例如網(wǎng)絡(luò)物理攻擊,干擾管理和泛洪數(shù)據(jù),可以建模為游戲,例如非合作游戲。
    DRL最近被用作解決游戲的有效工具,例如,在沒有完整信息的情況下找到納什均衡。

盡管有一些與DRL相關(guān)的調(diào)查,但它們并不專注于通信和網(wǎng)絡(luò)。例如,可以在[7]和[8]中找到DRL在計算機視覺和自然語言處理中的應(yīng)用調(diào)查。此外,還有一些調(diào)查僅與使用“深度學(xué)習(xí)”進行聯(lián)網(wǎng)有關(guān)。例如,在[9]中給出了無線網(wǎng)絡(luò)機器學(xué)習(xí)的調(diào)查,但它并不專注于DRL方法。
據(jù)我們所知,沒有一項調(diào)查專門討論DRL在通信和網(wǎng)絡(luò)中的應(yīng)用。這促使我們通過DRL教程和有關(guān)DRL在解決通信和網(wǎng)絡(luò)問題方面的應(yīng)用的綜合文獻回顧進行調(diào)查。

深度強化學(xué)習(xí)在通信和網(wǎng)絡(luò)中的應(yīng)用分類

為了方便起見,本次調(diào)查的相關(guān)工作是基于通信和網(wǎng)絡(luò)問題進行分類的,如圖2所示。主要問題包括網(wǎng)絡(luò)訪問,數(shù)據(jù)速率控制,無線緩存,泛洪數(shù)據(jù),網(wǎng)絡(luò)安全性,連接保留,業(yè)務(wù)路由,以及數(shù)據(jù)收集。
同樣,在圖1(a)和1(b)中示出了針對不同網(wǎng)絡(luò)和網(wǎng)絡(luò)中不同問題的DRL相關(guān)作品的百分比。從圖可以看出,大多數(shù)相關(guān)工作是針對蜂窩網(wǎng)絡(luò)的。另外,與無線緩存和無線廣播相關(guān)的工作比其他問題受到了更多的關(guān)注。

本文的其余部分安排如下。
第二節(jié) 介紹了強化學(xué)習(xí)的內(nèi)容,并討論了DRL技術(shù)及其擴展。
第三節(jié) 回顧了DRL在動態(tài)網(wǎng)絡(luò)訪問自適應(yīng)數(shù)據(jù)速率控制中的應(yīng)用。
第四節(jié) 討論了DRL在無線緩存泛洪數(shù)據(jù)中的應(yīng)用。
第五節(jié) 介紹了與DRL相關(guān)的網(wǎng)絡(luò)安全性連接性保留工作。
第六節(jié) 考慮了如何在通信和聯(lián)網(wǎng)中使用DRL與其他問題進行交易。
第七節(jié) 概述了重要的挑戰(zhàn),未解決的問題以及未來的研究方向
第八節(jié) 總結(jié)全文。
表I列出了本文中常見的縮寫詞。
請注意,DRL由兩種不同的算法組成,即深度Q學(xué)習(xí)(DQL)和策略梯度[10]。
特別是,DQL主要用于DRL相關(guān)作品。
因此,在本文的其余部分,我們互換使用“ DRL”和“ DQL”來指代DRL算法。

總結(jié)

本文對深度強化學(xué)習(xí)在通信和網(wǎng)絡(luò)中的應(yīng)用進行了全面的調(diào)查。
首先,我們概述了強化學(xué)習(xí),深度學(xué)習(xí)和深度強化學(xué)習(xí)。
然后,我們介紹了各種深度強化學(xué)習(xí)技術(shù)及其擴展。
之后,我們提供了深度強化學(xué)習(xí)的詳細評論,分析和比較,以解決通信和網(wǎng)絡(luò)中的不同問題。 問題包括動態(tài)網(wǎng)絡(luò)訪問,數(shù)據(jù)速率控制,無線緩存,數(shù)據(jù)分載,網(wǎng)絡(luò)安全性,連接性保留,業(yè)務(wù)路由和數(shù)據(jù)收集。
最后,我們概述了重要的挑戰(zhàn),未解決的問題以及未來的研究方向。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容