1新智元編譯 來源:ArXiv 作者:Kai Arulkumaran, Marc Peter Deisenroth, Miles Brundage, Anil Anthony Bharath 編譯整理: 文強,朱煥 【新智元導(dǎo)讀】深度強化學(xué)習(xí)將有助于革新AI領(lǐng)域,它是朝向構(gòu)建對視覺世界擁有更高級理解的自主系統(tǒng)邁出的一步。本文將涵蓋深度強化學(xué)習(xí)的核心算法,包括深度Q網(wǎng)絡(luò)、置信區(qū)域策略優(yōu)化和異步優(yōu)勢actor-critic算法(A3C)。同時,重點介紹深度強化學(xué)習(xí)領(lǐng)域的幾個研究方向。 本文預(yù)計在IEEE信號處理雜志“圖像理解深度學(xué)習(xí)”??l(fā)表。作者Kai Arulkumaran是倫敦帝國理工大學(xué)的博士生,Marc Peter Deisenroth是倫敦帝國理工大學(xué)的講師,Miles Brundage是亞利桑那州立大學(xué)博士生,Anil Anthony Bharath是倫敦帝國理工大學(xué)的Reader。 摘要 深度強化學(xué)習(xí)將有助于革新AI領(lǐng)域,它是朝向構(gòu)建對視覺世界擁有更高級理解的自主系統(tǒng)邁出的一步。目前,深度學(xué)習(xí)使強化學(xué)習(xí)能夠擴展到解決以前難以解決的問題,比如直接從像素學(xué)習(xí)玩視頻游戲。深度強化學(xué)習(xí)算法也適用于機器人領(lǐng)域,讓機器人能直接從現(xiàn)實世界的攝像機輸入中學(xué)習(xí)控制策略。在本次調(diào)查中,我們將首先介紹一般的強化學(xué)習(xí),然后逐步推進到主流的基于價值和基于策略的方法。我們的調(diào)查將涵蓋深度強化學(xué)習(xí)的核心算法,包括深度Q網(wǎng)絡(luò)、置信區(qū)域策略優(yōu)化和異步優(yōu)勢actor-critic算法(A3C)。同時,我們強調(diào)了深度神經(jīng)網(wǎng)絡(luò)的獨特優(yōu)勢,重點介紹通過強化學(xué)習(xí)進行視覺理解。最后,我們介紹了該領(lǐng)域當(dāng)前的幾個研究方向。 人工智能(AI)領(lǐng)域的主要目標(biāo)之一是制作全自主的智能體,能通過與周圍環(huán)境互動學(xué)習(xí)優(yōu)化自己的行為,通過不斷試錯改善自我。打造反應(yīng)靈敏、能有效學(xué)習(xí)的AI一直是長期的挑戰(zhàn),無論是機器人(可以感覺和對周圍世界做出反應(yīng))還是純粹的基于軟件的智能體(通過自然語言和多媒體進行互動)。對于這種由經(jīng)驗驅(qū)動的自主學(xué)習(xí),一個主要的數(shù)學(xué)框架是強化學(xué)習(xí)(RL)。雖然RL在過去有一些成功,但以前的方法缺乏可擴展性,而且固有地局限于相當(dāng)?shù)途S度的問題。這些限制之所以存在,是因為RL算法也有其他算法那樣的復(fù)雜性問題:內(nèi)存復(fù)雜度、計算量復(fù)雜度,具體到機器學(xué)習(xí)算法,還有樣本復(fù)雜度。最近我們所見到的——深度學(xué)習(xí)的興起,依靠深度神經(jīng)網(wǎng)絡(luò)強大的函數(shù)逼近和表示學(xué)習(xí)性質(zhì)——為我們提供了新的工具,去克服這些問題。 深度學(xué)習(xí)的出現(xiàn)對機器學(xué)習(xí)中的許多領(lǐng)域產(chǎn)生了重大影響,大大提高了物體檢測、語音識別和語言翻譯等任務(wù)的state-of-the-art成績。深度學(xué)習(xí)最重要的特點在于,深度神經(jīng)網(wǎng)絡(luò)可以自動發(fā)現(xiàn)高維度數(shù)據(jù)(例如,圖像、文本和音頻)的緊湊的低維表示(特征)。通過將推演偏差(inductive biases)融入到神經(jīng)網(wǎng)絡(luò)架構(gòu)中,特別是融入到層次化的表示中,機器學(xué)習(xí)從業(yè)者在解決維度詛咒方面取得了有效進展。深度學(xué)習(xí)同樣加速了RL的發(fā)展,使用RL內(nèi)的深度學(xué)習(xí)算法提出了“深度強化學(xué)習(xí)”(DRL)方向。這項調(diào)查的目的是介紹DRL的最新重要發(fā)展,介紹使用神經(jīng)網(wǎng)絡(luò)更接近開發(fā)自主智能體的創(chuàng)新方式。 深度學(xué)習(xí)使RL可以擴展到解決以前難以處理的決策問題,即具有高維狀態(tài)和動作空間的情景。在最近的DRL領(lǐng)域的工作中,有兩個杰出的成功案例。第一個是開發(fā)一種可以直接從圖像像素學(xué)習(xí)的算法,在一系列Atari 2600視頻游戲中表現(xiàn)都超越了人類水平。這項工作為RL中的函數(shù)逼近不穩(wěn)定提供了解決方案,第一次令人信服地證明RL智能體可以僅基于獎勵信號,使用原始的高維度觀察信息進行訓(xùn)練。第二個突出的成就是開發(fā)了一個混合的DRL系統(tǒng)AlphaGo,在圍棋中擊敗了一個人類世界冠軍,與20多年前IBM Deep Blue的歷史性成就和IBM Watson的DeepQA系統(tǒng)相媲美。與主導(dǎo)棋牌系統(tǒng)的手工定制的規(guī)則不同,AlphaGo由使用監(jiān)督學(xué)習(xí)和強化學(xué)習(xí)訓(xùn)練的神經(jīng)網(wǎng)絡(luò),結(jié)合傳統(tǒng)的啟發(fā)式搜索算法而成。 DRL算法已被應(yīng)用于各種各樣的問題,例如機器人技術(shù),創(chuàng)建能夠進行元學(xué)習(xí)(“學(xué)會學(xué)習(xí)”learning to learn)的智能體,這種智能體能泛化處理以前從未見過的復(fù)雜視覺環(huán)境。在圖1中,我們展示了應(yīng)用DRL的一些領(lǐng)域,從玩視頻游戲到室內(nèi)導(dǎo)航。 視頻游戲是一個有趣的挑戰(zhàn),但學(xué)習(xí)如何玩游戲不是DRL的最終目標(biāo)。DRL背后的驅(qū)動力之一是創(chuàng)造能夠在現(xiàn)實世界中學(xué)習(xí)如何適應(yīng)環(huán)境的系統(tǒng)。從管理電力消耗到拾取和收集物體,DRL通過學(xué)習(xí)來增加可以自動化的物理任務(wù)的數(shù)量。然而,DRL并不止于此,因為RL是通過試錯接近優(yōu)化問題的一般方法。從設(shè)計最先進的機器翻譯模型到構(gòu)建新的優(yōu)化函數(shù),DRL被用于處理各種機器學(xué)習(xí)任務(wù)。就像深度學(xué)習(xí)被廣泛用于各種機器學(xué)習(xí)分支任務(wù)一樣,未來DRL也很可能將是構(gòu)建通用AI系統(tǒng)的一個重要組成部分。 在研究深度神經(jīng)網(wǎng)絡(luò)對RL的貢獻之前,我們將介紹一般的RL領(lǐng)域。RL的本質(zhì)是通過互動學(xué)習(xí)。RL智能體與其環(huán)境進行交互,在觀察到其行為的后果時,可以學(xué)習(xí)改變自己的行為以對得到的回報做出響應(yīng)。這種試錯法的范例源于行為心理學(xué),是RL的主要基礎(chǔ)之一。對RL的另一個關(guān)鍵影響是最優(yōu)控制,是數(shù)學(xué)形式主義(尤其是動態(tài)規(guī)劃)的概念。 在RL設(shè)置中,由機器學(xué)習(xí)算法控制的自主智能體在時間步長t觀察其環(huán)境中的狀態(tài)st。當(dāng)智能體采取動作時,環(huán)境和智能體將根據(jù)當(dāng)前狀態(tài)和所選動作轉(zhuǎn)換到新狀態(tài)st+1。狀態(tài)是一個足夠靜態(tài)的環(huán)境,包括了智能體采取最佳行動的所有必要信息。行動的最佳順序由環(huán)境提供的獎勵決定。每當(dāng)環(huán)境轉(zhuǎn)變到新的狀態(tài)時,它還會向智能體提供一個標(biāo)量獎勵值+ 1作為反饋。智能體的目標(biāo)是學(xué)習(xí)最大限度地提高預(yù)期收益(累積、貼現(xiàn)獎勵)的策略(控制策略)π。給定一個狀態(tài),一個策略返回一個執(zhí)行動作;最優(yōu)策略是使環(huán)境中預(yù)期回報最大化的任何策略。在這方面,RL旨在解決與最佳控制相同的問題。然而,RL中的挑戰(zhàn)是智能體需要通過反復(fù)試驗了解環(huán)境中行為的后果,因為與最優(yōu)控制不同,智能體不能使用狀態(tài)轉(zhuǎn)換動態(tài)模型。與環(huán)境的每一次互動都會產(chǎn)生信息,智能體用它來更新其知識,這種感知-行動-學(xué)習(xí)循環(huán)在下圖中展示了出來。 A. 馬爾科夫決策過程 RL可被描述為一種馬爾科夫決策過程(MDP)。RL的關(guān)鍵概念是Markov屬性,即僅當(dāng)前狀態(tài)影響下一狀態(tài),換句話說,未來有條件地獨立于給定當(dāng)前狀態(tài)的過去。雖然這個假設(shè)是由大多數(shù)RL算法來實現(xiàn)的,但它有些不現(xiàn)實,因為它要求狀態(tài)是完全可觀察的。MDP的一種泛化形式是部分可觀察的MDP(POMDP),在POMDP中智能體接收到一個狀態(tài)的分布,取決于當(dāng)前狀態(tài)和前一個行動的結(jié)果。深度學(xué)習(xí)中更常見的一種方法是利用循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN),與神經(jīng)網(wǎng)絡(luò)不同,RNN是動態(tài)系統(tǒng)。這種解決POMDP的方法與使用動態(tài)系統(tǒng)和狀態(tài)空間模型的其他問題有關(guān),其中真實狀態(tài)只能去估計。 B. 強化學(xué)習(xí)的挑戰(zhàn) 指出RL面臨的一些挑戰(zhàn)對了解DRL具有啟發(fā):
以室內(nèi)機器人視覺導(dǎo)航任務(wù)為例:如果指定了目標(biāo)位置,我們可能能夠估計剩余距離(并將其用作獎勵信號),但是我們不可能知道機器人究竟會采取哪些行動達到目標(biāo)。由于機器人在導(dǎo)航建筑物時必須選擇去哪里,它的決定會影響到它看到的房間,因此影響了所捕獲的視覺序列的統(tǒng)計。最后,在導(dǎo)航幾個路口后,機器人可能會發(fā)現(xiàn)自己處于死胡同。從學(xué)習(xí)行動的后果到平衡探索都存在種種問題,但最終這些都可以在RL的框架內(nèi)正式解決。 價值函數(shù) A. 函數(shù)逼近和DQN 我們對基于價值函數(shù)的DRL算法的討論,從深度Q網(wǎng)絡(luò)(如下圖所示)開始,該算法在經(jīng)典Atari 2600視頻游戲中獲得了普遍的成功,性能堪比專業(yè)的視頻游戲測試人員。DQN的輸入是游戲的四個灰度幀,隨著時間的推移連接,最初由幾個卷積層處理,以便提取時空特征,例如“Pong”或“Breakout”中球的移動。最終,來自卷積層的特征圖由幾個全連接的層來處理,這更多隱含編碼地動作的效果。這與使用固定預(yù)處理步驟的更傳統(tǒng)的控制器形成對照,因此,它們不能適應(yīng)其對學(xué)習(xí)信號的狀態(tài)處理。 DQN與Lange等人提出的模型密切相關(guān),但是DQN是第一個被證明可以直接從原始的視覺輸入學(xué)習(xí)并且在多種環(huán)境中工作的RL算法。DQN最終的全連接層輸出一組離散的動作,這不僅能夠在網(wǎng)絡(luò)的單次向前傳遞之后選擇最佳動作,而且允許網(wǎng)絡(luò)更容易地在較低卷積層中編碼與動作無關(guān)的知識。DQN的目的只有一個,最大限度地提高視頻游戲的分數(shù),僅僅如此,智能體就學(xué)會了提取突出的視覺特征,聯(lián)合對物體、運動以及彼此的交互進行編碼。使用最初開發(fā)用于解釋CNN在物體識別任務(wù)中的行為的技術(shù),我們還可以查看智能體認為視圖中重要的部分(參見下圖)。 DQN通過使用兩種技術(shù)來解決在RL中使用函數(shù)逼近的基本不穩(wěn)定性問題:經(jīng)驗重放和目標(biāo)網(wǎng)絡(luò)。經(jīng)驗重放使得RL智能體能夠從先前觀察到的數(shù)據(jù)離線進行抽樣和訓(xùn)練。這不僅大大減少了環(huán)境所需的交互量,而且可以對一批經(jīng)驗進行抽樣,減少學(xué)習(xí)更新的差異。此外,通過從大存儲器均勻采樣,可能對RL算法產(chǎn)生不利影響的時間相關(guān)性被打破了。最后,從實際的角度看,可以通過現(xiàn)代硬件并行地高效地處理批量的數(shù)據(jù),從而提高吞吐量。雖然原始DQN算法使用均勻采樣,但后來的工作表明,基于TD誤差的優(yōu)先級樣本對于學(xué)習(xí)更有效。雖然經(jīng)驗重放通常被認為是一種無模型技術(shù),但實際上它可以被認為是一個簡單的模型。 Mnih等人引入的第二種穩(wěn)定方法,是使用一個目標(biāo)網(wǎng)絡(luò),這個目標(biāo)網(wǎng)絡(luò)最初包含執(zhí)行策略的網(wǎng)絡(luò)的權(quán)重,但是被凍結(jié)住很長時間?;谄渥陨砜焖俨▌拥腝值估計,不必計算TD誤差,策略網(wǎng)絡(luò)使用固定的目標(biāo)網(wǎng)絡(luò)。在訓(xùn)練過程中,目標(biāo)網(wǎng)絡(luò)的權(quán)重將被更新,以便在固定數(shù)量的步驟之后與策略網(wǎng)絡(luò)匹配。 經(jīng)驗重返和目標(biāo)網(wǎng)絡(luò)已經(jīng)在隨后的DRL工作中得到使用。 B. Q函數(shù)修正 將DQN的關(guān)鍵部分之一視為Q函數(shù)的一個函數(shù)逼近,可以受益于RL的基本進步。van Hasselt 顯示了,在Q學(xué)習(xí)更新規(guī)則中使用的單個估計器高估了使用最大動作值作為最大預(yù)期動作值的近似值而導(dǎo)致的預(yù)期回報。雙重學(xué)習(xí)通過使用雙重估計來提供更好的估計。雖然雙重Q學(xué)習(xí)需要額外的函數(shù)來學(xué)習(xí),后來的工作提出使用DQN算法中已有的目標(biāo)網(wǎng)絡(luò),從而在只發(fā)生很小的變化的情況下得到了更好的結(jié)果。 調(diào)整DQN架構(gòu)的另一種方法是將Q函數(shù)分解為有意義的函數(shù),例如通過將計算狀態(tài)值函數(shù)V和優(yōu)勢函數(shù)Aπ的不同層相加在一起構(gòu)建Qπ。Duelling DQN 不會計算出所有行動的精確Q值,而是將以Vπ的形式從狀態(tài)的單一基準(zhǔn)中受益。Duelling DQN與優(yōu)先經(jīng)驗重放(prioritised experience replay)的結(jié)合,是離散動作設(shè)置條件中最先進的技術(shù)之一。 Gu等人進一步了解Aπ的性質(zhì)后,用凸優(yōu)勢層修改DQN,擴展了算法對連續(xù)動作的集合,創(chuàng)建了歸一化優(yōu)勢函數(shù)(NAF)算法。受益于經(jīng)驗重放、目標(biāo)網(wǎng)絡(luò)和優(yōu)勢更新,NAF是連續(xù)控制問題中幾種最先進的技術(shù)之一。 策略搜索 策略搜索方法旨在通過無梯度或梯度方法直接查找策略。在目前大家對DRL的興趣激增之前,DRL中的幾個成功的方法沒有使用常用的反向傳播算法,而是選擇了遺傳算法,后者便是無梯度的策略搜索算法。遺傳方法依賴于評估一組智能體的表現(xiàn)。因此,對于具有許多參數(shù)的一大群智能體來說遺傳算法的使用成本很高。然而,作為黑盒優(yōu)化方法,它們可以用于優(yōu)化任意的不可微分的模型,并且天然能夠在參數(shù)空間中進行更多的探索。結(jié)合神經(jīng)網(wǎng)絡(luò)權(quán)重的壓縮表示,遺傳算法甚至可以用于訓(xùn)練大型網(wǎng)絡(luò);這種技術(shù)也帶來了第一個直接從高維視覺輸入學(xué)習(xí)RL任務(wù)的深度神經(jīng)網(wǎng)絡(luò)。由于遺傳算法能比依賴梯度的技術(shù)分布在更大的規(guī)模,最近又有工作重新燃起了對RL遺傳方法的興趣。 A. 通過隨機函數(shù)進行反向傳播 話雖如此,DRL的主力仍然反向傳播。REINFORCE規(guī)則讓神經(jīng)網(wǎng)絡(luò)能以任務(wù)相關(guān)的方式學(xué)習(xí)隨機策略,例如決定在哪里查看圖像以進行跟蹤、分類或生成圖說。在這些情況下,隨機變量將決定圖像的小部分坐標(biāo),從而減少所需的計算量。使用RL進行離散、隨機的決策,在深度學(xué)習(xí)文獻中被稱為“hard attention”,是近年來基礎(chǔ)策略搜索方法中引人注目的一個方向,在傳統(tǒng)的RL域之外有許多應(yīng)用。策略搜索中的一個引入注意的新方法是置信區(qū)域策略優(yōu)化(TRPO),通過防止策略過于偏離過去的策略,保證政策的逐步改進。在標(biāo)準(zhǔn)策略梯度方法之上,TRPO使用置信區(qū)域的概念,將優(yōu)化步驟限制在真實成本函數(shù)的近似值所在的區(qū)域內(nèi)。與以前的作品相比,TRPO將每個策略更新限制為與當(dāng)前策略的固定KL分離,從而導(dǎo)致動作條件p(a | s),這對于當(dāng)前網(wǎng)絡(luò)更為可行。以后Schulman等人的工作引入了廣義優(yōu)勢估計(GAE),為策略梯度方法提出了更先進的方差減少基線。TRPO和GAE的組合仍然是連續(xù)控制中最先進的RL技術(shù)之一。 B. Actor-Critic方法 Actor-Critic方法將策略搜索方法的優(yōu)點與學(xué)習(xí)到的價值函數(shù)結(jié)合起來,從而能夠從TD錯誤中學(xué)習(xí),近來很受歡迎。AC方法可以從策略梯度方法的改進中受益,如GAE和價值函數(shù)方法,如目標(biāo)網(wǎng)絡(luò)。在過去幾年中,DRL AC方法已經(jīng)從圖像像素直接從學(xué)習(xí)模擬物理任務(wù),還被應(yīng)用到真正的機器人視覺導(dǎo)航任務(wù)中。 AC算法最近的一個發(fā)展是確定性政策梯度(DPG),它將隨機策略的標(biāo)準(zhǔn)策略梯度定理擴展到確定性策略。DPG的一個主要優(yōu)點是,雖然隨機策略梯度在狀態(tài)和行動空間上都融合在一起,但DPG僅在狀態(tài)空間上整合,在較大的行動空間中需要較少的問題樣本。在DPG的初步工作中,Silver等人介紹并展示了一種離線策略AC算法,該算法在高維連續(xù)控制問題中的隨機策略梯度有了相當(dāng)大幅度地提高。后來的工作介紹了深度DPG(DDPG),DDPG利用神經(jīng)網(wǎng)絡(luò)來操作高維視覺狀態(tài)空間。與DPG一樣,Heess等人設(shè)計了一種用于計算梯度來優(yōu)化隨機策略的方法,通過“重新參數(shù)化”處理網(wǎng)絡(luò)的隨機性,從而能使用標(biāo)準(zhǔn)梯度(而不是高變化REINFORCE估計器)。所得到的隨機價值梯度(SVG)方法十分靈活,可以與價值函數(shù)critic(或?qū)W習(xí)模型)一起使用,也可以在沒有價值函數(shù)critic(或?qū)W習(xí)模型)的情況下單獨使用。隨后的工作就是將DPG和SVG與RNN集成在一起,從而可以解決POMDP中的連續(xù)控制問題,直接從像素學(xué)習(xí)。 原始的A3C算法已經(jīng)取得了幾個重大進展,反映了DRL領(lǐng)域的各種動機。第一個是具有經(jīng)驗重放的AC算法,能夠使用經(jīng)驗重放來提高樣本的復(fù)雜性。其他人試圖彌合價值與策略RL之間的差距,利用理論進步改善原有的A3C。最后,利用輔助任務(wù)來改進DRL學(xué)習(xí)到的表示,提高了智能體的學(xué)習(xí)速度和最終性能。 總而言之,我們將強調(diào)目前深度強化學(xué)習(xí)的一些研究領(lǐng)域以及仍然存在的挑戰(zhàn)。先前,我們主要關(guān)注非模型的方法,但是我們現(xiàn)在將詳細檢查幾個基于模型的深度強化算法?;谀P偷膹娀瘜W(xué)習(xí)算法在提高強化學(xué)習(xí)的數(shù)據(jù)有效性方面起著重要的作用, 也有助于對算法的探索性方面和開發(fā)性方面進行平衡。在處理了各種探索性策略后,我們將處理層次化強化學(xué)習(xí)(HRL),這種算法通過將內(nèi)容分解為多個層次,向最終決策中引入了歸納性偏見(inductive bias)。當(dāng)可以獲得相關(guān)資源時,也可以用其他系統(tǒng)控制器的學(xué)習(xí)軌跡來引導(dǎo)學(xué)習(xí)過程,從而引導(dǎo)我們進入模仿學(xué)習(xí)和逆向強化學(xué)習(xí)。接著,我們將考察多主體系統(tǒng),這些系統(tǒng)具有自己的特殊性。之后,我們會將目光轉(zhuǎn)向兩個更廣闊的領(lǐng)域:在深度強化學(xué)習(xí)的背景下使用循環(huán)神經(jīng)網(wǎng)絡(luò)和遷移學(xué)習(xí)。此后,我們將考察應(yīng)該如何評估強化學(xué)習(xí),以及深度強化學(xué)習(xí)的現(xiàn)有基準(zhǔn)測試有哪些。
A. 基于模型的強化學(xué)習(xí) 基于模型的強化學(xué)習(xí)背后的關(guān)鍵思想是: 去學(xué)習(xí)一個轉(zhuǎn)變性模型,這個模型讓我們能夠模擬環(huán)境,但卻不必直接與環(huán)境交互。基于模型的強化學(xué)習(xí)不會假定任何特定的先驗知識。但是,實踐中,我們可以結(jié)合先前的知識(例如物理模型)來加快學(xué)習(xí)。模型學(xué)習(xí)的重要作用是,減少需要與真實環(huán)境進行互動的次數(shù),因為在實踐中這種互動可能是受限的。例如,讓機器人在有限時間內(nèi)執(zhí)行數(shù)百萬次實驗、且不產(chǎn)生重大的硬件損耗,這是不切實際的。有各種各樣的方法,能夠利用像素信息來學(xué)習(xí)動力系統(tǒng)的預(yù)測模型。基于深度動力學(xué)模型,通過將高維度觀察信息用自動編碼器嵌入到低維空間,已經(jīng)有幾個基于模型的深度強化學(xué)習(xí)算法已被用于學(xué)習(xí)來自像素信息的模型和策略。
如果能學(xué)習(xí)獲得一個足夠準(zhǔn)確的環(huán)境模型,那么即使是簡單的控制器也可以用來直接通過相機圖像控制機器人。學(xué)習(xí)模型也可以通過對環(huán)境的模擬來指導(dǎo)探索活動,深度模型還進一步允許將這些技術(shù)擴大到高維視覺領(lǐng)域。
雖然深度神經(jīng)網(wǎng)絡(luò)可以在數(shù)百個時間步長的模擬環(huán)境中做出合理的預(yù)測,他們通常需要許多樣本來調(diào)節(jié)大量的參數(shù)。與簡單模型相比,訓(xùn)練這些模型通常需要更多的與環(huán)境互動的樣本。因此,Gu等學(xué)者訓(xùn)練了用于NAF算法的局部線性模型(該模型等價于DQN)來改善算法在機器人領(lǐng)域的樣本復(fù)雜度,因為在該領(lǐng)域中樣本通常價格昂貴??雌饋?,由于能提高神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)有效性,在基于模型的深度強化模型中使用深度模型這種進路將會得到更廣泛的應(yīng)用。
B.探索與開發(fā) 強化學(xué)習(xí)的最大困難之一是,在探索性活動與開發(fā)性活動之間的兩難困境:什么時候主體應(yīng)該去嘗試那些自認為的非最佳行動以便探索環(huán)境并改善模型,什么時候主體應(yīng)該進行最佳行動,以便獲得有用的進展? DQN等離線策略算法通常使用簡單?-貪婪探索策略,以? in [0,1] 的概率隨機選擇是否執(zhí)行最佳動作。通過逐步減少? 的取值,隨著時間的推移,主體逐漸從探索過渡到開發(fā)。雖然加入獨立探索噪聲可用于解決連續(xù)控制問題,更復(fù)雜的策略是注入在時間過程中彼此相關(guān)的噪聲,以便更好地保持動量。
由于觀察到時間相關(guān)性很重要,Osband等人提出了自舉性DQN。這種算法維持著若干個Q值“頭部”,它們可以通過聯(lián)合不同的初始權(quán)重和來自經(jīng)驗重放記憶的自舉性取樣來學(xué)習(xí)不同的值。在每個訓(xùn)練期的開始,都會選擇一個不同的“頭部”,由此來引導(dǎo)在時間上擴展的探索。Usunier 等人之后提出了一種類似的方法來探索策略空間,通過添加噪聲來篩選輸出的“頭部”,使用零階梯度估計來允許策略的反向傳播。
一個重要的探索性策略是上信度限制(UCB)算法,它所依據(jù)的是“以樂觀策略面對不確定性”這個想法。UCB算法背后的想法是,選擇能夠最大化E[R]+kσ[R]的算法 其中σ[R]是回報值的標(biāo)準(zhǔn)差且k>0。這樣, UCB 能夠在那些具有高度不確定性和中等程度的預(yù)期回報的區(qū)域中進行探索。這種算法不僅容易在小型案例中實現(xiàn),現(xiàn)在使用強大的密度模型已經(jīng)可以將這個算法擴展到高維度的具有深度強化學(xué)習(xí)的視覺領(lǐng)域。 UCB只是在貝葉斯優(yōu)化的背景下對探索和開發(fā)進行平衡的算法之一。未來對貝葉斯優(yōu)化算法的其他研究也將令深度強化學(xué)習(xí)受益。
UCB也可以被認為是一種實現(xiàn)“內(nèi)在動機”的方式,而這種內(nèi)在動機的一般概念倡導(dǎo)在對環(huán)境的學(xué)習(xí)過程中減少不確定性和取得進展。已經(jīng)有幾種深度強化學(xué)習(xí)算法試圖通過最小化模型預(yù)測誤差或最大化信息增益來實現(xiàn)內(nèi)在動機。
C.層次性強化學(xué)習(xí) 正如深度學(xué)習(xí)依賴于各種特征的層次等級那樣,層次性強化學(xué)習(xí)依賴各種政策的層次結(jié)構(gòu)。這個領(lǐng)域的早期工作引入了“選項”的概念。在“選項”中,一個策略除了可以執(zhí)行單時間步驟的最簡單行動之外,也可以運行其他策略,從而產(chǎn)生多時間步驟的行動。這種方法允許讓頂級策略則側(cè)重于更高層次的目標(biāo),同時讓下級策略來負責(zé)精細管理。 有幾個深度強化學(xué)習(xí)的工作都采用了層次性強化學(xué)習(xí),它們使用一個頂級策略在不同的下級策略之間進行選擇,而對狀態(tài)和目標(biāo)的區(qū)分則要么手動實現(xiàn),要么自動實現(xiàn)。其中有助于構(gòu)建子策略的方式是,聚焦于是發(fā)現(xiàn)和實現(xiàn)目標(biāo),而目標(biāo)可以被看作是環(huán)境中的特定狀態(tài)。這些目標(biāo)可以是特定的空間位置,這樣主體可以把自己導(dǎo)航到那里。不論是否使用層次性強化學(xué)習(xí),對目標(biāo)的發(fā)現(xiàn)和泛化都是現(xiàn)有研究的重要方面。
D.模仿學(xué)習(xí)和逆向強化學(xué)習(xí) 人們可能會問,如果給出一系列由專家演示得到的“最佳”行動,那么就無法直接使用監(jiān)督學(xué)習(xí)。這就是所謂的“從演示中學(xué)習(xí)“的問題。然而,這實際上是可能的,在傳統(tǒng)強化學(xué)習(xí)文獻中這被稱為行為克隆。
通過充分利用監(jiān)督學(xué)習(xí)中可用較強信號,行為克隆在早期神經(jīng)網(wǎng)絡(luò)研究中曾獲得成功,其中最顯著的成果是 ALVINN,最早的自主駕駛車輛。然而,行為克隆不能適應(yīng)新的情況,而且在執(zhí)行學(xué)到的策略期間,只要對演示內(nèi)容有小小的偏離,就可能進入一種令策略無法恢復(fù)的情境。一個更通用的解決方案是,使用已有的軌跡來指導(dǎo)對”狀態(tài)-行動“搭配的學(xué)習(xí),但使用強化學(xué)習(xí)來對主體進行微調(diào)。
逆向強化學(xué)習(xí)的目標(biāo)是,從觀察到的、能解決問題的行動軌跡中估算出未知的獎勵函數(shù)。逆向強化學(xué)習(xí)可以和強化學(xué)習(xí)聯(lián)合起來提高已被演示過的行動。通過使用深度神經(jīng)網(wǎng)絡(luò)的力量,現(xiàn)在可以用逆向強化學(xué)習(xí)方法來學(xué)習(xí)復(fù)雜的非線性獎勵函數(shù)。 Ho和Ermon 的研究表明,各個策略可以用其被使用率(狀態(tài)訪問量和動動作分布)來唯一地表征,這樣,將可以將逆向強化學(xué)習(xí)還原為測量匹配的問題。有了這一洞見,這兩位研究者就能夠使用生成對抗訓(xùn)練,從而能更靈活地進行獎勵函數(shù)的學(xué)習(xí),并得出一種生成對抗性的模擬學(xué)習(xí)算法(GAIL) 。GAIL后來得到了進一步的擴展,允許當(dāng)作為軌跡來源的其他主體的視角與強化學(xué)習(xí)主體的視角不同時,仍能運用逆向強化學(xué)習(xí)。在后續(xù)工作中,Baram 等人利用在 GAIL 中未使用的梯度信息以在逆向強化學(xué)習(xí)過程中學(xué)習(xí)模型。 E 多主體強化學(xué)習(xí)
通常,強化學(xué)習(xí)只考慮靜態(tài)環(huán)境中的固定單一學(xué)習(xí)主體。相比之下,多主體強化學(xué)習(xí)(MARL)考慮多個主體如何進行強化學(xué)習(xí),而且常常其他主體引入的不平穩(wěn)性改變了主體的學(xué)習(xí)行為。在深度強化學(xué)習(xí)中,重點是在主體之間實現(xiàn)可區(qū)分的通信,這使他們能夠合作。幾種方法被提出用于此目的,包括按順序傳遞消息,使用雙向通道(從而提供更少信號丟失的排序)和使用全面頻道。增加通信渠道是在復(fù)雜場景中應(yīng)用于MARL的自然策略,這并不排除對主體的合作關(guān)系或競爭關(guān)系進行建模的通常做法。多主體領(lǐng)域中的其他相關(guān)重要工作還包括對博弈論順序決策過程中學(xué)習(xí)效果的研究。
F 記憶與注意 作為深度強化學(xué)習(xí)最早的工作之一,DQN已孵化出了許多擴展。其中一個擴展是,將DQN轉(zhuǎn)化為RNN,這樣可以使網(wǎng)絡(luò)更好地通過長時間整合信息來處理POMDP周期。像遞歸過濾器一樣,循環(huán)性連接提供了對時間上遠隔的先天觀察進行條件行動的有效手段。使用其隱藏單元之間的循環(huán)連接,由Hausknecht和Stone建立的深度循環(huán)Q網(wǎng)絡(luò)(DRQN)能夠成功地在Pong 游戲中推測球的速度,即使游戲的幀被隨機地消隱。
通過向DRQN引入注意,還可以獲得進一步提高。這種技術(shù)能在循環(huán)單元和更底層的層級之間添加額外連接。而這將帶來深度注意循環(huán)Q網(wǎng)絡(luò)(DARQN)。注意使網(wǎng)絡(luò)能夠選擇下一步向哪一部分輸入關(guān)注,并使得DARQN在那些需要長時間規(guī)劃的游戲中擊敗DQN和DRQN。但是,在那些需要快速反應(yīng)的游戲中,DQN優(yōu)于DRQN 和 DARQN, 因為這時 Q取值波動得更快。
為了進一步促進循環(huán)過程,可以向DQN添加一個可微記憶,這允許它更多地在其“工作記憶”中靈活處理信息。在傳統(tǒng)RNN中,循環(huán)單元既負責(zé)執(zhí)行計算又負責(zé)存儲信息??晌⒂洃泴⒃黾又挥糜诖鎯Φ拇笮途仃?,并且可以使用可微讀取訪問和寫入操作,這類似計算機的內(nèi)存。Oh 等人通過基于鍵值的記憶Q-network(MQN)構(gòu)建了一個可以解決簡單迷宮的主體。該系統(tǒng)建在Minecraft游戲上,在游戲的每一集中,正確的目標(biāo)由附近顯示的彩色塊表示。MQN,尤其是更復(fù)雜的變體,在表現(xiàn)上顯著優(yōu)于DQN和DRQN的基準(zhǔn),這表明將記憶存儲解耦出來的重要性。
在更近的工作中,記憶被賦予了2D結(jié)構(gòu),類似于空間圖。這提示在未來的研究中,更專門的內(nèi)存結(jié)構(gòu)將用于開發(fā)解決具體問題,如2D或3D導(dǎo)航??晌⒋鎯ζ饕部梢杂糜诒平1?,允許DRL算法來存儲和檢索成功經(jīng)驗,以促進快速學(xué)習(xí)。
請注意,RNN并不局限于基于價值函數(shù)的方法。它已成功應(yīng)用于策略搜索和AC方法之中。
G遷移學(xué)習(xí) 即使深度強化學(xué)習(xí)算法可以處理高維數(shù)據(jù)輸入,直接訓(xùn)練強化學(xué)習(xí)主體來對現(xiàn)實世界的視覺輸入進行學(xué)習(xí)仍然是不可行的,因為這需要海量的樣本。為了加快深度強化學(xué)習(xí),可以利用以前從相關(guān)任務(wù)中獲得的知識,它表現(xiàn)為幾種形式:轉(zhuǎn)移學(xué)習(xí),多任務(wù)學(xué)習(xí)和課程學(xué)習(xí)等等。 研究者對從一個任務(wù)到另一個任務(wù)的遷移學(xué)習(xí)有很大的興趣。特別是,在有視覺渲染的物理模擬器中進行訓(xùn)練,然后在現(xiàn)實世界中對模型進行微調(diào),這種方式格外引起興趣。通過在模擬和實際階段直接使用相同的網(wǎng)絡(luò),可以簡單地實現(xiàn)這種遷移。也可以用更復(fù)雜的訓(xùn)練程序,在遷移時增加額外的層,以解決神經(jīng)網(wǎng)絡(luò)對舊知識的”災(zāi)難性遺忘“難題。其他方法涉及學(xué)習(xí)模擬與真實視覺之間的對齊,甚至兩個不同的攝像機視點之間的對齊。
另一種形式的遷移學(xué)習(xí)可以幫助RL實現(xiàn)多任務(wù)訓(xùn)練。特別是在神經(jīng)網(wǎng)絡(luò)中,監(jiān)督和無監(jiān)督學(xué)習(xí)任務(wù)可以幫助訓(xùn)練特征,RL主體可以使用這些特征,從而使得優(yōu)化RL目標(biāo)更容易實現(xiàn)。例如,在基于A3C的“無人監(jiān)督的強化和輔助學(xué)習(xí)”主體中,附加了“像素控制”(最大限度地改變像素輸入)、獎勵預(yù)測和來自經(jīng)驗回放的價值函數(shù)學(xué)習(xí)。同時,Mirowski等人的基于A3C的主體還在額外的訓(xùn)練中構(gòu)建了給定RGB輸入下的深度圖,以幫助它學(xué)習(xí)導(dǎo)航3D環(huán)境。 在研究中,Mirowski等展示了,預(yù)測深度比接收深度更適合作為額外輸入,這進一步支持了用輔助任務(wù)引導(dǎo)梯度變化,提升DRL的想法。轉(zhuǎn)移學(xué)習(xí)也可用于構(gòu)建更多的參數(shù)有效的策略。在機器學(xué)習(xí)的學(xué)生教師范式中,可以先訓(xùn)練更強大“老師”模型,然后用它來指導(dǎo)一個較弱的學(xué)生模型。 最初這只應(yīng)用于監(jiān)督學(xué)習(xí),這種神經(jīng)網(wǎng)絡(luò)知識轉(zhuǎn)移技術(shù)被稱為蒸餾技術(shù)?,F(xiàn)在,這種技術(shù)已經(jīng)既被用于將大型DQN學(xué)習(xí)的策略轉(zhuǎn)移到較小的DQN,也被用于將從幾個DQNs中學(xué)習(xí)的策略集中到單一的DQN 。 這是非常重要的一步,如果我們希望構(gòu)建出能完成廣泛范圍任務(wù)的主體的話。因為,直接同時對多個強化學(xué)習(xí)目標(biāo)進行訓(xùn)練可能是不可行的。 了解更多:A Brief Survey of Deep Reinforcement Learning https:///pdf/1708.05866v1.pdf
【號外】新智元正在進行新一輪招聘,飛往智能宇宙的最美飛船,還有N個座位 |
|