編者按:值分布強(qiáng)化學(xué)習(xí)(Distributional Reinforcement Learning)是一類基于價(jià)值的強(qiáng)化學(xué)習(xí)算法,也是一類新興的強(qiáng)化學(xué)習(xí)方法。該方法達(dá)到了非分布式強(qiáng)化學(xué)習(xí)方法上新的基準(zhǔn)性能,也與神經(jīng)科學(xué)有著內(nèi)在聯(lián)系,因此具有很高的研究?jī)r(jià)值。本文將帶大家一起選讀多個(gè)近期值分布強(qiáng)化學(xué)習(xí)相關(guān)的研究工作,這些工作的發(fā)展脈絡(luò)清晰、研究動(dòng)機(jī)明確,為后續(xù)的進(jìn)一步研究提供了重要參考。 什么是值分布強(qiáng)化學(xué)習(xí)值分布強(qiáng)化學(xué)習(xí)(Distributional Reinforcement Learning,Distributional RL)是一類基于價(jià)值的強(qiáng)化學(xué)習(xí)算法(value-based Reinforcement Learning,value-based RL)。經(jīng)典的基于價(jià)值的強(qiáng)化學(xué)習(xí)方法嘗試使用期望值對(duì)累積回報(bào)進(jìn)行建模,表示為價(jià)值函數(shù) V(x) 或動(dòng)作價(jià)值函數(shù) Q(x,a)。而在這個(gè)建模過(guò)程中,完整的分布信息很大程度上被丟失了,值分布強(qiáng)化學(xué)習(xí)就是想要解決這個(gè)問(wèn)題,對(duì)累積回報(bào)這個(gè)隨機(jī)變量的分布 Z(x,a) 進(jìn)行建模,而非只建模其期望。
目前的值分布強(qiáng)化學(xué)習(xí)通常使用 Dirac Mixture 對(duì)連續(xù)分布進(jìn)行參數(shù)化建模。近年來(lái),許多研究人員嘗試從以下兩個(gè)角度開(kāi)展研究:一是對(duì)分布進(jìn)行更好的參數(shù)化,從而更好地?cái)M合實(shí)際的連續(xù)分布,如 C51、QR-DQN、IQN 和 FQF;二是對(duì)分布的不同統(tǒng)計(jì)特性進(jìn)行建模,嘗試找出更適合強(qiáng)化學(xué)習(xí)任務(wù)的建模方式,如 QR-DQN 學(xué)習(xí)分布的分位數(shù)值(quantile value)和 Expectile DRL 學(xué)習(xí)分布的期望分位數(shù)值(expectile value),而 MMD-DRL 則避免了對(duì) Dirac Mixture 模型統(tǒng)計(jì)意義的人為規(guī)定。 值分布強(qiáng)化學(xué)習(xí)方法是一類新興的強(qiáng)化學(xué)習(xí)方法,達(dá)到了非分布式強(qiáng)化學(xué)習(xí)方法上新的基準(zhǔn)性能,在 Atari 基準(zhǔn)上超過(guò)了原有的基于期望的 value-based RL 方法。另外,也有研究人員發(fā)現(xiàn)了值分布強(qiáng)化學(xué)習(xí)與神經(jīng)科學(xué)的內(nèi)在聯(lián)系。因此,值分布強(qiáng)化學(xué)習(xí)方法具有很高的研究?jī)r(jià)值。接下來(lái),本文將帶大家一起選讀多個(gè)近期值分布強(qiáng)化學(xué)習(xí)相關(guān)的研究工作,這些工作的發(fā)展脈絡(luò)清晰、研究動(dòng)機(jī)明確,為后續(xù)的進(jìn)一步研究提供了重要的參考價(jià)值。 A Distributional Perspectiveon Reinforcement Learning“A Distributional Perspective on Reinforcement Learning”是由 DeepMind 的 Bellemare 等人完成的文章,是現(xiàn)代值分布強(qiáng)化學(xué)習(xí)中比較重要的一篇文章。文章從理論上證明了分布貝爾曼算子(distributional Bellman operator)的一些性質(zhì),并提出了一種實(shí)現(xiàn)方法,成為了后續(xù)研究的一個(gè)重要基石。在這篇文章中,作者首先說(shuō)明傳統(tǒng) DQN 算法希望學(xué)習(xí)的 Q 是一個(gè)數(shù)值,其含義是未來(lái)獎(jiǎng)勵(lì)和的期望。而在值分布強(qiáng)化學(xué)習(xí)系列算法中,目標(biāo)則由數(shù)值變?yōu)橐粋€(gè)分布。在值分布強(qiáng)化學(xué)習(xí)中,目標(biāo)也由數(shù)值 Q 變?yōu)殡S機(jī)變量 Z,這種改變可以使學(xué)到的內(nèi)容是除了數(shù)值以外的更多信息,即整個(gè)分布。 圖1:C51 的貝爾曼更新(Bellman Update) 在這種設(shè)定下,作者引入了 distributional Bellman operator,隨后在 Wasserstein metric 下證明了 distributional Bellman operator 是一個(gè) γ-contraction 算子。但由于 Wasserstein metric 的梯度在實(shí)際采用時(shí)是有偏差的。因此,在實(shí)際算法上,作者采用了 KL 散度進(jìn)行計(jì)算。作者提出了 C51 算法,將可能的 Z 劃分為51個(gè)固定區(qū)間,然后學(xué)習(xí) Z 區(qū)到每個(gè)區(qū)間的概率,在迭代中使用 KL 散度計(jì)算損失函數(shù)(loss)。然而,在對(duì)目標(biāo)的 Z 值進(jìn)行一次 distributional Bellman operator 的計(jì)算之后,為了再次將其化為同樣51個(gè)固定區(qū)間的概率表示,C51 算法使用了一種投影方法(即圖1 d 中 Φ 所示),可以將概率重新投影到原來(lái)的固定區(qū)間中。隨后,再采用 KL 散度的交叉熵為 Loss,對(duì)其進(jìn)行優(yōu)化即可。 論文鏈接:https:///abs/1707.06887 Distributional Reinforcement Learning with Quantile Regression在 C51 提出約四個(gè)月后,2017年10月,C51 的作者 Bellemare 與同在 DeepMind 的 Dabney 等人提出了 QR-DQN 算法,并在 Atari 實(shí)驗(yàn)上刷新了 C51 的實(shí)驗(yàn)結(jié)果。 QR-DQN 與 C51 的最大不同點(diǎn)在于對(duì)分布的表述方式。C51 算法固定了 N 個(gè)概率的可能取值,然后使用可學(xué)習(xí)的、與 N 個(gè)值相對(duì)應(yīng)的 N 個(gè)概率值去描述分布。而 QR-DQN 則使用分位數(shù)來(lái)描述分布,也就是說(shuō),固定 N 個(gè)分位數(shù),然后學(xué)習(xí)這 N 個(gè)分位數(shù)對(duì)應(yīng)的數(shù)值取值。可以說(shuō),QR-DQN 使用了與 C51 相對(duì)的一種方法去描述分布。 圖2:QR-DQN 的分位點(diǎn)投影(quantile projection) 分位數(shù)即累積分布函數(shù)(CDF)的逆,通過(guò)分位數(shù) τ,可以找到與之相對(duì)應(yīng)的一個(gè) z 值。如果當(dāng)在 CDF 函數(shù)上對(duì)分布進(jìn)行建模時(shí),便可以和 Wasserstein metric 更好地結(jié)合起來(lái)。如圖2所示,黑色線為 Z 的 CDF 函數(shù),藍(lán)色線為 QR-DQN 使用的分位數(shù)方法對(duì) CDF 的近似表達(dá)。紅色部分,是近似表達(dá)與真實(shí) CDF 函數(shù)之間的誤差。 學(xué)習(xí)對(duì)應(yīng)的分位數(shù)值時(shí),QR-DQN 使用了分位點(diǎn)回歸(Quantile Regression)。對(duì)于每個(gè)設(shè)定的分位數(shù)值 τ,使用 Quantile Regression 以及 Huber Loss。通過(guò)這種方法,QR-DQN 不會(huì)再設(shè)置Z取值的上下界,因此相比 C51 而言有更大的靈活程度。 圖3:QR-DQN 在 Windy Gridworld 上的實(shí)驗(yàn)效果
在實(shí)驗(yàn)部分,QR-DQN 首先使用了一個(gè) Toy Case 實(shí)驗(yàn),在 Windy Gridworld 上證明了使用本文提出的方法,的確可以學(xué)到狀態(tài)對(duì)應(yīng)的分布。隨后,QR-DQN 又在 Atari 上完成了實(shí)驗(yàn),并且得到了比 C51 更加顯著的提升。 論文鏈接:https:///abs/1710.10044 Implicit Quantile Networks for Distributional Reinforcement LearningQR-DQN 在對(duì)分布進(jìn)行建模時(shí),選擇了固定且等間隔的概率位置,這個(gè)固定位置的限制使得算法難以適應(yīng)不同的分布,無(wú)法進(jìn)一步降低 Wasserstein 距離。為了解決這個(gè)問(wèn)題,QR-DQN 的作者 Dabney 等人在 QR-DQN 的基礎(chǔ)上提出了 IQN 算法,并取得了比 QR-DQN 更好的性能表現(xiàn)。 圖4:DQN、C51、QR-DQN、IQN 的網(wǎng)絡(luò)結(jié)構(gòu)對(duì)比 IQN 與 QR-DQN 主要有兩點(diǎn)不同。首先,它在估計(jì)給定的分位數(shù) τ 對(duì)應(yīng)的取值時(shí),將分位數(shù) τ 也作為神經(jīng)網(wǎng)絡(luò)模型的輸入,也就是說(shuō),使用神經(jīng)網(wǎng)絡(luò)來(lái)擬合整個(gè)連續(xù)分布,從而提高對(duì)于不同分布的表達(dá)能力。通過(guò)調(diào)整神經(jīng)網(wǎng)絡(luò)的容量,理論上能夠以任意精度擬合價(jià)值函數(shù)對(duì)應(yīng)的分布。其次,IQN 中使用從均勻分布中采樣的分位數(shù) τ 替代了 QR-DQN 中固定的分位數(shù),通過(guò)調(diào)整每次采樣中的分位數(shù)個(gè)數(shù),可以提高強(qiáng)化學(xué)習(xí)在訓(xùn)練過(guò)程中的樣本效率,更好地利用訓(xùn)練資源。 在 Atari 基準(zhǔn)上的測(cè)試結(jié)果表明,IQN 算法的性能比起上述的 C51 和 QR-DQN 有著明顯提升,和集成了各種經(jīng)驗(yàn)技巧的 Rainbow 相比,IQN 的性能也十分接近。 圖5:在 Atari Games 上的性能對(duì)比表1:在 Atari Games 上的性能對(duì)比(IQN) 論文鏈接:https:///abs/1806.06923 Fully Parameterized Quantile Function for Distributional Reinforcement Learning如果能夠使用無(wú)窮多個(gè)采樣點(diǎn)和無(wú)窮大的模型容量,IQN 方法就能夠近似任意的完整分位數(shù)函數(shù)(quantile function),但這顯然是不可能的。因此在實(shí)際中,必須考慮在有限個(gè)采樣的情況下值分布強(qiáng)化學(xué)習(xí)算法的表示能力。 從這個(gè)角度出發(fā),來(lái)自加利福尼亞大學(xué)圣迭戈分校的 Derek Yang 和微軟亞洲研究院的研究人員合作提出了 FQF 方法。FQF 對(duì)分布進(jìn)行了完全的參數(shù)化,而非如 QR-DQN 一般事先固定分位數(shù)或 IQN 中隨機(jī)采樣得到的分位數(shù)。在 FQF 中,分位數(shù)和其對(duì)應(yīng)的值都被進(jìn)行了參數(shù)化,根據(jù)不同的分布特點(diǎn),調(diào)整分位數(shù)的位置,并使用 Quantile Regression 得到分位數(shù)對(duì)應(yīng)的值。 在 FQF 中,算法包含兩個(gè)模型,一個(gè)是分位數(shù)提議網(wǎng)絡(luò)(fraction proposal network),用來(lái)針對(duì)每個(gè)狀態(tài)動(dòng)作對(duì)應(yīng)生成合適的分位數(shù)位置;二是分位數(shù)值網(wǎng)絡(luò)(quantile value network),將前一個(gè)網(wǎng)絡(luò)輸出的分位數(shù)τ映射到對(duì)應(yīng)的取值(quantile value)。 FQF 通過(guò)最小化真實(shí)分布與近似分布之間的 1-Wasserstein 距離來(lái)訓(xùn)練分位數(shù)提議網(wǎng)絡(luò)。利用分?jǐn)?shù)提議網(wǎng)絡(luò)生成的當(dāng)前提議的分位數(shù),可以通過(guò) Quantile Regression 來(lái)訓(xùn)練分位數(shù)值網(wǎng)絡(luò)。與 QR-DQN 和 IQN 相比,通過(guò)學(xué)習(xí)和自我調(diào)整的分位數(shù)位置可以更好地近似真實(shí)分布。 圖6:FQF 可以通過(guò)調(diào)整分位數(shù)的位置來(lái)最小化擬合誤差 論文鏈接:https:///abs/1911.02140Non-crossing quantile regression for deep reinforcement learningQR-DQN、IQN、FQF 等使用 Quantile Regression 的值分布強(qiáng)化學(xué)習(xí)方法已經(jīng)取得了很好的效果,然而實(shí)驗(yàn)表明,Quantile Regression 并不能保證得到的分位數(shù)值(quantile value)的單調(diào)性。但一個(gè)有效的、分布的分位數(shù)值應(yīng)該是非減的,這就導(dǎo)致直接通過(guò) Quantile Regression 并不能學(xué)習(xí)到一個(gè)有效的分布。這種交錯(cuò)(crossing)的現(xiàn)象在有限的采樣數(shù)的情況下十分明顯,而缺少單調(diào)性的約束,模型的可解釋性會(huì)大大降低。由于值分布強(qiáng)化學(xué)習(xí)是基于分布的統(tǒng)計(jì)意義進(jìn)行建模,所以這種方式最終會(huì)導(dǎo)致模型的整體性能下降。 針對(duì)這個(gè)問(wèn)題,“Non-crossing quantile regression for deep reinforcement learning”文章的作者提出了一種無(wú)交錯(cuò)的分位數(shù)回歸(non-crossing quantile regression)方法。該方法通過(guò)在對(duì)分位數(shù)值進(jìn)行估計(jì)時(shí)加入單調(diào)性的限制,以保證最終估計(jì)得到的分位數(shù)值不會(huì)出現(xiàn)上述提到的交錯(cuò)現(xiàn)象。作者通過(guò)實(shí)驗(yàn)證明了在加入分位數(shù)的單調(diào)性限制的情況下,該方法仍能保證分布在無(wú)限次迭代更新之后可以收斂到固定點(diǎn)。
圖7:Non-crossing quantile regression 的網(wǎng)絡(luò)結(jié)構(gòu) 論文鏈接:https://proceedings.//paper/2020/file/b6f8dc086b2d60c5856e4ff517060392-Paper.pdf in Distributional Reinforcement Learning“Statistics and Samples in Distributional Reinforcement Learning”是由 DeepMind 在2019年提出的。文章的作者提出了一種分析值分布強(qiáng)化學(xué)習(xí)的統(tǒng)一分析框架,并基于這種框架,提出了一種新的分析算法:Expectile Distributional RL(EDRL)。 作者分析認(rèn)為,此前的值分布強(qiáng)化學(xué)習(xí)算法,大致可以歸為兩種類型。其中一類是學(xué)習(xí)離散類別分布(categorical distribution reinforcement learning,CDRL)的算法,前文中提到的 C51 即為這類算法,另一類是學(xué)習(xí)概率分布的分位數(shù)的算法,QR-DQN 等即屬于這類。作者認(rèn)為,這些值分布強(qiáng)化學(xué)習(xí)的算法都可以視為:首先找到一系列統(tǒng)計(jì)量(statistics)以描述分布,然后在做更新時(shí)找到一種 Imputation Strategy 來(lái)根據(jù)維護(hù)的一系列統(tǒng)計(jì)量重構(gòu)分布,并在此基礎(chǔ)上計(jì)算 Loss。隨后,作者與 QR-DQN 進(jìn)行類比,提出了 EDRL 算法。若對(duì)期望分位數(shù)不熟悉的話,可以通過(guò)以下的例子迅速類比:均值之于0.5 期望分位數(shù),即為中位數(shù)之于0.5 分位數(shù)。 圖8:在 Chain MDP下,CDRL、na?veEDRL 和 EDRL 的對(duì)比 作者以 Chain MDP 為例,說(shuō)明了 EDRL 算法的優(yōu)勢(shì)。在 CDRL 算法中,由于投影操作的存在,最后回到 x_0 狀態(tài)時(shí),更傾向于高估方差(圖8中的藍(lán)色分布);而 na?ve 的 EDRL 則會(huì)低估方差,迅速塌縮到一個(gè)沖擊函數(shù)(橙色);這樣在綜合考慮 imputation strategy 時(shí),才能更加精確地估計(jì)分布(綠色)。隨后,作者使用上述框架定義了 Bellman closedness 的概念:在維護(hù)一個(gè)統(tǒng)計(jì)量的集合是否可以通過(guò)自身經(jīng)由 Bellman operator 之后的值來(lái)學(xué)習(xí)自身。通過(guò)這種分析,作者對(duì)值分布強(qiáng)化學(xué)習(xí)中何種統(tǒng)計(jì)量可以通過(guò) Bellman update 來(lái)學(xué)到進(jìn)行了理論上的分析。最終,在 Tabular case 和 Atari 上進(jìn)行的實(shí)驗(yàn)表明,EDRL 算法相比 CDRL、QDRL 等基線算法,有較為明顯的優(yōu)點(diǎn)。 論文鏈接:https:///abs/1902.08102 Distributional Reinforcement Learning with Maximum Mean Discrepancy在值分布強(qiáng)化學(xué)習(xí)的研究中,如何表述分布,如何衡量分布(隨機(jī)變量)之間的差異,成為了瓶頸。因?yàn)椋耆硎?return 的分布需要無(wú)限維的空間,所以,找到一種擁有更強(qiáng)表現(xiàn)能力的方法就至關(guān)重要。在之前的工作中,研究者們基本都使用概率分布函數(shù)或者分位數(shù)等方式,對(duì)其 return 的分布進(jìn)行建模。而在2020年7月的文章“Distributional Reinforcement Learning with Maximum Mean Discrepancy”中,作者提出了 MMD-DQN 算法,使用最大平均差異(Maximum Mean Discrepancy,MMD)對(duì)分布進(jìn)行建模。 如果對(duì) MMD 不太熟悉的話,那么可以考慮一種 MMD 的特例,比如當(dāng)考慮一階情況時(shí),MMD 可以理解為 X,Y 兩個(gè)隨機(jī)變量的一階矩的差值。事實(shí)上,MMD 的含義類似于衡量某種矩的差異。如下式所表示,MMD 依賴于某一類映射 f∈F,其定義為,兩個(gè)隨機(jī)變量 Z,W 經(jīng)過(guò)某一類映射 F 的變換后,隨機(jī)變量期望之差的上界。這里先后取上界、期望,也是 MMD 中 Maximum 和 Mean 得名的原因。最后,再經(jīng)過(guò)核函數(shù)映射等可以進(jìn)一步化簡(jiǎn),得到可以在實(shí)際算法中使用的解析解。 作者通過(guò)這種方式,巧妙地對(duì) return 的分布進(jìn)行表示,同時(shí)避免了 C51、QR-DQN 中只能選擇固定值、分位數(shù),而在近似真實(shí)分布上具有較大誤差的情形。隨后,作者證明了 MMD 的特性以及 Bellman operator 的收斂性,并提出了 MMD-DQN 算法。在計(jì)算 MMD 以及選取最佳動(dòng)作的過(guò)程中,還采取了對(duì) Z 進(jìn)行采樣的策略。 表2:在 Atari Games 上的性能對(duì)比(MMD-DQN) 最終,作者在 Atari 上進(jìn)行實(shí)驗(yàn),并將實(shí)驗(yàn)結(jié)果與 C51、QR-DQN、以及 IQN、FQF 等基線進(jìn)行對(duì)比,從表2中可以看到,性能在整體游戲上有了提升。 論文鏈接:https://www./publication/343228735_Distributional_Reinforcement_Learning_with_Maximum_Mean_Discrepancy 值分布強(qiáng)化學(xué)習(xí)的應(yīng)用值分布強(qiáng)化學(xué)習(xí)可以對(duì)強(qiáng)化學(xué)習(xí)中價(jià)值函數(shù)對(duì)應(yīng)的完整分布有一個(gè)參數(shù)化的建模方式,分布中的信息可以帶來(lái)更多的操作和利用空間,一個(gè)典型的應(yīng)用方向就是風(fēng)險(xiǎn)敏感(risk-sensitive)的應(yīng)用。 在強(qiáng)化學(xué)習(xí)中,探索(exploration)和利用(exploitation)的平衡是一個(gè)關(guān)鍵的問(wèn)題,有些場(chǎng)景中需要智能體具有足夠的探索能力才能夠?qū)W習(xí)到真正有用的策略,即智能體需要能夠理解不同狀態(tài)的價(jià)值的不確定性。使用值分布強(qiáng)化學(xué)習(xí)可以對(duì)狀態(tài)的價(jià)值函數(shù)進(jìn)行更精細(xì)的建模,有助于設(shè)計(jì)更好的探索策略,從而提高智能體在冒險(xiǎn)任務(wù)中的表現(xiàn)能力。 對(duì)這個(gè)方向感興趣的讀者還可以參考以下幾篇文章: a. Borislav Mavrin et al. Distributional Reinforcement Learning for Efficient Exploration. ICML 2019. 鏈接:https:///abs/1905.06125 b. Junyu Zhang et al. Cautious Reinforcement Learning via Distributional Risk in the Dual Domain. 2020. 鏈接:https:///abs/2002.12475 c. Xiaoteng Ma et al. DSAC: Distributional Soft Actor Critic for Risk-Sensitive Reinforcement Learning. ICML workshop 2019. 鏈接:https:///abs/2004.14547 值分布強(qiáng)化學(xué)習(xí)在近幾年得到了廣泛的關(guān)注,在非分布式的強(qiáng)化學(xué)習(xí)算法中超過(guò)了之前已有的算法,刷新了 Atari 等基準(zhǔn)測(cè)試場(chǎng)景下的最優(yōu)性能。而隨著對(duì)于強(qiáng)化學(xué)習(xí)的馬爾可夫過(guò)程的隨機(jī)變量有了更完整的建模,強(qiáng)化學(xué)習(xí)算法可以更有針對(duì)性地處理不同的問(wèn)題,例如在保證算法較高性能的同時(shí)控制算法風(fēng)險(xiǎn),這是原本的基于期望的價(jià)值函數(shù)難以做到的。 此外,值分布強(qiáng)化學(xué)習(xí)還有著很大的發(fā)展?jié)摿ΑJ紫?,?duì)于分布的建模仍然存在著很明顯的近似誤差,如何對(duì)分布進(jìn)行更好地建模仍然是該領(lǐng)域中十分重要的一個(gè)問(wèn)題。另外,值分布強(qiáng)化學(xué)習(xí)方法在側(cè)重于探索的任務(wù)中還存在著很大的性能缺失,如何利用完整分布的信息以提高算法的探索能力也是一個(gè)很關(guān)鍵的問(wèn)題。希望借由此文,可以有更多的研究人員關(guān)注和投入到這個(gè)領(lǐng)域中,一起推動(dòng)值分布強(qiáng)化學(xué)習(xí)這個(gè)領(lǐng)域的發(fā)展,為后續(xù)的技術(shù)和理論完善貢獻(xiàn)力量。 你也許還想看:
|