帶你讀論文 | 值分布強(qiáng)化學(xué)習(xí)

taotao_2016 2021-01-08

展開(kāi)全文

編者按：值分布強(qiáng)化學(xué)習(xí)（Distributional Reinforcement Learning）是一類基于價(jià)值的強(qiáng)化學(xué)習(xí)算法，也是一類新興的強(qiáng)化學(xué)習(xí)方法。該方法達(dá)到了非分布式強(qiáng)化學(xué)習(xí)方法上新的基準(zhǔn)性能，也與神經(jīng)科學(xué)有著內(nèi)在聯(lián)系，因此具有很高的研究?jī)r(jià)值。本文將帶大家一起選讀多個(gè)近期值分布強(qiáng)化學(xué)習(xí)相關(guān)的研究工作，這些工作的發(fā)展脈絡(luò)清晰、研究動(dòng)機(jī)明確，為后續(xù)的進(jìn)一步研究提供了重要參考。

什么是值分布強(qiáng)化學(xué)習(xí)

值分布強(qiáng)化學(xué)習(xí)（Distributional Reinforcement Learning，Distributional RL）是一類基于價(jià)值的強(qiáng)化學(xué)習(xí)算法（value-based Reinforcement Learning，value-based RL）。經(jīng)典的基于價(jià)值的強(qiáng)化學(xué)習(xí)方法嘗試使用期望值對(duì)累積回報(bào)進(jìn)行建模，表示為價(jià)值函數(shù) V(x) 或動(dòng)作價(jià)值函數(shù) Q(x,a)。而在這個(gè)建模過(guò)程中，完整的分布信息很大程度上被丟失了，值分布強(qiáng)化學(xué)習(xí)就是想要解決這個(gè)問(wèn)題，對(duì)累積回報(bào)這個(gè)隨機(jī)變量的分布 Z(x,a) 進(jìn)行建模，而非只建模其期望。

目前的值分布強(qiáng)化學(xué)習(xí)通常使用 Dirac Mixture 對(duì)連續(xù)分布進(jìn)行參數(shù)化建模。近年來(lái)，許多研究人員嘗試從以下兩個(gè)角度開(kāi)展研究：一是對(duì)分布進(jìn)行更好的參數(shù)化，從而更好地?cái)M合實(shí)際的連續(xù)分布，如 C51、QR-DQN、IQN 和 FQF；二是對(duì)分布的不同統(tǒng)計(jì)特性進(jìn)行建模，嘗試找出更適合強(qiáng)化學(xué)習(xí)任務(wù)的建模方式，如 QR-DQN 學(xué)習(xí)分布的分位數(shù)值（quantile value）和 Expectile DRL 學(xué)習(xí)分布的期望分位數(shù)值（expectile value），而 MMD-DRL 則避免了對(duì) Dirac Mixture 模型統(tǒng)計(jì)意義的人為規(guī)定。

值分布強(qiáng)化學(xué)習(xí)方法是一類新興的強(qiáng)化學(xué)習(xí)方法，達(dá)到了非分布式強(qiáng)化學(xué)習(xí)方法上新的基準(zhǔn)性能，在 Atari 基準(zhǔn)上超過(guò)了原有的基于期望的 value-based RL 方法。另外，也有研究人員發(fā)現(xiàn)了值分布強(qiáng)化學(xué)習(xí)與神經(jīng)科學(xué)的內(nèi)在聯(lián)系。因此，值分布強(qiáng)化學(xué)習(xí)方法具有很高的研究?jī)r(jià)值。接下來(lái)，本文將帶大家一起選讀多個(gè)近期值分布強(qiáng)化學(xué)習(xí)相關(guān)的研究工作，這些工作的發(fā)展脈絡(luò)清晰、研究動(dòng)機(jī)明確，為后續(xù)的進(jìn)一步研究提供了重要的參考價(jià)值。

A Distributional Perspective

on Reinforcement Learning

“A Distributional Perspective on Reinforcement Learning”是由 DeepMind 的 Bellemare 等人完成的文章，是現(xiàn)代值分布強(qiáng)化學(xué)習(xí)中比較重要的一篇文章。文章從理論上證明了分布貝爾曼算子（distributional Bellman operator）的一些性質(zhì)，并提出了一種實(shí)現(xiàn)方法，成為了后續(xù)研究的一個(gè)重要基石。在這篇文章中，作者首先說(shuō)明傳統(tǒng) DQN 算法希望學(xué)習(xí)的 Q 是一個(gè)數(shù)值，其含義是未來(lái)獎(jiǎng)勵(lì)和的期望。而在值分布強(qiáng)化學(xué)習(xí)系列算法中，目標(biāo)則由數(shù)值變?yōu)橐粋€(gè)分布。在值分布強(qiáng)化學(xué)習(xí)中，目標(biāo)也由數(shù)值 Q 變?yōu)殡S機(jī)變量 Z，這種改變可以使學(xué)到的內(nèi)容是除了數(shù)值以外的更多信息，即整個(gè)分布。

圖1：C51 的貝爾曼更新（Bellman Update）

在這種設(shè)定下，作者引入了 distributional Bellman operator，隨后在 Wasserstein metric 下證明了 distributional Bellman operator 是一個(gè) γ-contraction 算子。但由于 Wasserstein metric 的梯度在實(shí)際采用時(shí)是有偏差的。因此，在實(shí)際算法上，作者采用了 KL 散度進(jìn)行計(jì)算。作者提出了 C51 算法，將可能的 Z 劃分為51個(gè)固定區(qū)間，然后學(xué)習(xí) Z 區(qū)到每個(gè)區(qū)間的概率，在迭代中使用 KL 散度計(jì)算損失函數(shù)（loss）。然而，在對(duì)目標(biāo)的 Z 值進(jìn)行一次 distributional Bellman operator 的計(jì)算之后，為了再次將其化為同樣51個(gè)固定區(qū)間的概率表示，C51 算法使用了一種投影方法（即圖1 d 中 Φ 所示），可以將概率重新投影到原來(lái)的固定區(qū)間中。隨后，再采用 KL 散度的交叉熵為 Loss，對(duì)其進(jìn)行優(yōu)化即可。

論文鏈接：https:///abs/1707.06887

Distributional Reinforcement

Learning with Quantile Regression

在 C51 提出約四個(gè)月后，2017年10月，C51 的作者 Bellemare 與同在 DeepMind 的 Dabney 等人提出了 QR-DQN 算法，并在 Atari 實(shí)驗(yàn)上刷新了 C51 的實(shí)驗(yàn)結(jié)果。

QR-DQN 與 C51 的最大不同點(diǎn)在于對(duì)分布的表述方式。C51 算法固定了 N 個(gè)概率的可能取值，然后使用可學(xué)習(xí)的、與 N 個(gè)值相對(duì)應(yīng)的 N 個(gè)概率值去描述分布。而 QR-DQN 則使用分位數(shù)來(lái)描述分布，也就是說(shuō)，固定 N 個(gè)分位數(shù)，然后學(xué)習(xí)這 N 個(gè)分位數(shù)對(duì)應(yīng)的數(shù)值取值。可以說(shuō)，QR-DQN 使用了與 C51 相對(duì)的一種方法去描述分布。

圖2：QR-DQN 的分位點(diǎn)投影（quantile projection）

分位數(shù)即累積分布函數(shù)（CDF）的逆，通過(guò)分位數(shù) τ，可以找到與之相對(duì)應(yīng)的一個(gè) z 值。如果當(dāng)在 CDF 函數(shù)上對(duì)分布進(jìn)行建模時(shí)，便可以和 Wasserstein metric 更好地結(jié)合起來(lái)。如圖2所示，黑色線為 Z 的 CDF 函數(shù)，藍(lán)色線為 QR-DQN 使用的分位數(shù)方法對(duì) CDF 的近似表達(dá)。紅色部分，是近似表達(dá)與真實(shí) CDF 函數(shù)之間的誤差。

學(xué)習(xí)對(duì)應(yīng)的分位數(shù)值時(shí)，QR-DQN 使用了分位點(diǎn)回歸（Quantile Regression）。對(duì)于每個(gè)設(shè)定的分位數(shù)值 τ，使用 Quantile Regression 以及 Huber Loss。通過(guò)這種方法，QR-DQN 不會(huì)再設(shè)置Z取值的上下界，因此相比 C51 而言有更大的靈活程度。

圖3：QR-DQN 在 Windy Gridworld 上的實(shí)驗(yàn)效果

在實(shí)驗(yàn)部分，QR-DQN 首先使用了一個(gè) Toy Case 實(shí)驗(yàn)，在 Windy Gridworld 上證明了使用本文提出的方法，的確可以學(xué)到狀態(tài)對(duì)應(yīng)的分布。隨后，QR-DQN 又在 Atari 上完成了實(shí)驗(yàn)，并且得到了比 C51 更加顯著的提升。

論文鏈接：https:///abs/1710.10044

Implicit Quantile Networks

for Distributional Reinforcement Learning

QR-DQN 在對(duì)分布進(jìn)行建模時(shí)，選擇了固定且等間隔的概率位置，這個(gè)固定位置的限制使得算法難以適應(yīng)不同的分布，無(wú)法進(jìn)一步降低 Wasserstein 距離。為了解決這個(gè)問(wèn)題，QR-DQN 的作者 Dabney 等人在 QR-DQN 的基礎(chǔ)上提出了 IQN 算法，并取得了比 QR-DQN 更好的性能表現(xiàn)。

圖4：DQN、C51、QR-DQN、IQN 的網(wǎng)絡(luò)結(jié)構(gòu)對(duì)比

IQN 與 QR-DQN 主要有兩點(diǎn)不同。首先，它在估計(jì)給定的分位數(shù) τ 對(duì)應(yīng)的取值時(shí)，將分位數(shù) τ 也作為神經(jīng)網(wǎng)絡(luò)模型的輸入，也就是說(shuō)，使用神經(jīng)網(wǎng)絡(luò)來(lái)擬合整個(gè)連續(xù)分布，從而提高對(duì)于不同分布的表達(dá)能力。通過(guò)調(diào)整神經(jīng)網(wǎng)絡(luò)的容量，理論上能夠以任意精度擬合價(jià)值函數(shù)對(duì)應(yīng)的分布。其次，IQN 中使用從均勻分布中采樣的分位數(shù) τ 替代了 QR-DQN 中固定的分位數(shù)，通過(guò)調(diào)整每次采樣中的分位數(shù)個(gè)數(shù)，可以提高強(qiáng)化學(xué)習(xí)在訓(xùn)練過(guò)程中的樣本效率，更好地利用訓(xùn)練資源。

在 Atari 基準(zhǔn)上的測(cè)試結(jié)果表明，IQN 算法的性能比起上述的 C51 和 QR-DQN 有著明顯提升，和集成了各種經(jīng)驗(yàn)技巧的 Rainbow 相比，IQN 的性能也十分接近。

圖5：在 Atari Games 上的性能對(duì)比

表1：在 Atari Games 上的性能對(duì)比（IQN）

論文鏈接：https:///abs/1806.06923

Fully Parameterized Quantile Function for Distributional Reinforcement Learning

如果能夠使用無(wú)窮多個(gè)采樣點(diǎn)和無(wú)窮大的模型容量，IQN 方法就能夠近似任意的完整分位數(shù)函數(shù)（quantile function），但這顯然是不可能的。因此在實(shí)際中，必須考慮在有限個(gè)采樣的情況下值分布強(qiáng)化學(xué)習(xí)算法的表示能力。

從這個(gè)角度出發(fā)，來(lái)自加利福尼亞大學(xué)圣迭戈分校的 Derek Yang 和微軟亞洲研究院的研究人員合作提出了 FQF 方法。FQF 對(duì)分布進(jìn)行了完全的參數(shù)化，而非如 QR-DQN 一般事先固定分位數(shù)或 IQN 中隨機(jī)采樣得到的分位數(shù)。在 FQF 中，分位數(shù)和其對(duì)應(yīng)的值都被進(jìn)行了參數(shù)化，根據(jù)不同的分布特點(diǎn)，調(diào)整分位數(shù)的位置，并使用 Quantile Regression 得到分位數(shù)對(duì)應(yīng)的值。

在 FQF 中，算法包含兩個(gè)模型，一個(gè)是分位數(shù)提議網(wǎng)絡(luò)（fraction proposal network），用來(lái)針對(duì)每個(gè)狀態(tài)動(dòng)作對(duì)應(yīng)生成合適的分位數(shù)位置；二是分位數(shù)值網(wǎng)絡(luò)（quantile value network），將前一個(gè)網(wǎng)絡(luò)輸出的分位數(shù)τ映射到對(duì)應(yīng)的取值（quantile value）。

FQF 通過(guò)最小化真實(shí)分布與近似分布之間的 1-Wasserstein 距離來(lái)訓(xùn)練分位數(shù)提議網(wǎng)絡(luò)。利用分?jǐn)?shù)提議網(wǎng)絡(luò)生成的當(dāng)前提議的分位數(shù)，可以通過(guò) Quantile Regression 來(lái)訓(xùn)練分位數(shù)值網(wǎng)絡(luò)。與 QR-DQN 和 IQN 相比，通過(guò)學(xué)習(xí)和自我調(diào)整的分位數(shù)位置可以更好地近似真實(shí)分布。

圖6：FQF 可以通過(guò)調(diào)整分位數(shù)的位置來(lái)最小化擬合誤差

論文鏈接：https:///abs/1911.02140

Non-crossing quantile regression

for deep reinforcement learning

QR-DQN、IQN、FQF 等使用 Quantile Regression 的值分布強(qiáng)化學(xué)習(xí)方法已經(jīng)取得了很好的效果，然而實(shí)驗(yàn)表明，Quantile Regression 并不能保證得到的分位數(shù)值（quantile value）的單調(diào)性。但一個(gè)有效的、分布的分位數(shù)值應(yīng)該是非減的，這就導(dǎo)致直接通過(guò) Quantile Regression 并不能學(xué)習(xí)到一個(gè)有效的分布。這種交錯(cuò)（crossing）的現(xiàn)象在有限的采樣數(shù)的情況下十分明顯，而缺少單調(diào)性的約束，模型的可解釋性會(huì)大大降低。由于值分布強(qiáng)化學(xué)習(xí)是基于分布的統(tǒng)計(jì)意義進(jìn)行建模，所以這種方式最終會(huì)導(dǎo)致模型的整體性能下降。

針對(duì)這個(gè)問(wèn)題，“Non-crossing quantile regression for deep reinforcement learning”文章的作者提出了一種無(wú)交錯(cuò)的分位數(shù)回歸（non-crossing quantile regression）方法。該方法通過(guò)在對(duì)分位數(shù)值進(jìn)行估計(jì)時(shí)加入單調(diào)性的限制，以保證最終估計(jì)得到的分位數(shù)值不會(huì)出現(xiàn)上述提到的交錯(cuò)現(xiàn)象。作者通過(guò)實(shí)驗(yàn)證明了在加入分位數(shù)的單調(diào)性限制的情況下，該方法仍能保證分布在無(wú)限次迭代更新之后可以收斂到固定點(diǎn)。

圖7：Non-crossing quantile regression 的網(wǎng)絡(luò)結(jié)構(gòu)

論文鏈接：https://proceedings.//paper/2020/file/b6f8dc086b2d60c5856e4ff517060392-Paper.pdf

Statistics and Samples

in Distributional Reinforcement Learning

“Statistics and Samples in Distributional Reinforcement Learning”是由 DeepMind 在2019年提出的。文章的作者提出了一種分析值分布強(qiáng)化學(xué)習(xí)的統(tǒng)一分析框架，并基于這種框架，提出了一種新的分析算法：Expectile Distributional RL（EDRL）。

作者分析認(rèn)為，此前的值分布強(qiáng)化學(xué)習(xí)算法，大致可以歸為兩種類型。其中一類是學(xué)習(xí)離散類別分布（categorical distribution reinforcement learning，CDRL）的算法，前文中提到的 C51 即為這類算法，另一類是學(xué)習(xí)概率分布的分位數(shù)的算法，QR-DQN 等即屬于這類。作者認(rèn)為，這些值分布強(qiáng)化學(xué)習(xí)的算法都可以視為：首先找到一系列統(tǒng)計(jì)量（statistics）以描述分布，然后在做更新時(shí)找到一種 Imputation Strategy 來(lái)根據(jù)維護(hù)的一系列統(tǒng)計(jì)量重構(gòu)分布，并在此基礎(chǔ)上計(jì)算 Loss。隨后，作者與 QR-DQN 進(jìn)行類比，提出了 EDRL 算法。若對(duì)期望分位數(shù)不熟悉的話，可以通過(guò)以下的例子迅速類比：均值之于0.5 期望分位數(shù)，即為中位數(shù)之于0.5 分位數(shù)。

圖8：在 Chain MDP下，CDRL、na?veEDRL 和 EDRL 的對(duì)比

作者以 Chain MDP 為例，說(shuō)明了 EDRL 算法的優(yōu)勢(shì)。在 CDRL 算法中，由于投影操作的存在，最后回到 x_0 狀態(tài)時(shí)，更傾向于高估方差（圖8中的藍(lán)色分布）；而 na?ve 的 EDRL 則會(huì)低估方差，迅速塌縮到一個(gè)沖擊函數(shù)（橙色）；這樣在綜合考慮 imputation strategy 時(shí)，才能更加精確地估計(jì)分布（綠色）。隨后，作者使用上述框架定義了 Bellman closedness 的概念：在維護(hù)一個(gè)統(tǒng)計(jì)量的集合是否可以通過(guò)自身經(jīng)由 Bellman operator 之后的值來(lái)學(xué)習(xí)自身。通過(guò)這種分析，作者對(duì)值分布強(qiáng)化學(xué)習(xí)中何種統(tǒng)計(jì)量可以通過(guò) Bellman update 來(lái)學(xué)到進(jìn)行了理論上的分析。最終，在 Tabular case 和 Atari 上進(jìn)行的實(shí)驗(yàn)表明，EDRL 算法相比 CDRL、QDRL 等基線算法，有較為明顯的優(yōu)點(diǎn)。

論文鏈接：https:///abs/1902.08102

Distributional Reinforcement Learning

with Maximum Mean Discrepancy

在值分布強(qiáng)化學(xué)習(xí)的研究中，如何表述分布，如何衡量分布（隨機(jī)變量）之間的差異，成為了瓶頸。因?yàn)椋耆硎?return 的分布需要無(wú)限維的空間，所以，找到一種擁有更強(qiáng)表現(xiàn)能力的方法就至關(guān)重要。在之前的工作中，研究者們基本都使用概率分布函數(shù)或者分位數(shù)等方式，對(duì)其 return 的分布進(jìn)行建模。而在2020年7月的文章“Distributional Reinforcement Learning with Maximum Mean Discrepancy”中，作者提出了 MMD-DQN 算法，使用最大平均差異（Maximum Mean Discrepancy，MMD）對(duì)分布進(jìn)行建模。

如果對(duì) MMD 不太熟悉的話，那么可以考慮一種 MMD 的特例，比如當(dāng)考慮一階情況時(shí)，MMD 可以理解為 X,Y 兩個(gè)隨機(jī)變量的一階矩的差值。事實(shí)上，MMD 的含義類似于衡量某種矩的差異。如下式所表示，MMD 依賴于某一類映射 f∈F，其定義為，兩個(gè)隨機(jī)變量 Z,W 經(jīng)過(guò)某一類映射 F 的變換后，隨機(jī)變量期望之差的上界。這里先后取上界、期望，也是 MMD 中 Maximum 和 Mean 得名的原因。最后，再經(jīng)過(guò)核函數(shù)映射等可以進(jìn)一步化簡(jiǎn)，得到可以在實(shí)際算法中使用的解析解。

作者通過(guò)這種方式，巧妙地對(duì) return 的分布進(jìn)行表示，同時(shí)避免了 C51、QR-DQN 中只能選擇固定值、分位數(shù)，而在近似真實(shí)分布上具有較大誤差的情形。隨后，作者證明了 MMD 的特性以及 Bellman operator 的收斂性，并提出了 MMD-DQN 算法。在計(jì)算 MMD 以及選取最佳動(dòng)作的過(guò)程中，還采取了對(duì) Z 進(jìn)行采樣的策略。

表2：在 Atari Games 上的性能對(duì)比（MMD-DQN）

最終，作者在 Atari 上進(jìn)行實(shí)驗(yàn)，并將實(shí)驗(yàn)結(jié)果與 C51、QR-DQN、以及 IQN、FQF 等基線進(jìn)行對(duì)比，從表2中可以看到，性能在整體游戲上有了提升。

論文鏈接：https://www./publication/343228735_Distributional_Reinforcement_Learning_with_Maximum_Mean_Discrepancy

值分布強(qiáng)化學(xué)習(xí)的應(yīng)用

值分布強(qiáng)化學(xué)習(xí)可以對(duì)強(qiáng)化學(xué)習(xí)中價(jià)值函數(shù)對(duì)應(yīng)的完整分布有一個(gè)參數(shù)化的建模方式，分布中的信息可以帶來(lái)更多的操作和利用空間，一個(gè)典型的應(yīng)用方向就是風(fēng)險(xiǎn)敏感（risk-sensitive）的應(yīng)用。

在強(qiáng)化學(xué)習(xí)中，探索（exploration）和利用（exploitation）的平衡是一個(gè)關(guān)鍵的問(wèn)題，有些場(chǎng)景中需要智能體具有足夠的探索能力才能夠?qū)W習(xí)到真正有用的策略，即智能體需要能夠理解不同狀態(tài)的價(jià)值的不確定性。使用值分布強(qiáng)化學(xué)習(xí)可以對(duì)狀態(tài)的價(jià)值函數(shù)進(jìn)行更精細(xì)的建模，有助于設(shè)計(jì)更好的探索策略，從而提高智能體在冒險(xiǎn)任務(wù)中的表現(xiàn)能力。

對(duì)這個(gè)方向感興趣的讀者還可以參考以下幾篇文章：

a. Borislav Mavrin et al. Distributional Reinforcement Learning for Efficient Exploration. ICML 2019.

鏈接：https:///abs/1905.06125

b. Junyu Zhang et al. Cautious Reinforcement Learning via Distributional Risk in the Dual Domain. 2020.

鏈接：https:///abs/2002.12475

c. Xiaoteng Ma et al. DSAC: Distributional Soft Actor Critic for Risk-Sensitive Reinforcement Learning. ICML workshop 2019.

鏈接：https:///abs/2004.14547

總結(jié)

值分布強(qiáng)化學(xué)習(xí)在近幾年得到了廣泛的關(guān)注，在非分布式的強(qiáng)化學(xué)習(xí)算法中超過(guò)了之前已有的算法，刷新了 Atari 等基準(zhǔn)測(cè)試場(chǎng)景下的最優(yōu)性能。而隨著對(duì)于強(qiáng)化學(xué)習(xí)的馬爾可夫過(guò)程的隨機(jī)變量有了更完整的建模，強(qiáng)化學(xué)習(xí)算法可以更有針對(duì)性地處理不同的問(wèn)題，例如在保證算法較高性能的同時(shí)控制算法風(fēng)險(xiǎn)，這是原本的基于期望的價(jià)值函數(shù)難以做到的。

此外，值分布強(qiáng)化學(xué)習(xí)還有著很大的發(fā)展?jié)摿ΑＪ紫?，?duì)于分布的建模仍然存在著很明顯的近似誤差，如何對(duì)分布進(jìn)行更好地建模仍然是該領(lǐng)域中十分重要的一個(gè)問(wèn)題。另外，值分布強(qiáng)化學(xué)習(xí)方法在側(cè)重于探索的任務(wù)中還存在著很大的性能缺失，如何利用完整分布的信息以提高算法的探索能力也是一個(gè)很關(guān)鍵的問(wèn)題。希望借由此文，可以有更多的研究人員關(guān)注和投入到這個(gè)領(lǐng)域中，一起推動(dòng)值分布強(qiáng)化學(xué)習(xí)這個(gè)領(lǐng)域的發(fā)展，為后續(xù)的技術(shù)和理論完善貢獻(xiàn)力量。

你也許還想看：

本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間，所有內(nèi)容均由用戶發(fā)布，不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買等信息，謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請(qǐng)點(diǎn)擊一鍵舉報(bào)。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來(lái)自： taotao_2016 > 《AI》

舉報(bào)/認(rèn)領(lǐng)