MSU最新《深度強(qiáng)化學(xué)習(xí)中的遷移學(xué)習(xí)》2020綜述論文，22頁(yè)pdf

520jefferson 2020-09-21

展開(kāi)全文

轉(zhuǎn)載自公眾號(hào)“專(zhuān)知(Quan_Zhuanzhi)”

論文原文：https:///pdf/2009.07888.pdf

編輯：DeepRL

摘要

本文綜述了遷移學(xué)習(xí)在強(qiáng)化學(xué)習(xí)問(wèn)題設(shè)置中的應(yīng)用。RL已經(jīng)成為序列決策問(wèn)題的關(guān)鍵的解決方案。隨著RL在各個(gè)領(lǐng)域的快速發(fā)展。包括機(jī)器人技術(shù)和游戲，遷移學(xué)習(xí)是通過(guò)利用和遷移外部專(zhuān)業(yè)知識(shí)來(lái)促進(jìn)學(xué)習(xí)過(guò)程來(lái)幫助RL的一項(xiàng)重要技術(shù)。在這篇綜述中，我們回顧了在RL領(lǐng)域中遷移學(xué)習(xí)的中心問(wèn)題，提供了一個(gè)最先進(jìn)技術(shù)的系統(tǒng)分類(lèi)。我們分析他們的目標(biāo)，方法，應(yīng)用，以及在RL框架下這些遷移學(xué)習(xí)技術(shù)將是可接近的。本文從RL的角度探討了遷移學(xué)習(xí)與其他相關(guān)話題的關(guān)系，并探討了RL遷移學(xué)習(xí)的潛在挑戰(zhàn)和未來(lái)發(fā)展方向。

關(guān)鍵詞：遷移學(xué)習(xí)，強(qiáng)化學(xué)習(xí)，綜述，機(jī)器學(xué)習(xí)

介紹

強(qiáng)化學(xué)習(xí)(RL)被認(rèn)為是解決連續(xù)決策任務(wù)的一種有效方法，在這種方法中，學(xué)習(xí)主體通過(guò)與環(huán)境相互作用，通過(guò)[1]來(lái)提高其性能。源于控制論并在計(jì)算機(jī)科學(xué)領(lǐng)域蓬勃發(fā)展的RL已被廣泛應(yīng)用于學(xué)術(shù)界和工業(yè)界，以解決以前難以解決的任務(wù)。此外，隨著深度學(xué)習(xí)的快速發(fā)展，應(yīng)用深度學(xué)習(xí)服務(wù)于學(xué)習(xí)任務(wù)的集成框架在近年來(lái)得到了廣泛的研究和發(fā)展。DL和RL的組合結(jié)構(gòu)稱(chēng)為深度強(qiáng)化學(xué)習(xí)[2](Deep Reinforcement Learning, DRL)。

DRL在機(jī)器人控制[3]、[4]、玩[5]游戲等領(lǐng)域取得了巨大的成功。在醫(yī)療保健系統(tǒng)[6]、電網(wǎng)[7]、智能交通系統(tǒng)[8]、[9]等領(lǐng)域也具有廣闊的應(yīng)用前景。

在這些快速發(fā)展的同時(shí)，DRL也面臨著挑戰(zhàn)。在許多強(qiáng)化學(xué)習(xí)應(yīng)用中，環(huán)境模型通常是未知的，只有收集到足夠的交互經(jīng)驗(yàn)，agent才能利用其對(duì)環(huán)境的知識(shí)來(lái)改進(jìn)其性能。由于環(huán)境反饋的部分可觀察性、稀疏性或延遲性以及高維觀察和/或行動(dòng)空間等問(wèn)題，學(xué)習(xí)主體在沒(méi)有利用任何先驗(yàn)知識(shí)的情況下尋找好的策略是非常耗時(shí)的。因此，遷移學(xué)習(xí)作為一種利用外部專(zhuān)業(yè)知識(shí)來(lái)加速學(xué)習(xí)過(guò)程的技術(shù)，在強(qiáng)化學(xué)習(xí)中成為一個(gè)重要的課題。

在監(jiān)督學(xué)習(xí)(SL)領(lǐng)域[10]中，TL得到了廣泛的研究。與SL場(chǎng)景相比，由于MDP環(huán)境中涉及的組件更多，RL中的TL(尤其是DRL中的TL)通常更復(fù)雜。MDP的組件(知識(shí)來(lái)自何處)可能與知識(shí)轉(zhuǎn)移到何處不同。此外，專(zhuān)家知識(shí)也可以采取不同的形式，以不同的方式轉(zhuǎn)移，特別是在深度神經(jīng)網(wǎng)絡(luò)的幫助下。隨著DRL的快速發(fā)展，以前總結(jié)用于RL的TL方法的努力沒(méi)有包括DRL的最新發(fā)展。注意到所有這些不同的角度和可能性，我們?nèi)婵偨Y(jié)了在深度強(qiáng)化學(xué)習(xí)(TL in DRL)領(lǐng)域遷移學(xué)習(xí)的最新進(jìn)展。我們將把它們分成不同的子主題，回顧每個(gè)主題的理論和應(yīng)用，并找出它們之間的聯(lián)系。

本綜述的其余部分組織如下:在第2節(jié)中，我們介紹了強(qiáng)化學(xué)習(xí)的背景，關(guān)鍵的DRL算法，并帶來(lái)了這篇綜述中使用的重要術(shù)語(yǔ)。我們還簡(jiǎn)要介紹了與TL不同但又緊密相關(guān)的相關(guān)研究領(lǐng)域(第2.3節(jié))。

在第3節(jié)中，我們采用多種視角來(lái)評(píng)價(jià)TL方法，提供了對(duì)這些方法進(jìn)行分類(lèi)的不同方法(第3.1節(jié))，討論了遷移源和目標(biāo)之間的潛在差異(第3.2節(jié))，并總結(jié)了評(píng)價(jià)TL有效性的常用指標(biāo)(第3.3節(jié))。

第4節(jié)詳細(xì)說(shuō)明了DRL領(lǐng)域中最新的TL方法。特別是，所討論的內(nèi)容主要是按照遷移知識(shí)的形式組織的，如成型的獎(jiǎng)勵(lì)(4.1節(jié))、先前的演示(4.2節(jié))、專(zhuān)家策略(4.3節(jié))，或者按照轉(zhuǎn)移發(fā)生的方式組織的，如任務(wù)間映射(4.4節(jié))、學(xué)習(xí)可轉(zhuǎn)移表示(4.5節(jié)和4.6節(jié))等。我們?cè)诘?節(jié)討論了TL在DRL中的應(yīng)用，并在第6節(jié)提供了一些值得研究的未來(lái)展望。

https://www./paper/c191868037791b353ce96764d282debe

強(qiáng)化學(xué)習(xí)算法

蒙特卡羅方法，蒙特卡羅方法是一種模型自由的方法，這意味著目標(biāo)策略是通過(guò)與環(huán)境相互作用的樣本進(jìn)行優(yōu)化，而不需要了解MDP轉(zhuǎn)換動(dòng)力學(xué)。蒙特卡羅方法利用事件的樣本，根據(jù)從該狀態(tài)開(kāi)始的事件估計(jì)每個(gè)狀態(tài)的值。如果行為策略收集的片段樣本與我們想要學(xué)習(xí)的目標(biāo)策略不同，那么蒙特卡羅方法可以是非策略的。當(dāng)通過(guò)目標(biāo)策略收集樣本時(shí)，它們也可以是on-policy。為了將行為策略的預(yù)期回報(bào)轉(zhuǎn)換為目標(biāo)策略[11]和[12]，重要性抽樣通常應(yīng)用于非策略方法。
時(shí)間差分學(xué)習(xí)，簡(jiǎn)稱(chēng)TD-learning，是蒙特卡羅方法解決預(yù)測(cè)問(wèn)題的一種替代方法。TD-learning背后的關(guān)鍵思想是通過(guò)bootstrapping來(lái)學(xué)習(xí)狀態(tài)質(zhì)量函數(shù)，這意味著它根據(jù)另一種估計(jì)來(lái)更新對(duì)該函數(shù)的估計(jì)。也可以將其推廣到通過(guò)GPI方案來(lái)解決控制問(wèn)題，從而使價(jià)值函數(shù)和策略都得到改進(jìn)。TD-learning是使用最廣泛的RL框架之一，因?yàn)樗暮?jiǎn)單性和普遍適用性。著名的基于策略的td學(xué)習(xí)算法包括SARSA[13]、Expected SARSA[14]、演員評(píng)論家[15]和它的變體A3C[16]。最流行的離策略td學(xué)習(xí)方法是Q-learning[17]及其由深度神經(jīng)網(wǎng)絡(luò)構(gòu)建的變體，如DQN [18]， Double-DQN[18]等。
策略梯度，與基于行動(dòng)價(jià)值的方法相比，策略梯度是一種不同的機(jī)制。它直接學(xué)習(xí)一個(gè)參數(shù)化策略，并更新其參數(shù)來(lái)尋找最優(yōu)策略。策略梯度法的一個(gè)經(jīng)典例子是增強(qiáng)[21]。近年來(lái)，隨著深度學(xué)習(xí)的快速發(fā)展，出現(xiàn)了各種不同的策略梯度方法，如信任區(qū)域策略?xún)?yōu)化(TRPO) [22]， Actor-Critic，以及近端策略?xún)?yōu)化(PPO)[23]。策略梯度方法的一個(gè)優(yōu)點(diǎn)是更適合具有連續(xù)狀態(tài)和動(dòng)作空間的任務(wù)。實(shí)例算法有確定性策略梯度(DPG)[24]及其擴(kuò)展，深確定性策略梯度(DDPG)[25]。

評(píng)估TL在DRL的方法

通過(guò)回答以下幾個(gè)關(guān)鍵問(wèn)題，我們對(duì)不同的遷移學(xué)習(xí)方法進(jìn)行了分類(lèi)：

遷移了哪些知識(shí)？:從高層次來(lái)看，知識(shí)可以是任務(wù)(策略)的解決方案，從低層次來(lái)看，專(zhuān)家知識(shí)也可以采取不同的形式。例如一組專(zhuān)家經(jīng)驗(yàn)、專(zhuān)家策略的操作概率分布，甚至估計(jì)源/目標(biāo)MDP中狀態(tài)和操作對(duì)質(zhì)量的潛在函數(shù)。這些知識(shí)形式和粒度上的差異影響了不同TL方法的內(nèi)部邏輯。轉(zhuǎn)移的知識(shí)的質(zhì)量，例如，它是來(lái)自4 oracle策略還是次優(yōu)的人工演示，也影響我們?cè)O(shè)計(jì)TL方法的方式。
在哪發(fā)生遷移？:對(duì)于任何RL任務(wù)，MDP(或環(huán)境)都可以定義為M = (S,A,T,γ,T)。源MDP的M_s是先驗(yàn)知識(shí)的來(lái)源，目標(biāo)MDP的M_t是知識(shí)轉(zhuǎn)移的目標(biāo)。有些TL方法適用于M_s和M_t相等的情況，而另一些則用于在不同的mpd之間遷移知識(shí)。M_s和M_t之間的差別因任務(wù)而異。例如，在一些觀察為RGB像素的游戲任務(wù)中，M_s和M_t可以共享相同的A，但在觀察空間上有所不同。對(duì)于基于潛力的獎(jiǎng)勵(lì)塑造等方法，這兩個(gè)MDP的差異僅在于獎(jiǎng)勵(lì)分配:Rs ！= Rt。這些相似度差距決定了遷移學(xué)習(xí)的難度，以及有多少比例的知識(shí)可以從M_s遷移到M_t。
如何在源MPD和目標(biāo)MPD之間遷移知識(shí)？:這個(gè)問(wèn)題可以進(jìn)一步闡述為:M_s與M_t的相似性假設(shè)是什么?從M_s到M_t的映射函數(shù)是預(yù)定義的還是自動(dòng)生成的?該算法的哪個(gè)部分，例如策略集群，價(jià)值函數(shù)V，甚至轉(zhuǎn)移動(dòng)力學(xué)T(針對(duì)基于模型的RL任務(wù))，被轉(zhuǎn)移的知識(shí)所改進(jìn)?這種映射是在線下學(xué)習(xí)還是在線學(xué)習(xí)[41]。
遷移學(xué)習(xí)方法的目標(biāo)是什么？:為了回答這個(gè)問(wèn)題，我們首先列出了可用于衡量TL任務(wù)效率的幾種方法，并回顧了不同的TL方法是如何旨在改進(jìn)某些指標(biāo)設(shè)置的。度量標(biāo)準(zhǔn)從初始/收斂/階段性性能到用于達(dá)到特定閾值的時(shí)間不等。甚至用來(lái)定義累積獎(jiǎng)勵(lì)的目標(biāo)函數(shù)也可能采取不同的形式。例如，將策略熵最大化作為要實(shí)現(xiàn)的子目標(biāo)包括在本工作的目標(biāo)函數(shù)中:[42]。
TL方法的適用性如何？:TL方法是策略不可知的，還是只適用于某些算法集，例如時(shí)間差異(TD)方法?這個(gè)問(wèn)題又與遷移知識(shí)的形式和兩個(gè)MDP之間的相似性有關(guān)。
目標(biāo)MDP的可訪問(wèn)性？:與源任務(wù)的交互通常更便宜也更容易獲得。但是，在一些情況下，Agent不能直接訪問(wèn)目標(biāo)MDP，或者由于目標(biāo)環(huán)境中的高采樣成本，Agent只能與它進(jìn)行非常有限的交互。這個(gè)場(chǎng)景的示例包括在模擬和真實(shí)環(huán)境中訓(xùn)練自動(dòng)駕駛Agent，或者使用模擬圖像輸入訓(xùn)練機(jī)器人拾取物品，而不是在真實(shí)環(huán)境中學(xué)習(xí)。根據(jù)遷移學(xué)習(xí)所需的樣本數(shù)量，我們還可以從以下角度對(duì)本次調(diào)查中提到的TL方法進(jìn)行分類(lèi):(1)零樣本遷移:學(xué)習(xí)因子直接適用于目標(biāo)MDP，不需要任何樣本;(2)小樣本遷移:從目標(biāo)MDP中只需要少量樣本;(3)高效樣本傳輸:大多數(shù)其他算法都屬于這一類(lèi)。與目標(biāo)MDP中從零開(kāi)始的訓(xùn)練相比，TL方法使目標(biāo)agent具有更好的初始性能，并且(或)在轉(zhuǎn)移知識(shí)的引導(dǎo)下收斂速度更快。

未來(lái)發(fā)展方向

模型可遷移性:TL的一個(gè)關(guān)鍵問(wèn)題是，解決一項(xiàng)任務(wù)的知識(shí)是否或在多大程度上能夠幫助解決另一項(xiàng)任務(wù)?回答這個(gè)問(wèn)題有助于實(shí)現(xiàn)自動(dòng)TL的許多階段，包括源任務(wù)的選擇、映射函數(shù)的設(shè)計(jì)、解糾纏表示、避免負(fù)遷移等。

我們提出了一個(gè)定義兩個(gè)任務(wù)可轉(zhuǎn)換性的理論框架，如圖3所示:對(duì)于兩個(gè)任務(wù)M_i和M_j，如果存在求解M_i的知識(shí)，則求解M_j的知識(shí)是可轉(zhuǎn)移的：

評(píng)估可轉(zhuǎn)移性:到目前為止，人們提出了不同的評(píng)估指標(biāo)，從不同但互補(bǔ)的角度來(lái)評(píng)估TL方法，盡管沒(méi)有單一的指標(biāo)可以總結(jié)TL方法的有效性。設(shè)計(jì)一套通用的、新穎的度量，有利于DRL領(lǐng)域中TL的發(fā)展。除了這種流行的基準(zhǔn)設(shè)置外，OpenAI gym3是專(zhuān)為評(píng)估RL方法而設(shè)計(jì)的一個(gè)統(tǒng)一的基準(zhǔn)評(píng)估TL性能也值得努力。

與框架無(wú)關(guān)的遷移:大多數(shù)當(dāng)代的TL方法只能適合某些RL框架。具體來(lái)說(shuō)，一些TL方法只適用于為離散動(dòng)作空間設(shè)計(jì)的RL算法(如DQfD)，而另一些則適用于連續(xù)動(dòng)作空間。此外，TL方法可能僅限于on-policy / off-policy設(shè)置。這些依賴(lài)于框架的TL方法的根本原因源于RL本身的無(wú)組織開(kāi)發(fā)。我們期望在不久的將來(lái)，一個(gè)統(tǒng)一的RL社區(qū)將反過(guò)來(lái)加速這個(gè)領(lǐng)域中TL開(kāi)發(fā)的標(biāo)準(zhǔn)化。

可解釋性:深度學(xué)習(xí)和端到端系統(tǒng)使網(wǎng)絡(luò)表示成為黑盒子，使解釋和調(diào)試模型表示或決策變得困難。因此，在監(jiān)督學(xué)習(xí)領(lǐng)域，人們開(kāi)始努力定義和評(píng)估可解釋方法[170][172]?？山忉屝缘膬?yōu)點(diǎn)是流形，包括生成解糾纏表示，建立可解釋模型，促進(jìn)人機(jī)交互等。與此同時(shí)，RL領(lǐng)域的可解釋TL方法，特別是具有可解釋的表示或策略決策的可解釋TL方法，也有利于許多應(yīng)用領(lǐng)域，包括機(jī)器人學(xué)習(xí)和金融。此外，可解釋性還有助于避免諸如自動(dòng)駕駛或醫(yī)療保健決策等任務(wù)的災(zāi)難性決策。

盡管已經(jīng)出現(xiàn)了針對(duì)RL任務(wù)的可解釋TL方法的研究[173]、[174]，但在RL領(lǐng)域中并沒(méi)有可解釋TL的定義，也沒(méi)有一個(gè)系統(tǒng)的過(guò)程來(lái)評(píng)估不同TL方法的可解釋性。我們相信，在不久的將來(lái)，RL可解釋TL的標(biāo)準(zhǔn)化將是一個(gè)值得更多關(guān)注和努力的話題。

論文arxiv鏈接

https:///pdf/2009.07888.pdf

完

本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間，所有內(nèi)容均由用戶(hù)發(fā)布，不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買(mǎi)等信息，謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請(qǐng)點(diǎn)擊一鍵舉報(bào)。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來(lái)自： 520jefferson > 《機(jī)器學(xué)習(xí)/深度學(xué)習(xí)/tensorflow》

舉報(bào)/認(rèn)領(lǐng)