轉(zhuǎn)載自公眾號(hào)“專(zhuān)知(Quan_Zhuanzhi)” 論文原文:https:///pdf/2009.07888.pdf本文綜述了遷移學(xué)習(xí)在強(qiáng)化學(xué)習(xí)問(wèn)題設(shè)置中的應(yīng)用。RL已經(jīng)成為序列決策問(wèn)題的關(guān)鍵的解決方案。隨著RL在各個(gè)領(lǐng)域的快速發(fā)展。包括機(jī)器人技術(shù)和游戲,遷移學(xué)習(xí)是通過(guò)利用和遷移外部專(zhuān)業(yè)知識(shí)來(lái)促進(jìn)學(xué)習(xí)過(guò)程來(lái)幫助RL的一項(xiàng)重要技術(shù)。在這篇綜述中,我們回顧了在RL領(lǐng)域中遷移學(xué)習(xí)的中心問(wèn)題,提供了一個(gè)最先進(jìn)技術(shù)的系統(tǒng)分類(lèi)。我們分析他們的目標(biāo),方法,應(yīng)用,以及在RL框架下這些遷移學(xué)習(xí)技術(shù)將是可接近的。本文從RL的角度探討了遷移學(xué)習(xí)與其他相關(guān)話題的關(guān)系,并探討了RL遷移學(xué)習(xí)的潛在挑戰(zhàn)和未來(lái)發(fā)展方向。 關(guān)鍵詞:遷移學(xué)習(xí),強(qiáng)化學(xué)習(xí),綜述,機(jī)器學(xué)習(xí)強(qiáng)化學(xué)習(xí)(RL)被認(rèn)為是解決連續(xù)決策任務(wù)的一種有效方法,在這種方法中,學(xué)習(xí)主體通過(guò)與環(huán)境相互作用,通過(guò)[1]來(lái)提高其性能。源于控制論并在計(jì)算機(jī)科學(xué)領(lǐng)域蓬勃發(fā)展的RL已被廣泛應(yīng)用于學(xué)術(shù)界和工業(yè)界,以解決以前難以解決的任務(wù)。此外,隨著深度學(xué)習(xí)的快速發(fā)展,應(yīng)用深度學(xué)習(xí)服務(wù)于學(xué)習(xí)任務(wù)的集成框架在近年來(lái)得到了廣泛的研究和發(fā)展。DL和RL的組合結(jié)構(gòu)稱(chēng)為深度強(qiáng)化學(xué)習(xí)[2](Deep Reinforcement Learning, DRL)。
DRL在機(jī)器人控制[3]、[4]、玩[5]游戲等領(lǐng)域取得了巨大的成功。在醫(yī)療保健系統(tǒng)[6]、電網(wǎng)[7]、智能交通系統(tǒng)[8]、[9]等領(lǐng)域也具有廣闊的應(yīng)用前景。 在這些快速發(fā)展的同時(shí),DRL也面臨著挑戰(zhàn)。在許多強(qiáng)化學(xué)習(xí)應(yīng)用中,環(huán)境模型通常是未知的,只有收集到足夠的交互經(jīng)驗(yàn),agent才能利用其對(duì)環(huán)境的知識(shí)來(lái)改進(jìn)其性能。由于環(huán)境反饋的部分可觀察性、稀疏性或延遲性以及高維觀察和/或行動(dòng)空間等問(wèn)題,學(xué)習(xí)主體在沒(méi)有利用任何先驗(yàn)知識(shí)的情況下尋找好的策略是非常耗時(shí)的。因此,遷移學(xué)習(xí)作為一種利用外部專(zhuān)業(yè)知識(shí)來(lái)加速學(xué)習(xí)過(guò)程的技術(shù),在強(qiáng)化學(xué)習(xí)中成為一個(gè)重要的課題。 在監(jiān)督學(xué)習(xí)(SL)領(lǐng)域[10]中,TL得到了廣泛的研究。與SL場(chǎng)景相比,由于MDP環(huán)境中涉及的組件更多,RL中的TL(尤其是DRL中的TL)通常更復(fù)雜。MDP的組件(知識(shí)來(lái)自何處)可能與知識(shí)轉(zhuǎn)移到何處不同。此外,專(zhuān)家知識(shí)也可以采取不同的形式,以不同的方式轉(zhuǎn)移,特別是在深度神經(jīng)網(wǎng)絡(luò)的幫助下。隨著DRL的快速發(fā)展,以前總結(jié)用于RL的TL方法的努力沒(méi)有包括DRL的最新發(fā)展。注意到所有這些不同的角度和可能性,我們?nèi)婵偨Y(jié)了在深度強(qiáng)化學(xué)習(xí)(TL in DRL)領(lǐng)域遷移學(xué)習(xí)的最新進(jìn)展。我們將把它們分成不同的子主題,回顧每個(gè)主題的理論和應(yīng)用,并找出它們之間的聯(lián)系。 本綜述的其余部分組織如下:在第2節(jié)中,我們介紹了強(qiáng)化學(xué)習(xí)的背景,關(guān)鍵的DRL算法,并帶來(lái)了這篇綜述中使用的重要術(shù)語(yǔ)。我們還簡(jiǎn)要介紹了與TL不同但又緊密相關(guān)的相關(guān)研究領(lǐng)域(第2.3節(jié))。 在第3節(jié)中,我們采用多種視角來(lái)評(píng)價(jià)TL方法,提供了對(duì)這些方法進(jìn)行分類(lèi)的不同方法(第3.1節(jié)),討論了遷移源和目標(biāo)之間的潛在差異(第3.2節(jié)),并總結(jié)了評(píng)價(jià)TL有效性的常用指標(biāo)(第3.3節(jié))。 第4節(jié)詳細(xì)說(shuō)明了DRL領(lǐng)域中最新的TL方法。特別是,所討論的內(nèi)容主要是按照遷移知識(shí)的形式組織的,如成型的獎(jiǎng)勵(lì)(4.1節(jié))、先前的演示(4.2節(jié))、專(zhuān)家策略(4.3節(jié)),或者按照轉(zhuǎn)移發(fā)生的方式組織的,如任務(wù)間映射(4.4節(jié))、學(xué)習(xí)可轉(zhuǎn)移表示(4.5節(jié)和4.6節(jié))等。我們?cè)诘?節(jié)討論了TL在DRL中的應(yīng)用,并在第6節(jié)提供了一些值得研究的未來(lái)展望。 https://www./paper/c191868037791b353ce96764d282debe 蒙特卡羅方法,蒙特卡羅方法是一種模型自由的方法,這意味著目標(biāo)策略是通過(guò)與環(huán)境相互作用的樣本進(jìn)行優(yōu)化,而不需要了解MDP轉(zhuǎn)換動(dòng)力學(xué)。蒙特卡羅方法利用事件的樣本,根據(jù)從該狀態(tài)開(kāi)始的事件估計(jì)每個(gè)狀態(tài)的值。如果行為策略收集的片段樣本與我們想要學(xué)習(xí)的目標(biāo)策略不同,那么蒙特卡羅方法可以是非策略的。當(dāng)通過(guò)目標(biāo)策略收集樣本時(shí),它們也可以是on-policy。為了將行為策略的預(yù)期回報(bào)轉(zhuǎn)換為目標(biāo)策略[11]和[12],重要性抽樣通常應(yīng)用于非策略方法。 時(shí)間差分學(xué)習(xí),簡(jiǎn)稱(chēng)TD-learning,是蒙特卡羅方法解決預(yù)測(cè)問(wèn)題的一種替代方法。TD-learning背后的關(guān)鍵思想是通過(guò)bootstrapping來(lái)學(xué)習(xí)狀態(tài)質(zhì)量函數(shù),這意味著它根據(jù)另一種估計(jì)來(lái)更新對(duì)該函數(shù)的估計(jì)。也可以將其推廣到通過(guò)GPI方案來(lái)解決控制問(wèn)題,從而使價(jià)值函數(shù)和策略都得到改進(jìn)。TD-learning是使用最廣泛的RL框架之一,因?yàn)樗暮?jiǎn)單性和普遍適用性。著名的基于策略的td學(xué)習(xí)算法包括SARSA[13]、Expected SARSA[14]、演員評(píng)論家[15]和它的變體A3C[16]。最流行的離策略td學(xué)習(xí)方法是Q-learning[17]及其由深度神經(jīng)網(wǎng)絡(luò)構(gòu)建的變體,如DQN [18], Double-DQN[18]等。 策略梯度,與基于行動(dòng)價(jià)值的方法相比,策略梯度是一種不同的機(jī)制。它直接學(xué)習(xí)一個(gè)參數(shù)化策略,并更新其參數(shù)來(lái)尋找最優(yōu)策略。策略梯度法的一個(gè)經(jīng)典例子是增強(qiáng)[21]。近年來(lái),隨著深度學(xué)習(xí)的快速發(fā)展,出現(xiàn)了各種不同的策略梯度方法,如信任區(qū)域策略?xún)?yōu)化(TRPO) [22], Actor-Critic,以及近端策略?xún)?yōu)化(PPO)[23]。策略梯度方法的一個(gè)優(yōu)點(diǎn)是更適合具有連續(xù)狀態(tài)和動(dòng)作空間的任務(wù)。實(shí)例算法有確定性策略梯度(DPG)[24]及其擴(kuò)展,深確定性策略梯度(DDPG)[25]。
通過(guò)回答以下幾個(gè)關(guān)鍵問(wèn)題,我們對(duì)不同的遷移學(xué)習(xí)方法進(jìn)行了分類(lèi):
遷移了哪些知識(shí)?:從高層次來(lái)看,知識(shí)可以是任務(wù)(策略)的解決方案,從低層次來(lái)看,專(zhuān)家知識(shí)也可以采取不同的形式。例如一組專(zhuān)家經(jīng)驗(yàn)、專(zhuān)家策略的操作概率分布,甚至估計(jì)源/目標(biāo)MDP中狀態(tài)和操作對(duì)質(zhì)量的潛在函數(shù)。這些知識(shí)形式和粒度上的差異影響了不同TL方法的內(nèi)部邏輯。轉(zhuǎn)移的知識(shí)的質(zhì)量,例如,它是來(lái)自4 oracle策略還是次優(yōu)的人工演示,也影響我們?cè)O(shè)計(jì)TL方法的方式。 在哪發(fā)生遷移?:對(duì)于任何RL任務(wù),MDP(或環(huán)境)都可以定義為M = (S,A,T,γ,T)。源MDP的M_s是先驗(yàn)知識(shí)的來(lái)源,目標(biāo)MDP的M_t是知識(shí)轉(zhuǎn)移的目標(biāo)。有些TL方法適用于M_s和M_t相等的情況,而另一些則用于在不同的mpd之間遷移知識(shí)。M_s和M_t之間的差別因任務(wù)而異。例如,在一些觀察為RGB像素的游戲任務(wù)中,M_s和M_t可以共享相同的A,但在觀察空間上有所不同。對(duì)于基于潛力的獎(jiǎng)勵(lì)塑造等方法,這兩個(gè)MDP的差異僅在于獎(jiǎng)勵(lì)分配:Rs != Rt。這些相似度差距決定了遷移學(xué)習(xí)的難度,以及有多少比例的知識(shí)可以從M_s遷移到M_t。 如何在源MPD和目標(biāo)MPD之間遷移知識(shí)?:這個(gè)問(wèn)題可以進(jìn)一步闡述為:M_s與M_t的相似性假設(shè)是什么?從M_s到M_t的映射函數(shù)是預(yù)定義的還是自動(dòng)生成的?該算法的哪個(gè)部分,例如策略集群,價(jià)值函數(shù)V,甚至轉(zhuǎn)移動(dòng)力學(xué)T(針對(duì)基于模型的RL任務(wù)),被轉(zhuǎn)移的知識(shí)所改進(jìn)?這種映射是在線下學(xué)習(xí)還是在線學(xué)習(xí)[41]。 遷移學(xué)習(xí)方法的目標(biāo)是什么?:為了回答這個(gè)問(wèn)題,我們首先列出了可用于衡量TL任務(wù)效率的幾種方法,并回顧了不同的TL方法是如何旨在改進(jìn)某些指標(biāo)設(shè)置的。度量標(biāo)準(zhǔn)從初始/收斂/階段性性能到用于達(dá)到特定閾值的時(shí)間不等。甚至用來(lái)定義累積獎(jiǎng)勵(lì)的目標(biāo)函數(shù)也可能采取不同的形式。例如,將策略熵最大化作為要實(shí)現(xiàn)的子目標(biāo)包括在本工作的目標(biāo)函數(shù)中:[42]。 TL方法的適用性如何?:TL方法是策略不可知的,還是只適用于某些算法集,例如時(shí)間差異(TD)方法?這個(gè)問(wèn)題又與遷移知識(shí)的形式和兩個(gè)MDP之間的相似性有關(guān)。 目標(biāo)MDP的可訪問(wèn)性?:與源任務(wù)的交互通常更便宜也更容易獲得。但是,在一些情況下,Agent不能直接訪問(wèn)目標(biāo)MDP,或者由于目標(biāo)環(huán)境中的高采樣成本,Agent只能與它進(jìn)行非常有限的交互。這個(gè)場(chǎng)景的示例包括在模擬和真實(shí)環(huán)境中訓(xùn)練自動(dòng)駕駛Agent,或者使用模擬圖像輸入訓(xùn)練機(jī)器人拾取物品,而不是在真實(shí)環(huán)境中學(xué)習(xí)。根據(jù)遷移學(xué)習(xí)所需的樣本數(shù)量,我們還可以從以下角度對(duì)本次調(diào)查中提到的TL方法進(jìn)行分類(lèi):(1)零樣本遷移:學(xué)習(xí)因子直接適用于目標(biāo)MDP,不需要任何樣本;(2)小樣本遷移:從目標(biāo)MDP中只需要少量樣本;(3)高效樣本傳輸:大多數(shù)其他算法都屬于這一類(lèi)。與目標(biāo)MDP中從零開(kāi)始的訓(xùn)練相比,TL方法使目標(biāo)agent具有更好的初始性能,并且(或)在轉(zhuǎn)移知識(shí)的引導(dǎo)下收斂速度更快。
模型可遷移性:TL的一個(gè)關(guān)鍵問(wèn)題是,解決一項(xiàng)任務(wù)的知識(shí)是否或在多大程度上能夠幫助解決另一項(xiàng)任務(wù)?回答這個(gè)問(wèn)題有助于實(shí)現(xiàn)自動(dòng)TL的許多階段,包括源任務(wù)的選擇、映射函數(shù)的設(shè)計(jì)、解糾纏表示、避免負(fù)遷移等。 我們提出了一個(gè)定義兩個(gè)任務(wù)可轉(zhuǎn)換性的理論框架,如圖3所示:對(duì)于兩個(gè)任務(wù)M_i和M_j,如果存在求解M_i的知識(shí),則求解M_j的知識(shí)是可轉(zhuǎn)移的: 評(píng)估可轉(zhuǎn)移性:到目前為止,人們提出了不同的評(píng)估指標(biāo),從不同但互補(bǔ)的角度來(lái)評(píng)估TL方法,盡管沒(méi)有單一的指標(biāo)可以總結(jié)TL方法的有效性。設(shè)計(jì)一套通用的、新穎的度量,有利于DRL領(lǐng)域中TL的發(fā)展。除了這種流行的基準(zhǔn)設(shè)置外,OpenAI gym3是專(zhuān)為評(píng)估RL方法而設(shè)計(jì)的一個(gè)統(tǒng)一的基準(zhǔn)評(píng)估TL性能也值得努力。 與框架無(wú)關(guān)的遷移:大多數(shù)當(dāng)代的TL方法只能適合某些RL框架。具體來(lái)說(shuō),一些TL方法只適用于為離散動(dòng)作空間設(shè)計(jì)的RL算法(如DQfD),而另一些則適用于連續(xù)動(dòng)作空間。此外,TL方法可能僅限于on-policy / off-policy設(shè)置。這些依賴(lài)于框架的TL方法的根本原因源于RL本身的無(wú)組織開(kāi)發(fā)。我們期望在不久的將來(lái),一個(gè)統(tǒng)一的RL社區(qū)將反過(guò)來(lái)加速這個(gè)領(lǐng)域中TL開(kāi)發(fā)的標(biāo)準(zhǔn)化。 可解釋性:深度學(xué)習(xí)和端到端系統(tǒng)使網(wǎng)絡(luò)表示成為黑盒子,使解釋和調(diào)試模型表示或決策變得困難。因此,在監(jiān)督學(xué)習(xí)領(lǐng)域,人們開(kāi)始努力定義和評(píng)估可解釋方法[170][172]??山忉屝缘膬?yōu)點(diǎn)是流形,包括生成解糾纏表示,建立可解釋模型,促進(jìn)人機(jī)交互等。與此同時(shí),RL領(lǐng)域的可解釋TL方法,特別是具有可解釋的表示或策略決策的可解釋TL方法,也有利于許多應(yīng)用領(lǐng)域,包括機(jī)器人學(xué)習(xí)和金融。此外,可解釋性還有助于避免諸如自動(dòng)駕駛或醫(yī)療保健決策等任務(wù)的災(zāi)難性決策。 盡管已經(jīng)出現(xiàn)了針對(duì)RL任務(wù)的可解釋TL方法的研究[173]、[174],但在RL領(lǐng)域中并沒(méi)有可解釋TL的定義,也沒(méi)有一個(gè)系統(tǒng)的過(guò)程來(lái)評(píng)估不同TL方法的可解釋性。我們相信,在不久的將來(lái),RL可解釋TL的標(biāo)準(zhǔn)化將是一個(gè)值得更多關(guān)注和努力的話題。 論文arxiv鏈接
https:///pdf/2009.07888.pdf
|