午夜视频在线网站,日韩视频精品在线,中文字幕精品一区二区三区在线,在线播放精品,1024你懂我懂的旧版人,欧美日韩一级黄色片,一区二区三区在线观看视频

分享

降低深度強化學(xué)習(xí)研究的計算成本

 雨夜的博客 2022-02-22

視頻介紹:降低深度強化學(xué)習(xí)研究的計算成本

人們普遍認為,將傳統(tǒng)強化學(xué)習(xí)與深度神經(jīng)網(wǎng)絡(luò)相結(jié)合的深度強化學(xué)習(xí)研究的巨大增長始于開創(chuàng)性的DQN算法的發(fā)表。這篇論文展示了這種組合的潛力,表明它可以產(chǎn)生可以非常有效地玩許多 Atari 2600 游戲的代理。從那時起,已經(jīng)有幾種 方法建立在原始 DQN 的基礎(chǔ)上并對其進行了改進。流行的Rainbow 算法結(jié)合了這些最新進展,以在ALE 基準測試中實現(xiàn)最先進的性能. 然而,這一進步帶來了非常高的計算成本,不幸的副作用是擴大了擁有充足計算資源的人和沒有計算資源的人之間的差距。

在“重溫彩虹:促進更具洞察力和包容性的深度強化學(xué)習(xí)研究”中,將在ICML 2021 上發(fā)表,我們在一組中小型任務(wù)上重新審視了該算法。我們首先討論與 Rainbow 算法相關(guān)的計算成本。我們探索了如何通過較小規(guī)模的實驗得出關(guān)于結(jié)合各種算法組件的好處的相同結(jié)論,并將該想法進一步推廣到在較小的計算預(yù)算上進行的研究如何提供有價值的科學(xué)見解。

Rainbow 的成本 Rainbow

計算成本高的一個主要原因是,學(xué)術(shù)出版的標準通常需要在大型基準測試上評估新算法,例如ALE,其中包含 57 個 Atari 2600 游戲,強化學(xué)習(xí)代理可能會學(xué)習(xí)玩這些游戲。對于典型的游戲,使用Tesla P100 GPU訓(xùn)練模型大約需要五天時間. 此外,如果想要建立有意義的置信界限,通常至少執(zhí)行五次獨立運行。因此,在全套 57 款游戲上訓(xùn)練 Rainbow 需要大約 34,200 個 GPU 小時(或 1425 天)才能提供令人信服的經(jīng)驗性能統(tǒng)計數(shù)據(jù)。換句話說,這樣的實驗只有在能夠在多個 GPU 上并行訓(xùn)練時才可行,這對于較小的研究小組來說是望而卻步的。

重溫 Rainbow

在最初的 Rainbow 論文中,我們評估了向原始 DQN 算法添加以下組件的效果:雙 Q 學(xué)習(xí)、優(yōu)先體驗重放、決斗網(wǎng)絡(luò)、多步學(xué)習(xí)、分布式 RL和噪聲網(wǎng)絡(luò)。

我們評估了一組四個經(jīng)典控制環(huán)境,可以在 10-20 分鐘內(nèi)完成完全訓(xùn)練(而 ALE 游戲需要 5 天):

file

我們研究了將每個組件獨立添加到 DQN 以及從完整 Rainbow 算法中刪除每個組件的效果。正如在最初的 Rainbow 論文中一樣,我們發(fā)現(xiàn),總的來說,這些算法中的每一個的添加確實改進了對基礎(chǔ) DQN 的學(xué)習(xí)。然而,我們也發(fā)現(xiàn)了一些重要的差異,例如分布式 RL——通常被認為是一個積極的加法——本身并不總是產(chǎn)生改進。實際上,與 Rainbow 論文中的 ALE 結(jié)果相反,在經(jīng)典控制環(huán)境中,分布式 RL 僅在與另一個組件結(jié)合時才會產(chǎn)生改進。

file file

我們還在MinAtar 環(huán)境中重新運行了 Rainbow 實驗,該環(huán)境由一組五個小型化的 Atari 游戲組成,并發(fā)現(xiàn)了定性相似的結(jié)果。MinAtar 游戲的訓(xùn)練速度大約比評估原始 Rainbow 算法的常規(guī) Atari 2600 游戲快 10 倍,但仍具有一些有趣的方面,例如游戲動態(tài)和基于像素的代理輸入。因此,它們提供了一個具有挑戰(zhàn)性的中級環(huán)境,介于經(jīng)典控制和完整的 Atari 2600 游戲之間。

綜合來看,我們發(fā)現(xiàn)我們的結(jié)果與原始 Rainbow 論文的結(jié)果一致——每個算法組件產(chǎn)生的影響可能因環(huán)境而異。如果我們建議使用一個單一的代理來平衡不同算法組件的權(quán)衡,我們的 Rainbow 版本可能與原始版本一致,因為將所有組件組合在一起會產(chǎn)生更好的整體代理。然而,在不同算法組件的變化中有重要的細節(jié)值得更徹底的調(diào)查。

超越彩虹

當(dāng) DQN 被引入時,它利用了Huber 損失和RMSProp 優(yōu)化器。研究人員在構(gòu)建 DQN 時使用這些相同的選擇是一種常見的做法,因為他們的大部分精力都花在了其他算法設(shè)計決策上。本著重新評估這些假設(shè)的精神,我們重新審視了DQN在低成本、小規(guī)模經(jīng)典控制和 MinAtar 環(huán)境中使用的損失函數(shù)和優(yōu)化器。我們使用Adam 優(yōu)化器進行了一些初步實驗,它是最近最流行的優(yōu)化器選擇,結(jié)合更簡單的損失函數(shù),均方誤差損失(MSE)。由于在開發(fā)新算法時經(jīng)常忽略優(yōu)化器和損失函數(shù)的選擇,我們驚訝地發(fā)現(xiàn)我們觀察到所有經(jīng)典控制和 MinAtar 環(huán)境的顯著改進。

因此,我們決定在完整的 ALE 套件(60 個 Atari 2600 游戲)上評估將兩個優(yōu)化器(RMSProp 和 Adam)與兩個損失(Huber 和 MSE)相結(jié)合的不同方式。我們發(fā)現(xiàn) Adam+MSE 是比 RMSProp+Huber 更好的組合。

file

此外,在比較各種優(yōu)化器-損失組合時,我們發(fā)現(xiàn)使用 RMSProp 時,Huber 損失的表現(xiàn)往往優(yōu)于 MSE(由實線和橙色虛線之間的差距說明)。

file

結(jié)論

在有限的計算預(yù)算下,我們能夠在高層次上重現(xiàn)Rainbow 論文的發(fā)現(xiàn)并發(fā)現(xiàn)新的有趣現(xiàn)象。顯然,重新審視某事比首先發(fā)現(xiàn)它容易得多。然而,我們開展這項工作的目的是論證中小型環(huán)境實證研究的相關(guān)性和重要性。我們相信,這些計算密集度較低的環(huán)境非常適合對新算法的性能、行為和復(fù)雜性進行更關(guān)鍵和更徹底的分析。

我們絕不是呼吁減少對大規(guī)?;鶞实闹匾暋N覀冎皇嵌卮傺芯咳藛T將小規(guī)模環(huán)境視為他們調(diào)查中的寶貴工具,并且審閱者避免忽視專注于小規(guī)模環(huán)境的實證工作。通過這樣做,除了減少我們的實驗對環(huán)境的影響之外,我們還將更清楚地了解研究前景,并減少來自多樣化且通常資源不足的社區(qū)的研究人員的障礙,這只會有助于使我們的社區(qū)和科學(xué)進步更加強大.

    轉(zhuǎn)藏 分享 獻花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多