午夜视频在线网站,日韩视频精品在线,中文字幕精品一区二区三区在线,在线播放精品,1024你懂我懂的旧版人,欧美日韩一级黄色片,一区二区三区在线观看视频

分享

通過對抗強化學習學習精確的物理模擬器

 雨夜的博客 2022-02-22

視頻介紹:通過對抗強化學習學習精確的物理模擬器

仿真使各種工程學科能夠以最少的人力快速建立原型。在機器人技術中,物理模擬為機器人提供了一個安全且廉價的虛擬游樂場,可以通過深度強化學習(DRL)等技術獲得物理技能。然而,由于模擬中的手工衍生物理與現(xiàn)實世界并不完全匹配,完全在模擬中訓練的控制策略在真實硬件上進行測試時可能會失敗——這一挑戰(zhàn)被稱為模擬到真實的差距或域適應問題。使用RL-CycleGAN 和 RetinaGAN解決了基于感知的任務(例如抓取)的模擬到真實的差距,但仍然存在由機器人系統(tǒng)的動力學引起的差距。這促使我們問,我們能否從少數(shù)真實的機器人軌跡中學習出更準確的物理模擬器?如果是這樣,這種改進的模擬器可用于使用標準 DRL 訓練改進機器人控制器,使其在現(xiàn)實世界中取得成功。

在我們的ICRA 2021出版物“ SimGAN:通過對抗性強化學習進行域適應的混合模擬器識別”中,我們建議將物理模擬器視為可學習的組件,由 DRL 訓練,具有特殊的獎勵函數(shù),懲罰軌跡之間的差異(即,機器人隨時間的運動)和在真實機器人上收集的少量軌跡生成的模擬。我們使用生成對抗網(wǎng)絡(GAN) 提供這樣的獎勵,并制定了一個混合模擬器,結合了可學習的神經(jīng)網(wǎng)絡和分析物理方程,以平衡模型表達能力和物理正確性。在機器人運動任務上,我們的方法優(yōu)于多個強基線,包括域隨機化。

可學習的混合模擬器

傳統(tǒng)的物理模擬器是一種求解微分方程以模擬虛擬世界中物體的運動或相互作用的程序。對于這項工作,需要構建不同的物理模型來表示不同的環(huán)境——如果機器人在床墊上行走,則需要考慮床墊的變形(例如,使用有限元方法)。然而,由于機器人在現(xiàn)實世界中可能遇到的場景的多樣性,這種針對特定環(huán)境的建模技術會很乏味(甚至不可能),這就是為什么采用基于機器學習的方法是有用的. 雖然模擬器可以完全從 data,如果訓練數(shù)據(jù)不包括足夠廣泛的情況,如果需要模擬未經(jīng)訓練的情況,學習模擬器可能會違反物理定律(即偏離現(xiàn)實世界的動態(tài))。結果,在這種有限模擬器中訓練的機器人在現(xiàn)實世界中更容易失敗。

為了克服這種復雜性,我們構建了一個混合模擬器,它結合了可學習的神經(jīng)網(wǎng)絡和物理方程。具體來說,我們用可學習的仿真參數(shù)函數(shù)替換通常手動定義的模擬器參數(shù)——接觸參數(shù)(例如,摩擦和恢復系數(shù))和電機參數(shù)(例如,電機增益)因為接觸和運動動力學的未建模細節(jié)是模擬與真實差距的主要原因。與將這些參數(shù)視為常數(shù)的傳統(tǒng)模擬器不同,在混合模擬器中,它們是狀態(tài)相關的——它們可以根據(jù)機器人的狀態(tài)而改變。例如,電機在更高的速度下會變得更弱。這些通常未建模的物理現(xiàn)象可以使用狀態(tài)相關的仿真參數(shù)函數(shù)來捕獲。此外,雖然接觸和電機參數(shù)通常難以識別并且會因磨損而發(fā)生變化,但我們的混合模擬器可以從數(shù)據(jù)中自動學習它們。例如,模擬從訓練數(shù)據(jù)中學習這些參數(shù),而不是手動指定機器人腳部對它可能接觸的每個可能表面的參數(shù)。

file

混合模擬器的另一部分由物理方程組成,可確保模擬遵循基本物理定律,例如能量守恒,使其更接近現(xiàn)實世界,從而減少模擬與現(xiàn)實之間的差距。

在我們之前的床墊示例中,可學習的混合模擬器能夠模擬來自床墊的接觸力。由于學習到的接觸參數(shù)與狀態(tài)有關,模擬器可以根據(jù)機器人腳相對于床墊的距離和速度來調節(jié)接觸力,模擬可變形表面的剛度和阻尼效果。因此,我們不需要專門為可變形表面分析設計模型。

使用 GAN 進行模擬器學習

成功學習上面討論的模擬參數(shù)函數(shù)將產(chǎn)生一個混合模擬器,它可以生成與在真實機器人上收集的軌跡相似的軌跡。實現(xiàn)這種學習的關鍵是定義軌跡之間相似性的度量。甘斯,最初設計以產(chǎn)生合成的圖像共享相同的分布,或具有小數(shù)量的真實圖像的“風格,”,可以被用于產(chǎn)生合成的軌跡是從以假亂真難以區(qū)別。GAN 有兩個主要部分,一個是學習生成新實例的生成器,另一個是鑒別器評估新實例與訓練數(shù)據(jù)的相似程度。在這種情況下,可學習混合模擬器用作 GAN 生成器,而 GAN 鑒別器提供相似度分數(shù)。

file

將仿真模型的參數(shù)與現(xiàn)實世界中收集的數(shù)據(jù)進行擬合,這一過程稱為系統(tǒng)識別(SysID),已成為許多工程領域的常見做法。例如,可以通過測量不同壓力下表面的位移來識別可變形表面的剛度參數(shù)。這個過程通常是手動且乏味的,但使用 GAN 會更有效率。例如,SysID 通常需要手工制作的指標來衡量模擬軌跡和真實軌跡之間的差異。對于 GAN,判別器會自動學習這樣的度量。此外,為了計算差異度量,傳統(tǒng)的 SysID 需要將每個模擬軌跡與使用相同控制策略生成的相應真實世界軌跡配對。由于 GAN 判別器只將一條軌跡作為輸入,并計算其在現(xiàn)實世界中被收集到的似然,

使用強化學習 (RL) 來學習模擬器并完善策略

將所有內容放在一起,我們將模擬學習制定為 RL 問題。神經(jīng)網(wǎng)絡從少量真實世界的軌跡中學習狀態(tài)相關的接觸和運動參數(shù)。神經(jīng)網(wǎng)絡被優(yōu)化以最小化模擬軌跡和真實軌跡之間的誤差。請注意,在較長時間內將這種誤差最小化很重要——準確預測更遙遠未來的模擬將導致更好的控制策略。RL 非常適合這一點,因為它會隨著時間的推移優(yōu)化累積獎勵,而不僅僅是優(yōu)化單步獎勵。

在混合模擬器學習并變得更準確后,我們再次使用 RL 來改進模擬中機器人的控制策略(例如,在表面上行走,如下所示)。

file

評估

由于 2020 年對真實機器人的訪問有限,我們創(chuàng)建了第二個不同的模擬(目標域)作為現(xiàn)實世界的代理。源域和目標域之間的動態(tài)變化大到足以近似不同的模擬到真實的差距(例如,使一條腿更重,在可變形的表面而不是硬地板上行走)。我們評估了我們的混合模擬器在不知道這些變化的情況下是否可以學習匹配目標域中的動態(tài),以及這個學習模擬器中的改進策略是否可以成功部署在目標域中。

下面的定性結果表明,在目標域(其中地板可變形)中收集不到 10 分鐘的數(shù)據(jù)的模擬學習能夠生成改進的策略,該策略對于具有不同形態(tài)和動力學的兩個機器人執(zhí)行得更好。

file

下面的定量結果表明,SimGAN 優(yōu)于多個最先進的基線,包括域隨機化 (DR) 和目標域中的直接微調 (FT)。

file

結論

sim 到 real 的差距是阻止機器人利用強化學習力量的關鍵瓶頸之一。我們通過學習一個模擬器來應對這一挑戰(zhàn),該模擬器可以更忠實地模擬現(xiàn)實世界的動態(tài),同時只使用少量的現(xiàn)實世界數(shù)據(jù)??梢猿晒Σ渴鹪谠撃M器中細化的控制策略。為了實現(xiàn)這一點,我們用可學習的組件增強了經(jīng)典物理模擬器,并使用對抗性強化學習來訓練這個混合模擬器。迄今為止,我們已經(jīng)測試了它在運動任務中的應用,我們希望通過將其應用于其他機器人學習任務(例如導航和操縱)來建立在這個通用框架的基礎上。

    轉藏 分享 獻花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多