午夜视频在线网站,日韩视频精品在线,中文字幕精品一区二区三区在线,在线播放精品,1024你懂我懂的旧版人,欧美日韩一级黄色片,一区二区三区在线观看视频

分享

具身智能有哪些細分研究方向?綜述總結(jié)!

 生清凈心不 2024-09-04 發(fā)布于北京

寫在前面 & 筆者的個人理解

具身智能(Embodied AI)對于實現(xiàn)通用人工智能(AGI)至關(guān)重要,是連接網(wǎng)絡空間和物理世界的各種應用的基礎。最近,多模態(tài)大模型(MLM)和世界模型(WMs)的出現(xiàn)因其卓越的感知、交互和推理能力而引起了人們的廣泛關(guān)注,使其成為具身智能體大腦的一種有前景的架構(gòu)。然而,在傳播時代,還沒有對嵌入式AI進行全面的調(diào)查。

在本次調(diào)查中,我們?nèi)嫣接懥司呱碇悄艿淖钚逻M展。我們的分析首先瀏覽了具身機器人和仿真引擎的代表性作品的前沿,以充分了解研究重點及其局限性。然后,我們分析了四個主要的研究目標:1)具身感知,2)具身交互,3)具身代理,4)仿真到真實的適應,涵蓋了最先進的方法、基本范式和全面的數(shù)據(jù)集。此外,我們還探討了虛擬和真實化身代理中MLM的復雜性,強調(diào)了它們在促進動態(tài)數(shù)字和物理環(huán)境中的交互方面的重要性。最后,我們總結(jié)了具身人工智能的挑戰(zhàn)和局限性,并討論了它們未來的潛在發(fā)展方向。我們希望這項調(diào)查能夠為研究界提供基礎參考,并激發(fā)持續(xù)創(chuàng)新。

圖片

開源匯總鏈接:https://github.com/HCPLab-SYSU/Embodied_AI_Paper_List

圖片

與以往研究的不同之處:盡管已經(jīng)有幾篇關(guān)于具身智能的調(diào)查論文,但其中大多數(shù)已經(jīng)過時,因為它們是在2023年左右開始的起步時代之前發(fā)表的。據(jù)我們所知,2023年之后只有一篇綜述論文只關(guān)注視覺語言動作體現(xiàn)的人工智能模型。然而,MLM、WMs和具身代理并沒有得到充分考慮。此外,體現(xiàn)機器人和仿真引擎的最新發(fā)展也被忽視了。為了解決這個快速發(fā)展的領域中綜合調(diào)查論文的稀缺問題,我們提出了這項綜合綜述,涵蓋了代表性的具身機器人、仿真引擎和四個主要研究任務:具身感知、具身交互、具身代理和仿真真實機器人控制。

圖片

總之,這項工作的主要貢獻有三方面。首先,它對具身人工智能進行了系統(tǒng)回顧,包括具身機器人、仿真引擎和四個主要研究任務:視覺主動感知、具身交互、具身代理和仿真機器人控制。據(jù)我們所知,這是第一次從基于MLM和WMs的網(wǎng)絡和物理空間對齊的角度對具身人工智能進行全面調(diào)查,對現(xiàn)有研究進行了全面的總結(jié)和分類。其次,它考察了嵌入式人工智能的最新進展,提供了跨多個仿真引擎和數(shù)據(jù)集的當前工作的全面基準測試和討論。第三,它確定了體現(xiàn)人工智能AGI未來研究的幾個研究挑戰(zhàn)和潛在方向。

具身機器人

Embodied agent積極與物理環(huán)境交互,涵蓋了廣泛的實施例,包括機器人、智能電器、智能眼鏡、自動駕駛汽車等。其中,機器人是最突出的實施例之一。根據(jù)應用,機器人被設計成各種形式,以利用其硬件特性完成特定任務,如圖4所示。

圖片

Fixed-base Robots

如圖4(a)所示,固定基座機器人因其緊湊性和高精度操作而廣泛應用于實驗室自動化、教育培訓和工業(yè)制造。這些機器人具有堅固的底座和結(jié)構(gòu),可確保操作過程中的穩(wěn)定性和高精度。配備高精度傳感器和執(zhí)行器,可實現(xiàn)微米級精度,使其適用于需要高精度和可重復性的任務。

Wheeled Robots and Tracked Robots

對于移動機器人來說,它們可以面對更復雜和多樣化的應用場景。如圖4(b)所示,輪式機器人以其高效的機動性而聞名,廣泛應用于物流、倉儲和安全檢查。輪式機器人的優(yōu)點包括結(jié)構(gòu)簡單、成本相對較低、能源效率高、在平面上的快速移動能力。這些機器人通常配備激光雷達和攝像頭等高精度傳感器,實現(xiàn)自主導航和環(huán)境感知,使其在自動化倉庫管理和檢查任務中非常有效。

相比之下,履帶式機器人具有強大的越野能力和高機動性,在農(nóng)業(yè)、建筑和災難恢復方面顯示出巨大的潛力,如圖4(c)所示。軌道系統(tǒng)提供了更大的地面接觸面積,分散了機器人的重量,降低了在泥濘和沙地等軟地形中沉沒的風險。

Quadruped Robots

四足機器人以其穩(wěn)定性和適應性而聞名,非常適合復雜的地形探索、救援任務和軍事應用。受四足動物的啟發(fā),這些機器人可以在不平坦的表面上保持平衡和機動性,如圖4(d)所示。多關(guān)節(jié)設計使它們能夠模仿生物運動,實現(xiàn)復雜的步態(tài)和姿勢調(diào)整。高可調(diào)性使機器人能夠自動適應不斷變化的地形,提高機動性和穩(wěn)定性。

Humanoid Robots

人形機器人以其類似人類的形態(tài)而聞名,在服務業(yè)、醫(yī)療保健和協(xié)作環(huán)境等領域越來越普遍。這些機器人可以模仿人類的動作和行為模式,提供個性化的服務和支持。如圖4(e)所示,它們靈巧的手設計使它們能夠執(zhí)行復雜而復雜的任務,使其有別于其他類型的機器人。

Biomimetic Robots

不同的仿生機器人通過仿真自然生物的有效運動和功能,在復雜和動態(tài)的環(huán)境中執(zhí)行任務。通過仿真生物具身的形態(tài)和運動機制,這些機器人在醫(yī)療保健、環(huán)境監(jiān)測和生物研究等領域顯示出巨大的潛力。如圖4(f)所示。

具身仿真

具身仿真對于嵌入式人工智能至關(guān)重要,因為它們提供了具有成本效益的實驗,通過仿真潛在的危險場景來確保安全性,在不同環(huán)境中進行測試的可擴展性,快速原型制作能力,更廣泛的研究社區(qū)的可訪問性,精確研究的受控環(huán)境,訓練和評估的數(shù)據(jù)生成,以及算法比較的標準化基準。為了使代理能夠與環(huán)境交互,有必要構(gòu)建一個逼真的仿真環(huán)境。這需要考慮環(huán)境的物理特性、目標的屬性及其相互作用。

本節(jié)將分兩部分介紹常用的仿真平臺:基于底層仿真的通用仿真引擎和基于真實場景的仿真引擎。

General Simulator

真實環(huán)境中存在的物理相互作用和動態(tài)變化是不可替代的。然而,在物理世界中部署具身模型通常會帶來高昂的成本,并面臨諸多挑戰(zhàn)。具身人工智能的最終目標是將發(fā)現(xiàn)從虛擬環(huán)境轉(zhuǎn)移到現(xiàn)實世界的應用程序中。研究人員可以選擇最適合他們需求的仿真引擎來幫助他們的研究。通用仿真引擎提供了一個緊密模擬物理世界的虛擬環(huán)境,允許算法開發(fā)和模型訓練,這提供了顯著的成本、時間和安全優(yōu)勢。

  • Isaac Sim
  • Gazebo
  • PyBullet

表二列出了10種用途仿真引擎的關(guān)鍵特征和主要應用場景。研究人員可以根據(jù)自己的具體研究需求選擇最合適的仿真引擎,從而加快嵌入式人工智能技術(shù)的開發(fā)和應用。圖5顯示了通用仿真引擎的可視化效果。

圖片
圖片

Real-Scene Based Simulators

在家庭活動中實現(xiàn)普遍的具身代理一直是具身人工智能研究領域的主要焦點。這些具身代理需要深入了解人類的日常生活,并在室內(nèi)環(huán)境中執(zhí)行復雜的具身任務,如導航和交互。為了滿足這些復雜任務的需求,模擬環(huán)境需要盡可能接近現(xiàn)實世界,這對仿真引擎的復雜性和真實性提出了很高的要求。這導致了基于現(xiàn)實世界環(huán)境的仿真引擎的創(chuàng)建。這些仿真引擎主要從現(xiàn)實世界收集數(shù)據(jù),創(chuàng)建逼真的3D資產(chǎn),并使用UE5和Unity等3D游戲引擎構(gòu)建場景。豐富而逼真的場景使基于現(xiàn)實世界環(huán)境的仿真引擎成為家庭活動中具身人工智能研究的首選。

  • AI2-THOR
  • Matterport 3D
  • Virtualhome
  • Habitat
  • SAPIEN
  • iGibson
  • TDW
圖片

表三總結(jié)了基于上述真實場景的所有模擬器。Sapien因其設計而脫穎而出,專門為模擬與門、櫥柜和抽屜等關(guān)節(jié)目標的交互而量身定制。VirtualHome以其獨特的環(huán)境圖而聞名,它促進了基于環(huán)境自然語言描述的高級體現(xiàn)規(guī)劃。雖然AI2Thor提供了豐富的交互式場景,但這些交互與VirtualHome中的交互類似,都是基于腳本的,缺乏真正的物理交互。這種設計足以滿足不需要細粒度交互的具體任務。iGibson和TDW都提供了精細的壓花控制和高度模擬的物理交互。iGibson擅長提供豐富而逼真的大規(guī)模場景,使其適用于復雜和長期的移動操作,其中TDW允許用戶在場景擴展方面有更大的自由度,并具有獨特的音頻和靈活的流體模擬功能,使其在相關(guān)模擬場景中不可或缺。Matterport3D是一個基礎的2D-3D視覺數(shù)據(jù)集,在嵌入式AI基準測試中得到了廣泛的應用和擴展。雖然Habitat中的具身代理缺乏交互能力,但其廣泛的室內(nèi)場景、用戶友好的界面和開放的框架使其在具身導航中受到高度重視。

圖片

具身感知

未來視覺感知的“北極星”體現(xiàn)為以視覺推理和社會智能為中心。具有具身感知的主體不太可能識別圖像中的物體,必須在物理世界中移動并與環(huán)境交互。這需要對3D空間和動態(tài)環(huán)境有更深入的了解。體現(xiàn)感知需要視覺感知和推理,理解場景中的3D關(guān)系,并根據(jù)視覺信息預測和執(zhí)行復雜的任務。

Active Visual Perception

主動視覺感知系統(tǒng)需要基本的能力,如狀態(tài)估計、場景感知和環(huán)境探索。如圖7所示,這些功能在vSLAM、3D場景理解和主動探索領域得到了廣泛的研究。這些研究領域有助于開發(fā)強大的主動視覺感知系統(tǒng),促進復雜動態(tài)環(huán)境中的環(huán)境交互和導航。我們簡要介紹了這三個組成部分,并總結(jié)了表四中每個部分提到的方法。

圖片

1)視覺SLAM:SLAM是一種技術(shù),可以確定移動機器人在未知環(huán)境中的位置,同時競爭性地構(gòu)建該環(huán)境的地圖?;诰嚯x的SLAM使用測距儀(如激光掃描儀、雷達和/或聲納)創(chuàng)建點云表示,但成本高昂,提供的環(huán)境信息有限。視覺SLAM(vSLAM)使用車載攝像頭捕捉幀并構(gòu)建環(huán)境表示。它因其低硬件成本、小規(guī)模場景中的高精度以及捕獲豐富環(huán)境信息的能力而廣受歡迎。經(jīng)典的vSLAM技術(shù)可分為傳統(tǒng)vSLAM和語義vSLAM。

2)3D場景理解:3D場景理解旨在區(qū)分目標的語義,識別它們的位置,并從3D場景數(shù)據(jù)中推斷出幾何屬性,這在自動駕駛、機器人導航和人機交互等領域至關(guān)重要。場景可以使用激光雷達或RGB-D傳感器等3D掃描工具記錄為3D點云。與圖像不同,點云是稀疏、無序和不規(guī)則的,這使得場景解釋極具挑戰(zhàn)性。

3)主動探索:之前介紹的3D場景理解方法賦予機器人以被動方式感知環(huán)境的能力。在這種情況下,感知系統(tǒng)的信息獲取和決策不適應不斷變化的場景。然而,被動感知是主動探索的重要基礎。鑒于機器人能夠移動并與周圍環(huán)境頻繁互動,它們也應該能夠主動探索和感知周圍的環(huán)境。它們之間的關(guān)系如圖所示。當前解決主動感知的方法側(cè)重于與環(huán)境交互或通過改變觀察方向來獲得更多的視覺信息。

圖片

3D Visual Grounding

與在平面圖像范圍內(nèi)運行的傳統(tǒng)2D視覺基礎(VG)不同,3D VG結(jié)合了目標之間的深度、視角和空間關(guān)系,為代理與環(huán)境交互提供了更強大的框架。3D VG的任務涉及使用自然語言描述在3D環(huán)境中定位目標。如表五所示,3D視覺接地的最新方法大致可分為兩類:兩階段方法和一階段方法。

圖片

1)兩階段3D視覺接地方法:與相應的2D任務類似,3D接地的早期研究主要利用了兩階段檢測然后匹配的管道。他們最初使用預訓練的檢測器或片段從3D場景中的眾多目標建議中提取特征,然后將其與語言查詢特征融合以匹配目標目標。兩階段研究的重點主要集中在第二階段,例如探索目標建議特征和語言查詢特征之間的相關(guān)性,以選擇最匹配的目標。Refrait3D和TGNN不僅學習將提出的特征與文本嵌入相匹配,還通過圖神經(jīng)網(wǎng)絡對目標之間的上下文關(guān)系進行編碼。為了增強自由形式描述和不規(guī)則點云的3D視覺基礎,F(xiàn)FL-3DOG使用了用于短語相關(guān)性的語言場景圖、用于豐富視覺特征的多級3D提案關(guān)系圖和用于編碼全局上下文的描述引導3D視覺圖。

2)一階段3D視覺接地方法:在圖8(c)中,與兩階段3D VG方法相比,一階段3D VGs方法集成了由語言查詢引導的目標檢測和特征提取,使定位與語言相關(guān)的目標變得更加容易。

圖片

Visual Language Navigation

圖片

視覺語言導航(VLN)是具身智能的一個關(guān)鍵研究問題,旨在使代理能夠按照語言指令在看不見的環(huán)境中導航。VLN要求機器人理解復雜多樣的視覺觀察,同時解釋不同粒度的指令。VLN的輸入通常由兩部分組成:視覺信息和自然語言指令。視覺信息可以是過去軌跡的視頻,也可以是一組歷史當前觀測圖像。自然語言指令包括體現(xiàn)代理需要達到的目標或體現(xiàn)代理預期完成的任務。所體現(xiàn)的代理必須使用上述信息從候選列表中選擇一個或一系列動作,以滿足自然語言指令的要求。

1)數(shù)據(jù)集如下:

圖片

2)方法:近年來,隨著LLM的驚人性能,VLN取得了長足的進步,VLN的方向和重點受到了深刻的影響。永遠,VLN方法可以分為兩個方向:基于記憶理解和基于未來預測。

圖片

Non-Visual Perception

觸覺傳感器為試劑提供有關(guān)物體屬性的詳細信息,如紋理、硬度和溫度。它允許機器人完全完成手頭的高精度任務,這對物理世界中的代理至關(guān)重要。觸覺感知無疑增強了人機交互,并具有巨大的前景。

對于觸覺感知任務,智能體需要從物理世界收集觸覺信息,然后執(zhí)行復雜的任務。在本節(jié)中,如圖10所示,我們首先介紹了現(xiàn)有類型的觸覺傳感器及其數(shù)據(jù)集,然后討論了觸覺感知中的三個主要任務:估計、識別和操縱。

圖片

1)傳感器設計:人類觸覺的原理是,皮膚在被觸摸時會改變形狀,其豐富的神經(jīng)細胞會發(fā)送電信號,這也是設計觸覺傳感器的基礎。觸覺傳感器設計方法可分為三類:非視覺、視覺和多模態(tài)。非視覺觸覺傳感器主要使用電氣和機械原理,主要記錄基本的低維傳感器輸出,如力、壓力、振動和溫度。

2)數(shù)據(jù)集:非視覺傳感器的數(shù)據(jù)集包含電極值、3D凈力矢量和接觸位置。因此,數(shù)據(jù)集中的對象通常是力樣本和抓取樣本。它的任務主要是估計力類型、力值和掌握細節(jié)。

圖片

3)方法:觸覺感知有很多應用,可分為三類:估計、精確的機器人操作和多模態(tài)識別任務。

4)困難:a)具有不同原理的傳感器的缺點:傳統(tǒng)傳感器提供簡單、有限和低維的數(shù)據(jù),對多模態(tài)學習構(gòu)成挑戰(zhàn)?;谝曈X的傳感器和電子皮膚雖然提供了高精度,但成本過高。此外,基于視覺的傳感器無法提供溫度信息。b)數(shù)據(jù)采集的困難:觸覺數(shù)據(jù)集罕見且異構(gòu),缺乏視覺等領域中標準化、廣泛的存儲庫。數(shù)據(jù)收集尤其具有挑戰(zhàn)性,尤其是在同時收集觸覺和視覺信息時,盡管在開發(fā)簡化的收集設備方面做出了一些努力。c)標準不一致的困難:市場上有各種標準和原理不一致的傳感器。即使成像模式相似,基于視覺的觸覺傳感器的設計和校準也會導致明顯的域差距。與視覺和聽覺數(shù)據(jù)的標準化格式不同,觸覺數(shù)據(jù)格式在傳感器制造商之間差異很大,這使得從異構(gòu)傳感器進行大規(guī)模學習變得困難,并限制了公開觸覺數(shù)據(jù)集的有用性。

具身交互

具身交互任務是指代理在物理或模擬空間中與人類和環(huán)境交互的場景。典型的具身交互任務是具身問答(EQA)和具身抓取。

Embodied Question Answering

對于EQA任務,代理需要從第一人稱的角度探索環(huán)境,以收集回答給定問題所需的信息。具有自主探索和決策能力的代理不僅必須考慮采取哪些行動來探索環(huán)境,還必須確定何時停止探索以回答問題?,F(xiàn)有的工作側(cè)重于不同類型的問題,其中一些問題如圖11所示。在本節(jié)中,我們首先介紹現(xiàn)有的數(shù)據(jù)集,然后討論相關(guān)方法。

圖片

數(shù)據(jù)集如下:

圖片

方法分為以下幾類:

  • Neural Network Methods
  • LLMs/VLMs Methods

局限性:(a)數(shù)據(jù)集:構(gòu)建數(shù)據(jù)集需要大量的人力和資源。此外,大規(guī)模數(shù)據(jù)集仍然很少,評估模型性能的指標因數(shù)據(jù)集而異,使性能的測試和比較變得復雜,(b)模型:盡管LLM帶來了進步,但這些模型的性能仍然遠遠落后于人類水平。未來的工作可能更側(cè)重于有效地干擾代理人探索的環(huán)境信息,并指導他們根據(jù)環(huán)境記憶和問題規(guī)劃行動,同時提高他們行動的可解釋性。

Embodied Grasping

具身交互,除了與人類進行問答交互外,還可以包括根據(jù)人類指令執(zhí)行操作,例如抓取和放置物體,從而完成機器人、人類和物體之間的交互。體現(xiàn)抓取需要全面的語義理解、場景感知、決策和穩(wěn)健的控制規(guī)劃。具身抓取方法將傳統(tǒng)的機器人運動學抓取與大型模型(如LLM和視覺語言基礎模型)相結(jié)合,使代理能夠在多感官感知下執(zhí)行抓取任務,包括視覺主動感知、語言理解和推理。圖12(b)展示了人機交互的概覽,其中代理完成了具體的抓取任務。

圖片

1)抓握器:目前抓握技術(shù)的研究重點是兩指平行抓握器和五指靈巧手。對于雙指平行抓取器,抓取姿勢通常分為兩類:4-DOF和6-DOF。

2)數(shù)據(jù)集:最近已經(jīng)生成了大量的抓取數(shù)據(jù)集。這些數(shù)據(jù)集通常包含基于圖像(RGB、深度)、點云或3D場景的帶注釋抓取數(shù)據(jù)。

圖片

3)語言引導抓取:語言引導抓取的概念是從這種整合中發(fā)展而來的,它結(jié)合了MLM,為代理提供了語義場景推理的能力。這允許代理根據(jù)隱式或顯式的人類指令執(zhí)行抓取操作。圖12(c)顯示了近年來語言引導掌握主題的出版趨勢。隨著LLM的進步,研究人員對這一主題表現(xiàn)出越來越大的興趣。目前,抓取研究越來越關(guān)注開放世界場景,強調(diào)開放集泛化方法。通過利用MLM的泛化能力,機器人可以在開放世界環(huán)境中以更高的智能和效率執(zhí)行抓取任務。

4)端到端方法:CLIPORT是一種語言條件模仿學習代理,它將視覺語言預訓練模型CLIP與Transporter Net相結(jié)合,創(chuàng)建了一個用于語義理解和草生成的端到端雙流架構(gòu)。它使用從虛擬環(huán)境中收集的大量專家演示數(shù)據(jù)進行訓練,使代理能夠執(zhí)行語義引導的抓取?;贠CID數(shù)據(jù)集,CROG提出了一種視覺語言抓取數(shù)據(jù)集,并引入了具有競爭力的端到端基線。

5)模塊化方法:F3RM試圖將CLIP的文本圖像先驗提升到3D空間,使用提取的特征進行語言定位,然后生成草。它將精確的3D幾何與2D基本模型的豐富語義相結(jié)合,利用從CLIP提取的特征通過自由文本自然語言指定要操作的對象。

這些方法通過利用端到端和模塊化框架推進了語言引導抓取領域,從而增強了機器人代理通過自然語言指令理解和執(zhí)行復雜抓取任務的能力。具身抓握使機器人能夠與物體互動,從而提高了它們在家庭服務和工業(yè)制造中的智能和實用性。未來的研究將側(cè)重于提高智能體的通用性,使機器人能夠理解更復雜的語義,掌握更廣泛的看不見的物體,并完成復雜的抓取任務。

具身agent

代理被定義為能夠感知其環(huán)境并采取行動實現(xiàn)特定目標的自主具身。MLM的最新進展進一步將代理的應用擴展到實際場景。當這些基于MLM的代理體現(xiàn)在物理具身中時,它們可以有效地將其能力從虛擬空間轉(zhuǎn)移到物理世界,從而成為體現(xiàn)代理。

圖片

為了使具身代理能夠在信息豐富和復雜的現(xiàn)實世界中運行,開發(fā)了具身代理,以顯示強大的多模態(tài)感知、交互和規(guī)劃能力,如圖13所示。為了完成一項任務,嵌入式代理通常涉及以下過程:1)將抽象和復雜的任務分解為特定的子任務,這被稱為高級嵌入式任務規(guī)劃。2)通過有效地利用體現(xiàn)感知和體現(xiàn)交互模型或利用基礎模型的策略功能(稱為低級體現(xiàn)行動計劃)來逐步實現(xiàn)這些子任務。值得注意的是,任務規(guī)劃涉及行動前的思考,因此通常在網(wǎng)絡空間中被考慮。相比之下,行動計劃必須考慮到與環(huán)境的有效交互,并將此信息反饋給任務規(guī)劃者以調(diào)整任務計劃。因此,對于具身代理來說,將他們的能力從網(wǎng)絡空間推廣到物理世界是至關(guān)重要的。

圖片

Embodied Multimodal Foundation Model

具身代理需要視覺識別其環(huán)境,聽覺理解指令,并包含其自身狀態(tài),以實現(xiàn)復雜的交互和操作。這需要一個集成多種傳感器模態(tài)和自然語言處理能力的模型,通過合成各種數(shù)據(jù)類型來增強智能體的理解和決策。體現(xiàn)多模式基礎模型正在出現(xiàn)。谷歌DeepMind八年前開始在機器人基礎模型領域進行研究,不斷探索更有效地擴展模型和數(shù)據(jù)的方法。他們的研究結(jié)果表明,利用基礎模型和大型、多樣化的數(shù)據(jù)集是最佳策略。他們基于機器人Transformer(RT)開發(fā)了一系列作品,為未來關(guān)于具身代理的研究提供了實質(zhì)性的見解。

Embodied Task Planning

如前所述,對于“把蘋果放在盤子里”的任務,任務規(guī)劃器會將其分為“找到蘋果,摘蘋果”、“找到盤子”、“放下蘋果”等子任務。因為如何查找(導航任務)或拾取/放下動作(抓取任務)不在任務規(guī)劃的范圍內(nèi)。這些動作通常在模擬器中預先定義,或在現(xiàn)實世界中使用預先訓練的策略模型執(zhí)行,例如使用CLIPort來抓取任務。主要分為以下幾個模塊:

  • Planning utilizing the Emergent Capabilities of LLMs
  • Planning utilizing the visual information from embodied perception model
  • Planning utilizing the VLMs

Embodied Action Planning

很明顯,行動規(guī)劃必須解決現(xiàn)實世界的不確定性,因為任務規(guī)劃提供的子任務的粒度不足以指導環(huán)境交互中的代理。通常,代理可以通過兩種方式實現(xiàn)行動計劃:1)使用預先訓練的具身感知和具身干預模型作為工具,通過API逐步完成任務計劃指定的子任務,2)利用VLA模型的固有能力來制定行動計劃。此外,動作規(guī)劃器的執(zhí)行結(jié)果被反饋給任務規(guī)劃器,以調(diào)整和改進任務規(guī)劃。

  • Action utilizing APIs
  • Action utilizing VLA model

Sim-to-Real適應

具身人工智能中的模擬到真實適應是指將在模擬環(huán)境(網(wǎng)絡空間)中學習到的能力或行為轉(zhuǎn)移到現(xiàn)實世界場景(物理世界)的過程。它涉及驗證和改進仿真中開發(fā)的算法、模型和控制策略的有效性,以確保它們在物理環(huán)境中穩(wěn)健可靠地運行。為了實現(xiàn)模擬到真實的適應,體現(xiàn)世界模型、數(shù)據(jù)收集和訓練方法以及體現(xiàn)控制算法是三個基本組成部分。

Embodied World Model

Sim-to-Real涉及在模擬中創(chuàng)建與現(xiàn)實世界環(huán)境非常相似的世界模型,幫助算法在傳輸時更好地泛化。世界模型的方法是構(gòu)建一個端到端的模型,通過以生成或預測的方式預測下一個狀態(tài)來做出決策,將愿景映射到行動,甚至將任何東西映射到任何東西。這種世界模型和VLA模型之間最大的區(qū)別在于,VLA模型首先在大規(guī)模互聯(lián)網(wǎng)數(shù)據(jù)集上進行訓練,以實現(xiàn)高級應急能力,然后與現(xiàn)實世界的機器人數(shù)據(jù)進行微調(diào)。相比之下,世界模型是在物理世界數(shù)據(jù)上從頭開始訓練的,隨著數(shù)據(jù)量的增加,逐漸發(fā)展出高級功能。然而,它們?nèi)匀皇堑图壍奈锢硎澜缒P停谀撤N程度上類似于人類神經(jīng)反射系統(tǒng)的機制。這使得它們更適合輸入和輸出都相對結(jié)構(gòu)化的場景,例如自動駕駛(輸入:視覺,輸出:油門、剎車、方向盤)或物體分類(輸入:視力、指令、數(shù)字傳感器,輸出:抓取目標物體并將其放置在目標位置)。它們不太適合泛化到非結(jié)構(gòu)化、復雜的具體任務。

圖片

學習世界模型在物理仿真領域具有廣闊的應用前景。與傳統(tǒng)的仿真方法相比,它具有顯著的優(yōu)勢,例如能夠推理不完整信息的交互,滿足實時計算要求,并隨著時間的推移提高預測精度。這種世界模型的預測能力至關(guān)重要,使機器人能夠發(fā)展在人類世界中操作所需的物理直覺。如圖15所示,根據(jù)世界環(huán)境的學習管道,它們可分為基于生成的方法、基于預測的方法和知識驅(qū)動的方法。我們簡要總結(jié)了表XI中提到的方法。

圖片

Data Collection and Training

對于模擬到真實的適應,高質(zhì)量的數(shù)據(jù)很重要。傳統(tǒng)的數(shù)據(jù)收集方法包括昂貴的設備、精確的操作,耗時且實驗室密集,往往缺乏靈活性。最近,已經(jīng)提出了一些高效且成本效益高的方法來收集和培訓高質(zhì)量的演示數(shù)據(jù)。本節(jié)將討論在真實世界和模擬環(huán)境中收集數(shù)據(jù)的各種方法。圖16顯示了來自真實世界和模擬環(huán)境的演示數(shù)據(jù)。

圖片

Embodied Control

具身控制通過與環(huán)境的交互進行學習,并使用獎勵機制優(yōu)化行為以獲得最優(yōu)策略,從而避免了傳統(tǒng)物理建模方法的缺點。具體的控制方法可分為兩類:

  • Deep Reinforcement Learning (DRL)
  • Imitation Learning
圖片

挑戰(zhàn)和未來方向

盡管具身人工智能發(fā)展迅速,但它面臨著一些挑戰(zhàn),并提出了令人興奮的未來方向。

高質(zhì)量的機器人數(shù)據(jù)集:獲得足夠的現(xiàn)實世界機器人數(shù)據(jù)仍然是一個重大挑戰(zhàn)。收集這些數(shù)據(jù)既費時又耗費資源。僅依靠模擬數(shù)據(jù)最糟糕的是模擬到實際的差距問題。創(chuàng)建多樣化的現(xiàn)實世界機器人數(shù)據(jù)集需要各機構(gòu)之間密切而廣泛的合作。此外,開發(fā)更逼真、更高效的模擬器對于提高模擬數(shù)據(jù)的質(zhì)量至關(guān)重要。目前的工作RT-1]使用了基于機器人圖像和自然語言命令的預訓練模型。RT-1在導航和抓取任務中取得了良好的效果,但獲取現(xiàn)實世界的機器人數(shù)據(jù)集非常具有挑戰(zhàn)性。為了構(gòu)建能夠在機器人技術(shù)中跨場景和跨任務應用的通用化實體模型,必須構(gòu)建大規(guī)模數(shù)據(jù)集,利用高質(zhì)量的模擬環(huán)境數(shù)據(jù)來輔助現(xiàn)實世界的數(shù)據(jù)。

高效利用人類演示數(shù)據(jù):高效利用人類展示數(shù)據(jù)涉及利用人們展示的動作和行為來訓練和改進機器人系統(tǒng)。這個過程包括從大規(guī)模、高質(zhì)量的數(shù)據(jù)集中收集、處理和學習,在這些數(shù)據(jù)集中,人類執(zhí)行機器人想要學習的任務。目前的工作R3M使用動作標簽和人類演示數(shù)據(jù)來學習可泛化表示,在一些機器人植草任務中顯示出很高的成功率,但復雜任務的效率仍有待提高。因此,重要的是有效地利用大量非結(jié)構(gòu)化、多標簽和多模式的人類演示數(shù)據(jù),結(jié)合動作標簽數(shù)據(jù)來訓練能夠在相對較短的時間內(nèi)學習各種任務的實體模型。通過有效地使用人類演示數(shù)據(jù),機器人系統(tǒng)可以實現(xiàn)更高水平的性能和適應性,使其能夠在動態(tài)環(huán)境中執(zhí)行復雜的任務。

復雜環(huán)境認知:復雜環(huán)境認知是指實體主體在物理或虛擬環(huán)境中感知、理解和導航復雜現(xiàn)實世界環(huán)境的能力。基于廣泛的常識,Say-Can利用了預訓練的LLM模型的任務分解機制,該機制在簡單的任務規(guī)劃中嚴重依賴大量的常識,但缺乏對復雜環(huán)境中長期任務的理解。對于非結(jié)構(gòu)化的開放環(huán)境,目前的工作通常依賴于預訓練的LLM的任務分解機制,使用廣泛的常識知識進行簡單的任務規(guī)劃,同時缺乏對特定場景的理解。提高復雜環(huán)境中的知識轉(zhuǎn)移和泛化能力至關(guān)重要。一個真正通用的機器人系統(tǒng)應該能夠在各種看不見的場景中理解和執(zhí)行自然語言指令。這需要開發(fā)適應性強、可擴展的嵌入式代理架構(gòu)。

長期任務執(zhí)行:執(zhí)行單個指令通常涉及機器人的長期任務,例如“清潔廚房”等命令,其中涉及重新排列物體、掃地、擦桌子等活動。成功完成這些任務需要機器人能夠在較長的時間跨度內(nèi)計劃和執(zhí)行一系列低級動作。雖然目前的高級任務規(guī)劃人員已經(jīng)取得了初步的成功,但由于缺乏對具體任務的調(diào)整,他們在各種情況下往往被證明是不夠的。應對這一挑戰(zhàn)需要培養(yǎng)具備強大感知能力和大量常識知識的高效規(guī)劃者。

因果關(guān)系發(fā)現(xiàn):現(xiàn)有的數(shù)據(jù)驅(qū)動的實體代理根據(jù)數(shù)據(jù)中的內(nèi)在相關(guān)性做出決策。然而,這種建模方法不允許模型真正理解知識、行為和環(huán)境之間的因果關(guān)系,從而導致有偏見的策略。這使得很難確保它們能夠以可解釋、穩(wěn)健和可靠的方式在現(xiàn)實環(huán)境中運行。因此,具身代理由世界知識驅(qū)動,能夠自主進行因果推理,這一點很重要。通過交互理解世界,并通過溯因推理學習其工作原理,我們可以進一步提高多模態(tài)具身代理在復雜現(xiàn)實環(huán)境中的適應性、決策可靠性和泛化能力。

持續(xù)學習:在機器人應用中,持續(xù)學習對于在不同環(huán)境中部署機器人學習策略至關(guān)重要,但它仍然是一個很大程度上未被探索的領域。雖然最近的一些研究考察了持續(xù)學習的子主題,如增量學習、快速運動適應和人類在環(huán)學習,但這些解決方案通常是為單一任務或平臺設計的,還沒有考慮基礎模型。開放式研究問題和可行的方法包括:1)在對最新數(shù)據(jù)進行微調(diào)時,將不同比例的先驗數(shù)據(jù)分布混合到所有災難性遺忘中,2)從先驗分布或課程中開發(fā)高效的原型,用于學習新任務時的任務推理,3)提高在線學習算法的訓練穩(wěn)定性和樣本效率,4)確定將大容量模型無縫整合到控制框架中的原則性方法,可能通過分層學習或慢速快速控制,用于實時推理。

統(tǒng)一評估基準:雖然存在許多用于評估低級控制策略的基準,但它們在評估的技能方面往往存在很大差異。此外,這些基準測試中包含的對象和場景通常受到模擬器約束的限制。為了全面評估實體模型,需要使用逼真的模擬器進行包含各種技能的基準測試。關(guān)于高級任務規(guī)劃者,許多基準側(cè)重于通過問答任務評估規(guī)劃能力。然而,一種更可取的方法是同時評估高級任務規(guī)劃器和低級控制策略,以執(zhí)行長期任務并衡量成功率,而不是僅僅依賴于對規(guī)劃器的孤立評估。這種綜合方法對嵌入式人工智能系統(tǒng)的能力進行了更全面的評估。

結(jié)論

具身人工智能使智能體能夠感知和交互來自網(wǎng)絡空間和物理世界的各種物體,這對實現(xiàn)AGI具有重要意義。本次調(diào)查廣泛回顧了具身機器人、模擬器、四種具有代表性的具身任務:視覺主動感知、具身交互、具身代理和模擬現(xiàn)實機器人控制,以及未來的研究方向。對具身機器人、模擬器、數(shù)據(jù)集和方法的比較總結(jié)清晰地展示了具身人工智能的最新發(fā)展,這極大地有利于沿著這一新興和有前景的研究方向進行未來的研究。

參考

[1] Aligning Cyber Space with Physical World: A Comprehensive Survey on Embodied AI

    本站是提供個人知識管理的網(wǎng)絡存儲空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點。請注意甄別內(nèi)容中的聯(lián)系方式、誘導購買等信息,謹防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點擊一鍵舉報。
    轉(zhuǎn)藏 分享 獻花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多