午夜视频在线网站,日韩视频精品在线,中文字幕精品一区二区三区在线,在线播放精品,1024你懂我懂的旧版人,欧美日韩一级黄色片,一区二区三区在线观看视频

分享

大模型技術(shù)在自動駕駛中的應(yīng)用

 mrjiangkai 2023-06-24 發(fā)布于上海
2023-06-20 14:02·汽車動力總成號

一、人工智能與大模型技術(shù)

人工智能(Artificial Intelligence,簡稱AI)是一種計算機科學(xué)技術(shù),旨在使計算機能夠模仿、學(xué)習(xí)和執(zhí)行人類智能任務(wù)。它涉及到多個不同的子領(lǐng)域,包括機器學(xué)習(xí)、自然語言處理、計算機視覺和強化學(xué)習(xí)等。通過使用大數(shù)據(jù)、算法、神經(jīng)網(wǎng)絡(luò)等技術(shù),人工智能可以通過分析和理解數(shù)據(jù)來建立模型,并對新數(shù)據(jù)進(jìn)行決策和預(yù)測,從而實現(xiàn)某些特定的任務(wù)。與傳統(tǒng)計算機程序不同的是,人工智能可以根據(jù)以前的經(jīng)驗和學(xué)習(xí)來改進(jìn)自己的性能,在某些情況下能夠比人類更準(zhǔn)確和高效地完成任務(wù)。人工智能被廣泛應(yīng)用于各種領(lǐng)域,例如醫(yī)療保健、金融、交通運輸、制造業(yè)、社交媒體、游戲和安全等。

大模型通常指的是由數(shù)億至數(shù)千億個參數(shù)組成的深度學(xué)習(xí)模型。這些模型需要巨大的計算資源和存儲空間,因此非常昂貴且能夠運行的硬件配置也要足夠強大。大型模型代表了人工智能領(lǐng)域最先進(jìn)的技術(shù),廣泛應(yīng)用于自然語言處理、圖像識別、語音識別和推薦系統(tǒng)等領(lǐng)域。擁有更多的參數(shù)可以提高模型的準(zhǔn)確性和精度,但同時也會導(dǎo)致更復(fù)雜的訓(xùn)練過程、更長的訓(xùn)練時間和更高的硬件成本。GPT-3就是一種例子,它具有1750億個參數(shù),在人工智能技術(shù)中占據(jù)著重要的地位。

二、神經(jīng)網(wǎng)絡(luò)算法與大模型

神經(jīng)網(wǎng)絡(luò)(Neural Network)是一種復(fù)雜的數(shù)學(xué)模型,建立在類比生物大腦神經(jīng)元之間傳遞信息的基礎(chǔ)上。它由許多相互連接并按層次結(jié)構(gòu)排列的處理單元組成,這些單元稱為“神經(jīng)元”。神經(jīng)網(wǎng)絡(luò)通過輸入數(shù)據(jù)、計算和傳遞信號來進(jìn)行訓(xùn)練,以便預(yù)測或分類未知的數(shù)據(jù)。

神經(jīng)網(wǎng)絡(luò)被廣泛應(yīng)用于圖像識別、語音識別、自然語言處理等領(lǐng)域,具有很強的學(xué)習(xí)和適應(yīng)能力。在神經(jīng)網(wǎng)絡(luò)中,不同層次的神經(jīng)元會對輸入數(shù)據(jù)進(jìn)行各種變換和篩選,從而提取出不同級別的特征,以便對其進(jìn)行進(jìn)一步的分析和處理。通過反向傳播算法(backpropagation),神經(jīng)網(wǎng)絡(luò)可以根據(jù)輸出誤差調(diào)整每個神經(jīng)元之間的連接權(quán)重,從而持續(xù)優(yōu)化模型的性能。

神經(jīng)網(wǎng)絡(luò)算法有很多,以下是其中一些常用的:

1.反向傳播算法(Backpropagation):通過計算輸出誤差并反向逐層調(diào)整權(quán)重和偏差,以最小化誤差來訓(xùn)練網(wǎng)絡(luò)。

2.卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network, CNN):專門用于處理圖像和視頻等數(shù)據(jù)的神經(jīng)網(wǎng)絡(luò),包括卷積層、池化層和全連接層等組成部分。

3.循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network, RNN):具有序列記憶能力的神經(jīng)網(wǎng)絡(luò),可以對連續(xù)的輸入數(shù)據(jù)進(jìn)行處理,并自動更新狀態(tài)。

4.長短時記憶網(wǎng)絡(luò)(Long Short-Term Memory, LSTM):一種特殊的RNN模型,可克服傳統(tǒng)RNN面臨的梯度消失問題,適用于學(xué)習(xí)長期依賴關(guān)系。

5.生成對抗網(wǎng)絡(luò)(Generative Adversarial Networks, GANs):由生成器和判別器兩個對抗模型組成,通過不斷優(yōu)化,使生成器生成足夠真實的數(shù)據(jù),從而欺騙判別器認(rèn)為其為真實數(shù)據(jù)。

6.自編碼器(Autoencoder):利用一個編碼器將輸入數(shù)據(jù)壓縮為潛在表示,再使用一個解碼器將其還原為原始數(shù)據(jù),可以用于特征提取、降噪和圖像增強等領(lǐng)域。

以上是常見的一些神經(jīng)網(wǎng)絡(luò)算法,每個算法都有不同的應(yīng)用場景和優(yōu)缺點。

三、國外大模型技術(shù)在自動駕駛中的應(yīng)用

在自動駕駛領(lǐng)域,大模型的應(yīng)用可以提高自動駕駛系統(tǒng)的感知與決策等方面的能力。具體來說,大模型可以通過先前建立于大量真實交通數(shù)據(jù)上的預(yù)訓(xùn)練,在車輛、行人、道路標(biāo)志、紅綠燈等多種場景下自動生成語義信息,進(jìn)而充分理解并掌握城市交通中各種復(fù)雜情境,從而有效地提升自動駕駛車輛的安全性和可靠性。

例如,大規(guī)模預(yù)訓(xùn)練的模型可以被用來檢測行人、障礙物、車輛等,以及進(jìn)行精確的路標(biāo)識別和交通信號判斷,在自動駕駛系統(tǒng)中大大提高了感知系統(tǒng)的準(zhǔn)確性;另外,大模型也可以被應(yīng)用于路徑規(guī)劃、車速控制、轉(zhuǎn)向、制動等決策過程,從而更好地適應(yīng)不同的路況和特定場景(如高速公路、城市交通擁堵等)。總之,大模型作為一種強大的AI技術(shù),在自動駕駛領(lǐng)域中具有非常巨大的潛力。

許多汽車公司正在探索如何利用大模型在自動駕駛領(lǐng)域中提高車輛的安全性和可靠性,以下是其中一些主要的汽車公司:

特斯拉(Tesla):特斯拉利用深度學(xué)習(xí)技術(shù)來實現(xiàn)自動駕駛功能,并采用了大量的神經(jīng)網(wǎng)絡(luò)模型。

Waymo:Waymo 是 Alphabet 旗下的一家自動駕駛子公司,在車輛的感知、決策和控制等方面均應(yīng)用了大規(guī)模的深度學(xué)習(xí)模型。

英偉達(dá)(Nvidia):英偉達(dá)開發(fā)并銷售了一種名為 NVIDIA DRIVE 的平臺,它包括處理器和軟件工具,可用于構(gòu)建自動駕駛汽車所需的各種計算機視覺、計算機圖形學(xué)和媒體處理應(yīng)用程序,包括大規(guī)模深度學(xué)習(xí)模型。

Mobileye 也是自動駕駛技術(shù)的龍頭企業(yè)之一,其使用了基于深度學(xué)習(xí)的算法、傳感器與定位技術(shù)等,支持各種不同類型的自動駕駛場景。

通用汽車(General Motors):通用汽車正在與 Cruise 合作,通過深度學(xué)習(xí)技術(shù)來提高自動駕駛汽車的性能。

奔馳(Mercedes-Benz):奔馳推出名為 Mercedes-Benz Intelligent Drive 的方案,該方案基于神經(jīng)網(wǎng)絡(luò)技術(shù),可為車輛提供先進(jìn)的自動駕駛功能。

斯巴魯(Subaru):斯巴魯正在開發(fā)名為 EyeSight 的自動駕駛技術(shù)平臺,其中包括大量的深度學(xué)習(xí)算法,可以幫助車輛實現(xiàn)更準(zhǔn)確的感知和決策。

四、大模型如何應(yīng)用于自動駕駛

算法是決定自動駕駛車輛感知能力的核心要素。當(dāng)前主流的自動駕駛模型框架分為感知、規(guī)劃決策和執(zhí)行三部分。感知模塊是自動駕駛系統(tǒng)的眼睛,核心任務(wù)包括對采集圖像進(jìn)行檢測、分割等,是后續(xù)決策層的基礎(chǔ),決定了整個自動駕駛模型的上限,在自動駕駛系統(tǒng)中至關(guān)重要。感知模塊硬件部分主要為傳感器,軟件為感知算法,其中算法是決定自動駕駛車輛感知能力的核心要素。

神經(jīng)網(wǎng)絡(luò)模型的應(yīng)用驅(qū)動感知算法高速發(fā)展,具體可以分為兩類,一類是以CNN、RNN為代表的小模型,另一類是Transformer 大模型。

在自動駕駛感知模塊中輸入數(shù)據(jù)為圖像,而圖像具有高維數(shù)(對比時間序列通常只是一維向量),對其識別時需要設(shè)置大量輸入神經(jīng)元以及多個中間層,模型參數(shù)量大難以訓(xùn)練且消耗算力高,并可能帶來過擬合的問題,基于這種思想,CNN卷積神經(jīng)網(wǎng)絡(luò)應(yīng)運而生,本質(zhì)上是在信息傳入傳統(tǒng)神經(jīng)網(wǎng)絡(luò)前先做一個特征的提取并進(jìn)行數(shù)據(jù)降維,因此CNN 圖像處理高緯度向量的任務(wù)上更加高效。CNN 能夠高效率處理圖像任務(wù)的關(guān)鍵在于其通過卷積層、池化層操作實現(xiàn)了降維,模型需要訓(xùn)練的參數(shù)量相比于 DNN 來說大幅降低,對硬件算力的要求也相對降低。CNN 能夠高效率處理圖像任務(wù)的關(guān)鍵在于其通過卷積層、池化層操作實現(xiàn)了降維,模型需要訓(xùn)練的參數(shù)量相比于 DNN 來說大幅降低,對硬件算力的要求也相對降低。

在自動駕駛場景下,感知還需要時序的信息來完成目標(biāo)跟蹤以及視野盲區(qū)預(yù)測等感知任務(wù)。循環(huán)神經(jīng)網(wǎng)絡(luò) RNN 與 CNN 一樣都是傳統(tǒng)神經(jīng)網(wǎng)絡(luò)的擴(kuò)展,相比于 CNN 在空間上進(jìn)行拓展,RNN 是在時間上的擴(kuò)展,可以用于描述時間上連續(xù)輸出的狀態(tài)。例如自動駕駛場景中可能會出現(xiàn)前方大卡車造成遮擋,如果要判斷視野盲區(qū)里是否有行人就需要結(jié)合被卡車遮擋前的信息,由此需要引入循環(huán)神經(jīng)網(wǎng)絡(luò) RNN 對時序信息進(jìn)行處理。

RNN 與 DNN 在結(jié)構(gòu)上相近,區(qū)別在于 RNN 在隱藏層引入“循環(huán)”,即每一個隱藏層上的每一個記憶體(本質(zhì)就是感知機)都與上一個時刻隱藏層上的所有記憶連接,這意味著某一時刻網(wǎng)絡(luò)的輸出除了與當(dāng)前時刻的輸入相關(guān),還與之前某一時刻或某幾個時刻的輸出相關(guān)。引入了循環(huán)的隱藏層叫做循環(huán)核,RNN 借助循環(huán)核提取時間特征,從而引入了時序上的相關(guān)性實現(xiàn)連續(xù)數(shù)據(jù)的預(yù)測。但是RNN 的局限主要在于:1)循環(huán)核需要存儲,意味著硬件需要具備更大的緩存。同時記憶體個數(shù)越多存儲歷史狀態(tài)信息的能力越強、訓(xùn)練效果越好,但需要訓(xùn)練的參數(shù)量、消耗的資源也越多,二者共同制約 RNN,使其難以學(xué)到長時間距離的依賴關(guān)系。2)RNN 并行能力受限,由于某一時刻網(wǎng)絡(luò)的輸出不但與當(dāng)前時刻的輸入相關(guān),還與上一時刻的輸出結(jié)果相關(guān),因此 RNN 無法進(jìn)行并行計算,使得計算效率非常受限。

Transformer 大模型的注意力機制成為自動駕駛感知算法的利器,它關(guān)鍵在于計算輸入序列元素之間的關(guān)系權(quán)重,通過引入注意力(attention)機制。可以對注意力(attention)機制直觀理解為“只關(guān)注重要的信息而非全部信息”,比如當(dāng)我們視線掃過大片文字,注意力會停留在其中的關(guān)鍵詞及關(guān)鍵詞之間的邏輯關(guān)聯(lián)上,而對其余信息則印象不深。自注意力機制中,Q、K、V 三個參數(shù)來自于同一個輸入序列,用序列中所有元素向量的加權(quán)和來代表某一個元素的向量,因此自注意力機制可以捕捉輸入數(shù)據(jù)中的長距離依賴關(guān)系,常用于特征提取。

所謂“多頭注意力機制”是一種并行計算的注意力方法,它將輸入數(shù)據(jù)分成多個部分(稱為“頭”),然后分別計算各部分的注意力得分。這樣做的好處是,不同的頭可以關(guān)注輸入數(shù)據(jù)的不同部分,從而捕捉到更多的特征。交叉注意力機制與自注意力機制的計算過程類似,核心區(qū)別在于交叉注意力機制中 Q 和 K/V 的來源不同,因此常被用來做不同序列之間的轉(zhuǎn)換。Transformer 憑借優(yōu)秀的長序列處理能力和更高的并行計算效率,2021 年由特斯拉引入自動駕駛領(lǐng)域。Transformer 與 CNN 相比最大的優(yōu)勢在于其泛化性更強。

感知可粗略分為獲取數(shù)據(jù)、提取特征、完成感知任務(wù)三個環(huán)節(jié),按照信息融合發(fā)生的環(huán)節(jié)自動駕駛感知技術(shù)可以分為前融合、特征融合以及后融合。特征級融合逐步取代后融合,BEV Transformer 為當(dāng)前主流方案;特征級融合方案相比于后融合數(shù)據(jù)損失小、相比于前融合的算力消耗低,自動駕駛感知技術(shù)從后融合向特征級融合迭代趨勢明確,目前主流的方案是在 3/4D 空間中進(jìn)行特征級融合。BEV(Bird's Eye View)鳥瞰圖也可以稱之為“上帝視角”,是一種用于描述感知世界的坐標(biāo)系,在 BEV 空間中可以進(jìn)行自動駕駛感知模塊的前融合、特征級融合或者后融合。BEV 鳥瞰圖僅是一種對感知世界的表達(dá)方式,因此其也可廣泛應(yīng)用在純視覺方案、多傳感器融合方案以及車路協(xié)同方案中。

在 BEV 空間中做特征級融合早期的代表性算法為英偉達(dá) 2020 年提出的 LSS 算法,是基于深度分布估計進(jìn)行 BEV 空間轉(zhuǎn)換的開山之作。Transformer 交叉注意力機制對于 BEV 空間轉(zhuǎn)換任務(wù)適配性較高,目前成為特斯拉、小鵬等 自動駕駛廠商主流的技術(shù)方案。下圖為特斯拉基于 Transformer 的 BEV 空間轉(zhuǎn)換架構(gòu)。高精地圖能夠提供超視距、厘米級相對定位及導(dǎo)航信息,在數(shù)據(jù)和算法尚未成熟到脫圖之前,尤其針對國內(nèi)的復(fù)雜路況,其對主機廠實現(xiàn)高階自動駕駛功能具有重要意義,現(xiàn)階段國內(nèi)主機廠實現(xiàn)城市領(lǐng)航輔助駕駛落地的主要基于高精度地圖 單車感知的方案。

自動駕駛感知算法向 BEV transformer 架構(gòu)升級,助力城市領(lǐng)航輔助駕駛脫高精度地圖。特斯拉 BEV 感知模型為特征級融合,極大的提高了模型在極端天氣工況下的應(yīng)對能力,BEV 鳥瞰圖相當(dāng)于自動駕駛車輛實施生成“活地圖”,因而可以實現(xiàn)去高精度地圖化。高精度地圖方案在城市場景下缺陷明顯,特斯拉 BEV Transformer 方案為行業(yè)“脫圖”提供了技術(shù)上的可行性,很大可能“輕地圖,重感知”將成為行業(yè)發(fā)展的主流方向,而小鵬等國內(nèi)自動駕駛廠商均提出“脫圖”時間表。

在當(dāng)前自動駕駛模型架構(gòu)中將駕駛目標(biāo)劃分為感知、規(guī)劃、控制三個大的模塊,而端到端則打破模塊之間的劃分,直接輸出最終的結(jié)果?,F(xiàn)有的模型思路是感知模塊輸出 BEV 鳥瞰圖(或者 Occupancy)的結(jié)果,規(guī)劃和控制模塊再依據(jù) BEV 鳥瞰圖結(jié)果進(jìn)行預(yù)測和執(zhí)行。而在端到端(end-to-end)模型中,輸入數(shù)據(jù)是攝像頭采集的到的視頻流 raw-data,輸出數(shù)據(jù)直接是如方向盤轉(zhuǎn)角多少度的控制決策。端到端的思路更類似于人的駕駛過程,人的駕駛決策往往基于經(jīng)驗,司機駕駛車輛時并不會刻意對基于視覺/眼睛提供的信息進(jìn)行分析,即不會去判斷我看到了什么,也不會對看到的物體和狀態(tài)做分析,駕駛員固有的“經(jīng)驗”所活躍的腦質(zhì)皮層在一種“黑盒”的狀態(tài)下,完成駕駛決策,并協(xié)調(diào)耳眼手腳,共同完成駕駛?cè)蝿?wù)。

大模型技術(shù)將“場景-駕駛行為”的映射轉(zhuǎn)變?yōu)椤皥鼍?車輛控制”的“端到端”式映射。深度強化學(xué)習(xí)(DRL)結(jié)合了深度學(xué)習(xí)算法的“感知能力”和強化學(xué)習(xí)算法的“決策能力”,為復(fù)雜駕駛場景的感知決策問題提供解決方案。其中,深度學(xué)習(xí)負(fù)責(zé)復(fù)雜駕駛場景的感知和特征提取如同人類的眼睛;強化學(xué)習(xí)部分通過馬爾可夫決策過程完成推理、判斷和決策如同人腦。

五、結(jié)尾

由于自動駕駛技術(shù)一直處于高速發(fā)展的階段,許多企業(yè)都在積極探索和嘗試不同的技術(shù)手段,在未來可能有更多的汽車公司在自動駕駛領(lǐng)域中利用大模型。

    本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點擊一鍵舉報。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多