多路徑多領(lǐng)域通吃！谷歌AI發(fā)布多領(lǐng)域?qū)W習(xí)通用模型MDL

長(zhǎng)沙7喜 2022-08-15 發(fā)布于湖南

展開(kāi)全文

新智元報(bào)道

編輯：David Joey

【新智元導(dǎo)讀】研究人員提出了一種多路徑神經(jīng)架構(gòu)搜索（MPNAS）方法，為多領(lǐng)域建立一個(gè)具有異質(zhì)網(wǎng)絡(luò)架構(gòu)的統(tǒng)一模型。

面向視覺(jué)任務(wù)（如圖像分類）的深度學(xué)習(xí)模型，通常用來(lái)自單一視覺(jué)域（如自然圖像或計(jì)算機(jī)生成的圖像）的數(shù)據(jù)進(jìn)行端到端的訓(xùn)練。

一般情況下，一個(gè)為多個(gè)領(lǐng)域完成視覺(jué)任務(wù)的應(yīng)用程序需要為每個(gè)單獨(dú)的領(lǐng)域建立多個(gè)模型，分別獨(dú)立訓(xùn)練，不同領(lǐng)域之間不共享數(shù)據(jù)，在推理時(shí)，每個(gè)模型將處理特定領(lǐng)域的輸入數(shù)據(jù)。

即使是面向不同領(lǐng)域，這些模型之間的早期層的有些特征都是相似的，所以，對(duì)這些模型進(jìn)行聯(lián)合訓(xùn)練的效率更高。這能減少延遲和功耗，降低存儲(chǔ)每個(gè)模型參數(shù)的內(nèi)存成本，這種方法被稱為多領(lǐng)域?qū)W習(xí)（MDL）。

此外，MDL模型也可以優(yōu)于單領(lǐng)域模型，在一個(gè)域上的額外訓(xùn)練，可以提高模型在另一個(gè)域上的性能，這稱為「正向知識(shí)遷移」，但也可能產(chǎn)生負(fù)向知識(shí)轉(zhuǎn)移，這取決于訓(xùn)練方法和具體的領(lǐng)域組合。

雖然以前關(guān)于MDL的工作已經(jīng)證明了跨領(lǐng)域聯(lián)合學(xué)習(xí)任務(wù)的有效性，但它涉及到一個(gè)手工制作的模型架構(gòu)，應(yīng)用于其他工作的效率很低。

論文鏈接：

https:///pdf/2010.04904.pdf

為了解決這個(gè)問(wèn)題，在「Multi-path Neural Networks for On-device Multi-domain Visual Classification」一文中，谷歌研究人員提出了一個(gè)通用MDL模型。

文章表示，該模型既可以有效地實(shí)現(xiàn)高精確度，減少負(fù)向知識(shí)遷移的同時(shí)，學(xué)習(xí)增強(qiáng)正向的知識(shí)遷移，在處理各種特定領(lǐng)域的困難時(shí)，可以有效地優(yōu)化聯(lián)合模型。

為此，研究人員提出了一種多路徑神經(jīng)架構(gòu)搜索（MPNAS）方法，為多領(lǐng)域建立一個(gè)具有異質(zhì)網(wǎng)絡(luò)架構(gòu)的統(tǒng)一模型。

該方法將高效的神經(jīng)結(jié)構(gòu)搜索（NAS）方法從單路徑搜索擴(kuò)展到多路徑搜索，為每個(gè)領(lǐng)域聯(lián)合尋找一條最優(yōu)路徑。

同時(shí)引入一個(gè)新的損失函數(shù)，稱為自適應(yīng)平衡域優(yōu)先化（ABDP），它適應(yīng)特定領(lǐng)域的困難，以幫助有效地訓(xùn)練模型。由此產(chǎn)生的MPNAS方法是高效和可擴(kuò)展的。

新模型在保持性能不下降的同時(shí)，與單領(lǐng)域方法相比，模型大小和FLOPS分別減少了78%和32%。

多路徑神經(jīng)結(jié)構(gòu)搜索

為了促進(jìn)正向知識(shí)遷移，避免負(fù)向遷移，傳統(tǒng)的解決方案是，建立一個(gè)MDL模型，使各域共享大部分的層，學(xué)習(xí)各域的共享特征（稱為特征提?。缓笤谏厦娼ㄒ恍┨囟ㄓ虻膶?。

然而，這種特征提取方法無(wú)法處理具有明顯不同特征的域（如自然圖像中的物體和藝術(shù)繪畫）。另一方面，為每個(gè)MDL模型建立統(tǒng)一的異質(zhì)結(jié)構(gòu)是很耗時(shí)的，而且需要特定領(lǐng)域的知識(shí)。

多路徑神經(jīng)搜索架構(gòu)框架

NAS是一個(gè)自動(dòng)設(shè)計(jì)深度學(xué)習(xí)架構(gòu)的強(qiáng)大范式。它定義了一個(gè)搜索空間，由可能成為最終模型一部分的各種潛在構(gòu)建塊組成。

搜索算法從搜索空間中找到最佳的候選架構(gòu)，以優(yōu)化模型目標(biāo)，例如分類精度。最近的NAS方法（如TuNAS）通過(guò)使用端到端的路徑采樣，提高了搜索效率。

受TuNAS的啟發(fā)，MPNAS在兩個(gè)階段建立了MDL模型架構(gòu)：搜索和訓(xùn)練。

在搜索階段，為了給每個(gè)領(lǐng)域共同找到一條最佳路徑，MPNAS為每個(gè)領(lǐng)域創(chuàng)建了一個(gè)單獨(dú)的強(qiáng)化學(xué)習(xí)（RL）控制器，它從超級(jí)網(wǎng)絡(luò)（即由搜索空間定義的候選節(jié)點(diǎn)之間所有可能的子網(wǎng)絡(luò)的超集）中采樣端到端的路徑（從輸入層到輸出層）。

在多次迭代中，所有RL控制器更新路徑，以優(yōu)化所有領(lǐng)域的RL獎(jiǎng)勵(lì)。在搜索階段結(jié)束時(shí)，我們?yōu)槊總€(gè)領(lǐng)域獲得一個(gè)子網(wǎng)絡(luò)。

最后，所有的子網(wǎng)絡(luò)被結(jié)合起來(lái)，為MDL模型建立一個(gè)異質(zhì)結(jié)構(gòu)，如下圖所示。

由于每個(gè)域的子網(wǎng)絡(luò)是獨(dú)立搜索的，所以每一層的構(gòu)件可以被多個(gè)域共享（即深灰色節(jié)點(diǎn)），被單個(gè)域使用（即淺灰色節(jié)點(diǎn)），或者不被任何子網(wǎng)絡(luò)使用（即點(diǎn)狀節(jié)點(diǎn)）。

每個(gè)域的路徑在搜索過(guò)程中也可以跳過(guò)任何一層。鑒于子網(wǎng)絡(luò)可以以優(yōu)化性能的方式自由選擇沿路使用的區(qū)塊，輸出網(wǎng)絡(luò)既是異質(zhì)的又是高效的。

下圖展示了Visual Domain Decathlon的其中兩個(gè)領(lǐng)域的搜索架構(gòu)。

Visual Domain Decathlon是CVPR 2017中的PASCAL in Detail Workshop Challenge的一部分，測(cè)試了視覺(jué)識(shí)別算法處理（或利用）許多不同視覺(jué)領(lǐng)域的能力。

可以看出，這兩個(gè)高度相關(guān)的域（一個(gè)紅色，另一個(gè)綠色）的子網(wǎng)，從它們的重疊路徑中共享了大部分構(gòu)建塊，但它們之間仍然存在差異。

圖中紅色和綠色路徑分別代表 ImageNet 和Describable Textures的子網(wǎng)絡(luò)，深粉色節(jié)點(diǎn)代表多個(gè)域共享的塊，淺粉色節(jié)點(diǎn)代表每條路徑使用的塊。圖中的“dwb”塊代表 dwbottleneck 塊。圖中的Zero塊表示子網(wǎng)跳過(guò)該塊

下圖展示了上文提到的兩個(gè)領(lǐng)域的路徑相似性。

相似度通過(guò)每個(gè)域的子網(wǎng)之間的Jaccard相似度得分來(lái)衡量，其中越高意味著路徑越相似。

圖為十個(gè)域的路徑之間的Jaccard相似度得分的混淆矩陣。分值范圍為0到1，分值越大表示兩條路徑共享的節(jié)點(diǎn)越多。

訓(xùn)練異構(gòu)多域模型

在第二階段，MPNAS 產(chǎn)生的模型將針對(duì)所有領(lǐng)域從頭開(kāi)始訓(xùn)練。

為此，有必要為所有領(lǐng)域定義一個(gè)統(tǒng)一的目標(biāo)函數(shù)。

為了成功處理各種各樣的領(lǐng)域，研究人員設(shè)計(jì)了一種算法，該算法在整個(gè)學(xué)習(xí)過(guò)程中進(jìn)行調(diào)整，以便在各個(gè)領(lǐng)域之間平衡損失，稱為自適應(yīng)平衡領(lǐng)域優(yōu)先級(jí) (ABDP)。

下面展示了在不同設(shè)置下訓(xùn)練的模型的準(zhǔn)確率、模型大小和FLOPS。我們將MPNAS與其他三種方法進(jìn)行比較：

獨(dú)立于域的 NAS：分別為每個(gè)域搜索和訓(xùn)練模型。

單路徑多頭：使用預(yù)訓(xùn)練模型作為所有域的共享主干，每個(gè)域都有單獨(dú)的分類頭。

多頭 NAS：為所有域搜索統(tǒng)一的骨干架構(gòu)，每個(gè)域都有單獨(dú)的分類頭。

從結(jié)果中，我們可以觀察到NAS需要為每個(gè)域構(gòu)建一組模型，從而導(dǎo)致模型很大。

盡管單路徑多頭和多頭NAS可以顯著降低模型大小和FLOPS，但強(qiáng)制域共享相同的主干會(huì)引入負(fù)面的知識(shí)轉(zhuǎn)移，從而降低整體準(zhǔn)確性。

相比之下，MPNAS可以構(gòu)建小而高效的模型，同時(shí)仍保持較高的整體精度。

MPNAS的平均準(zhǔn)確率甚至比領(lǐng)域獨(dú)立的NAS方法高1.9%，因?yàn)樵撃Ｐ湍軌驅(qū)崿F(xiàn)積極的知識(shí)轉(zhuǎn)移。

下圖比較了這些方法的每個(gè)域top-1準(zhǔn)確度。

評(píng)估表明，通過(guò)使用 ABDP 作為搜索和訓(xùn)練階段的一部分，top-1 的準(zhǔn)確率從 69.96% 提高到 71.78%（增量：+1.81%）。

?未來(lái)方向

MPNAS是構(gòu)建異構(gòu)網(wǎng)絡(luò)以解決MDL中可能的參數(shù)共享策略的數(shù)據(jù)不平衡、域多樣性、負(fù)遷移、域可擴(kuò)展性和大搜索空間的有效解決方案。

通過(guò)使用類似MobileNet的搜索空間，生成的模型也對(duì)移動(dòng)設(shè)備友好。

對(duì)于與現(xiàn)有搜索算法不兼容的任務(wù)，研究人員正繼續(xù)擴(kuò)展MPNAS用于多任務(wù)學(xué)習(xí)，并希望用MPNAS來(lái)構(gòu)建統(tǒng)一的多域模型。

參考資料：

https://ai./2022/08/building-efficient-multiple-visual.html

本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間，所有內(nèi)容均由用戶發(fā)布，不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買等信息，謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請(qǐng)點(diǎn)擊一鍵舉報(bào)。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來(lái)自：長(zhǎng)沙7喜 > 《智能技術(shù)》

舉報(bào)/認(rèn)領(lǐng)