午夜视频在线网站,日韩视频精品在线,中文字幕精品一区二区三区在线,在线播放精品,1024你懂我懂的旧版人,欧美日韩一级黄色片,一区二区三区在线观看视频

分享

曠視AutoML首次曝光!孫劍、危夷晨團(tuán)隊最新力作,效果超谷歌

 taotao_2016 2019-04-02



來源:曠視研究院

編輯:肖琴、張乾

【新智元導(dǎo)讀】曠視科技孫劍團(tuán)隊首次披露AutoML相關(guān)成果,通過構(gòu)建一個簡化的超網(wǎng)絡(luò)來解決訓(xùn)練過程中面對的主要挑戰(zhàn)。在在ImageNet上的實驗結(jié)果超過了谷歌、Facebook等AutoML技術(shù)的成績。

曠視首次曝光自家AutoML技術(shù)。

今天,曠視科技首席科學(xué)家孫劍團(tuán)隊發(fā)布論文Single Path One-Shot Neural Architecture Search with Uniform Sampling,首次披露AutoML中的重要子領(lǐng)域神經(jīng)結(jié)構(gòu)搜索的最新成果——單路徑One-Shot模型。

單路徑One-Shot模型用來解決訓(xùn)練過程中面對的主要挑戰(zhàn),其核心思想是構(gòu)建一個簡化的超網(wǎng)絡(luò)——單路徑超網(wǎng)絡(luò)(Single Path Supernet),這個網(wǎng)絡(luò)按照均勻的路徑采樣方法進(jìn)行訓(xùn)練,在ImageNet上的實驗證明,這一方法在精度、內(nèi)存消耗、訓(xùn)練時間、模型搜索的有效性及靈活性方面結(jié)果最優(yōu),超過了谷歌、Facebook等公司AutoML技術(shù)的成績。

設(shè)計神經(jīng)網(wǎng)絡(luò)非常耗費時間,并且需要專業(yè)知識,幾年前谷歌創(chuàng)建了AutoML的方法,通常使用強化學(xué)習(xí)或進(jìn)化算法來設(shè)計新的神經(jīng)網(wǎng)絡(luò)架構(gòu),也證明神經(jīng)網(wǎng)絡(luò)可以設(shè)計神經(jīng)網(wǎng)絡(luò)。

論文的作者之一、曠視上海研究院負(fù)責(zé)人危夷晨表示,深度學(xué)習(xí)是非常通用的技術(shù),但在實際落地時會面臨在不同行業(yè)、不同場景、不同計算設(shè)備上尋找最優(yōu)算法和工程實現(xiàn)的問題。自動神經(jīng)網(wǎng)絡(luò)搜索是用“計算換智能”的新范式,可以極大地加速我們的產(chǎn)品及解決方案在各行業(yè)的落地。

單路徑One-Shot模型:模型搜索框架的新變體

深度學(xué)習(xí)終結(jié)了手工設(shè)計特征的時代,同時解決了權(quán)重優(yōu)化問題。NAS(神經(jīng)網(wǎng)絡(luò)模型搜索)則旨在通過另一個方法——模型搜索(architecture search),終結(jié)人工設(shè)計架構(gòu)。

早期的NAS方法使用嵌套式優(yōu)化,從搜索空間采樣出模型結(jié)構(gòu),接著從頭訓(xùn)練其權(quán)重,缺點是對于大型數(shù)據(jù)集來講計算量過大。新近的NAS方法則采用權(quán)重共享策略減少計算量。本文提出的超網(wǎng)絡(luò)則包含所有子結(jié)構(gòu),只訓(xùn)練一次,所有子結(jié)構(gòu)便可以直接從超網(wǎng)絡(luò)獲得其權(quán)重,無需從頭訓(xùn)練。即使在大型數(shù)據(jù)集上,計算也十分高效。

大多數(shù)權(quán)重共享方法使用連續(xù)的搜索空間,將模型結(jié)構(gòu)分布不斷參數(shù)化。這些參數(shù)在超網(wǎng)絡(luò)訓(xùn)練期間與網(wǎng)絡(luò)權(quán)重進(jìn)行聯(lián)合優(yōu)化。因此可以在優(yōu)化時進(jìn)行模型搜索,從分布中采樣最優(yōu)的架構(gòu)。其公式化表示優(yōu)雅而理論完備。但是存在兩個問題:

第一,超網(wǎng)絡(luò)的權(quán)重深度耦合。目前尚不清楚為什么特定結(jié)構(gòu)的復(fù)用權(quán)重(inherited weights)依然有效。

第二,聯(lián)合優(yōu)化導(dǎo)致了模型參數(shù)和超網(wǎng)絡(luò)權(quán)重的進(jìn)一步耦合。梯度方法的貪婪天性不可避免地在結(jié)構(gòu)分布和超網(wǎng)絡(luò)權(quán)重中引入偏差。這很容易誤導(dǎo)模型搜索。精細(xì)地微調(diào)超參數(shù)和優(yōu)化過程被用于先前方法之中。

One-shot(一步法)是一種新范式。它定義了超網(wǎng)絡(luò),并以相似的方式做權(quán)重復(fù)用。但是并沒有將模型結(jié)構(gòu)分布參數(shù)化。模型搜索從超網(wǎng)絡(luò)訓(xùn)練中解耦,并且解決步驟是獨立的。因此,One-shot具有序列性。它結(jié)合了上述嵌套式和聯(lián)合式優(yōu)化方法的優(yōu)點,因此靈活而高效。

盡管第二個問題已解決,現(xiàn)有One-shot并未很好地解決第一個問題。超網(wǎng)絡(luò)的權(quán)重依然耦合。優(yōu)化依然復(fù)雜,并包含敏感的超參數(shù),導(dǎo)致在大型數(shù)據(jù)集上表現(xiàn)欠佳。

曠視提出方法的動機(jī)旨在吸收One-shot的優(yōu)點,克服其缺點。One-shot成功的關(guān)鍵是使用復(fù)用權(quán)重的模型的精度可以用來預(yù)測從頭訓(xùn)練模型的精度。因此,曠視研究院提出,超網(wǎng)絡(luò)訓(xùn)練應(yīng)是隨機(jī)的。這樣所有子結(jié)構(gòu)的權(quán)重能夠被同時且均勻地優(yōu)化。

為減少超網(wǎng)絡(luò)的權(quán)重耦合,曠視研究院提出一個單路徑超網(wǎng)絡(luò),在每次迭代訓(xùn)練中只有單路徑結(jié)構(gòu)被激活。訓(xùn)練中不需要任何超參數(shù)來指導(dǎo)子結(jié)構(gòu)的選擇,采用均勻采樣的方式,平等對待所有子結(jié)構(gòu)。

本文方法簡單而靈活,超網(wǎng)絡(luò)訓(xùn)練中沒有超參數(shù)。其簡易性允許設(shè)計豐富的搜索空間,包括新設(shè)計通道單元和位寬單元。模型搜索過程十分高效,因為只需要基于超網(wǎng)絡(luò)的權(quán)重進(jìn)行前向計算。進(jìn)化算法則用來輕松支持多種約束。

綜合性消融實驗及在大型數(shù)據(jù)集(ImageNet)上的實驗證明了這一方法在精度、內(nèi)存消耗、訓(xùn)練時間、模型搜索的有效性及靈活性方面都表現(xiàn)良好,達(dá)到了當(dāng)前最優(yōu)的結(jié)果。

方法詳解

如上所述,耦合式模型搜索和權(quán)重優(yōu)化是存在挑戰(zhàn)和問題的。通過回顧發(fā)現(xiàn),早期使用嵌套優(yōu)化的 NAS 方法在于解決公式 (1) 和 (2) 的優(yōu)化問題,這不禁引起思考,問題解耦和權(quán)重共享的優(yōu)點是否可以兼得?

這一考慮誕生了所謂的 One-shot 。這些方法依然只訓(xùn)練一次超網(wǎng)絡(luò),并允許各結(jié)構(gòu)共享其中的權(quán)重。

但是,超網(wǎng)絡(luò)訓(xùn)練及模型搜索作為先后次序的兩個步驟是解耦的。請注意,這不同于嵌套優(yōu)化或聯(lián)合優(yōu)化。

首先,超網(wǎng)絡(luò)權(quán)重被優(yōu)化為:

相比公式 (4) 

公式 (5) 已經(jīng)不存在搜索空間的連續(xù)參數(shù)化,只有網(wǎng)絡(luò)權(quán)重被優(yōu)化。

其次,搜索部分被表示為:

公式 (6) 與公式 (1) 、 (2) 的最大區(qū)別是其權(quán)重是預(yù)先初始化的。評估僅需要推理。沒有微調(diào)或者再訓(xùn)練。因此搜索非常有效。

通過借助進(jìn)化算法,搜索同樣非常靈活。像等式 (3)

對模型結(jié)構(gòu)進(jìn)行的約束可以精確地滿足。并且一旦訓(xùn)練好一個超網(wǎng)絡(luò),可在同一超網(wǎng)絡(luò)內(nèi)基于不同約束(比如 100ms 和 200ms 延遲)重復(fù)搜索。這些特性是先前方法所缺失的,將使 One-Shot NAS 方法對實際任務(wù)更具吸引力。

但依然存在一個問題。在等式 (5) 中,超網(wǎng)絡(luò)訓(xùn)練的圖節(jié)點權(quán)重是耦合的,復(fù)用權(quán)重是否適用于任意子結(jié)構(gòu)尚不清楚。

單路徑超網(wǎng)絡(luò)和均勻采樣

按照基本原理重新出發(fā),會使 One-Shot 范式更有效。在等式 (5) 中,模型搜索成功的關(guān)鍵在于,在驗證集中,使用復(fù)用權(quán)重(沒有額外的微調(diào))的任意子結(jié)構(gòu)的精度是高度可信的。正如等式 (1) 是理想情況,需要權(quán)重近似最優(yōu)權(quán)重。近似的效果和訓(xùn)練損失函數(shù)被最小化的程度成正比。這推導(dǎo)出一個原則:超網(wǎng)絡(luò)權(quán)重的優(yōu)化應(yīng)當(dāng)與搜索空間中所有子結(jié)構(gòu)的優(yōu)化同時進(jìn)行。這可表示為:

請注意,等式 (7) 是等式 (5) 的實現(xiàn)。在優(yōu)化的每一步中,子結(jié)構(gòu)是隨機(jī)采樣的,只有對應(yīng)的權(quán)重被激活和更新。這不僅節(jié)省內(nèi)存空間,而且高效。由此,超網(wǎng)絡(luò)本身不再是一個有效的網(wǎng)絡(luò),而變成一個隨機(jī)的網(wǎng)絡(luò)。

為減少節(jié)點權(quán)重之間的協(xié)同適應(yīng),曠視研究院提出最大化簡化搜索空間。它只包含單一路徑架構(gòu),如圖 1 所示。

圖 1:單一路徑超網(wǎng)絡(luò)架構(gòu)圖

在每次訓(xùn)練時僅保留一個。不存在任何調(diào)優(yōu)。訓(xùn)練在本文實驗中收斂良好。

先驗分布很重要。曠視研究員通過實驗發(fā)現(xiàn),均勻采樣已經(jīng)足夠好。這并不讓人驚訝。這是因為實際任務(wù)常常期望有多個模型結(jié)構(gòu),以滿足不同的約束。圖 2 表明,兩個采樣方法皆工作良好,均勻約束采樣方法表現(xiàn)稍好,本文默認(rèn)使用它。

 圖 2:不同采樣策略的單路徑超網(wǎng)絡(luò)的進(jìn)化模型搜索

本文注意到,在優(yōu)化時根據(jù)結(jié)構(gòu)分布采樣一個路徑已經(jīng)出現(xiàn)在之前的權(quán)重共享方法之中,區(qū)別在于,在本文的訓(xùn)練中(等式(7))分布是一個固定的先驗,而在先前方法中,它是可學(xué)習(xí)和更新的(等式(4)),后者會使超網(wǎng)絡(luò)權(quán)重和結(jié)構(gòu)參數(shù)優(yōu)化高度關(guān)聯(lián)。

請注意,本文并未聲明在訓(xùn)練時一個固定的先驗分布天生優(yōu)于優(yōu)化分布。不存在這樣的理論保證。本文更優(yōu)的結(jié)果可能是受益于這一事實:當(dāng)前優(yōu)化技術(shù)的成熟度不足以滿足等式 (4) 中的聯(lián)合優(yōu)化需求。

超網(wǎng)絡(luò)與選擇單元

選擇單元用于構(gòu)建一個超網(wǎng)絡(luò)。圖 1 給出了一個實例。一個選擇單元包含多個選擇。對于本文提出的單路徑超網(wǎng)絡(luò),每個選擇單元一次只調(diào)用一個選擇。一個路徑的獲得是通過隨機(jī)采樣所有選擇單元實現(xiàn)的。

本文方法的簡易性允許定義不同類型的選擇單元,以搜索不同的結(jié)構(gòu)變量。具體而言,曠視研究院提出兩個全新的選擇單元,以支持復(fù)雜的搜索空間。

通道數(shù)搜索。選擇單元旨在搜索一個卷積層的通道數(shù)。其主要思想是預(yù)先分配一個帶有最大通道數(shù)的權(quán)重張量。在超網(wǎng)絡(luò)訓(xùn)練期間,系統(tǒng)隨機(jī)選擇通道數(shù)并分割出用于卷積的相應(yīng)的子張量。詳見下圖。

圖 4:用于通道數(shù)搜索的選擇單元

混合精度量化搜索。選擇單元可以搜索卷積層權(quán)重和特征的量化精度。在超網(wǎng)絡(luò)訓(xùn)練中,特征圖的位寬和和權(quán)重被隨機(jī)選取。詳見下圖。

圖 5:用于混合精度量化搜索的選擇單元

基于進(jìn)化算法的模型搜索

針對等式 (6) 中的模型搜索,先前的One-shot工作使用隨機(jī)搜索。這在大的搜索空間中并不奏效。因此,本文使用了進(jìn)化算法,同時揚棄了從頭開始訓(xùn)練每個子結(jié)構(gòu)的缺點,只涉及推理部分,因此非常高效。詳見下圖。

算法 1:基于進(jìn)化算法的模型搜索

下圖描繪了使用進(jìn)化算法和隨機(jī)搜索兩種方法在進(jìn)化迭代時的驗證集精度。很明顯進(jìn)化算法搜索更有效。

圖 3:進(jìn)化算法搜索對比隨機(jī)搜索

進(jìn)化算法可以靈活處理等式 (3) 的不同約束,因為變異和交叉過程是可控的,以產(chǎn)生滿足約束條件的合適候選。

總結(jié)

單路徑超網(wǎng)絡(luò)、均勻采樣訓(xùn)練策略、基于進(jìn)化算法的模型搜索、豐富的搜索空間設(shè)計,上述多種設(shè)計使得本文方法簡單、高效和靈活。下表給出了本文方法與其他權(quán)重共享方法的一個全方位、多維度對比結(jié)果。

 表 1:本文方法對比當(dāng)前權(quán)重共享 SOTA 方法

實驗

所有實驗是在 ImageNet 上進(jìn)行的。驗證集和測試集的設(shè)定遵從Proxyless NAS。對于超網(wǎng)絡(luò)的訓(xùn)練,以及(進(jìn)化搜索之后)最優(yōu)模型結(jié)構(gòu)的從頭再訓(xùn)練。

構(gòu)造單元搜索

構(gòu)造單元(building block)的設(shè)計靈感來自手工設(shè)計網(wǎng)絡(luò)的代表作——ShuffleNet v2。表 2 給出了超網(wǎng)絡(luò)的整體架構(gòu)。共有 20 個選擇單元。

表 2:超網(wǎng)絡(luò)架構(gòu)

表 3 給出了結(jié)果。為了對比,本文設(shè)置了一系列基線,如下:1)只選擇一個特定的單元選擇;2)從搜索空間中隨機(jī)選擇一些候選;3)使用隨機(jī)搜索替代本文的進(jìn)化算法模型搜索。

表 3:構(gòu)造單元搜索結(jié)果

通道數(shù)搜索

搜索卷積層的通道數(shù)非常有挑戰(zhàn),如圖 4 所示,本文提出一個全新的選擇單元用于通道數(shù)搜索,并首先在基線結(jié)構(gòu) “all choice 3”(見表 3)做了評估,結(jié)果如表 4 (第一部分)所示;為進(jìn)一步提升精度,本文對構(gòu)造單元和通道做了聯(lián)合搜索。結(jié)果如表 4(第二部分)所示。

表 4:通道數(shù)搜索

對比SOTA方法

雖然表 4 展示了本文方法的優(yōu)越性,但是由于搜索空間和訓(xùn)練方法的不同,存在不公平對比的可能性。為直接進(jìn)行對比,本文采用和 Proxyless NAS、FBNet相同的搜索空間,并在同一設(shè)置下再訓(xùn)練已搜索的模型,具體對比結(jié)果如表 5 所示:

表 5:本文方法與當(dāng)前 SOTA NAS 方法的對比

混合精度量化搜索

低功率設(shè)備部署模型時需要用到量化技術(shù)。但是在通道數(shù)與位寬之間找到一個權(quán)衡不無挑戰(zhàn)。對于這些問題,本文方法可迎刃而解。

這里的搜索空間包含上述的通道搜索空間和混合精度量化搜索空間,后者使用一個全新的選擇單元搜索權(quán)重和特征圖的位寬,如圖 5 所示。

在超網(wǎng)絡(luò)訓(xùn)練中,對于每個選擇單元,特征位寬和權(quán)重位寬是隨機(jī)采樣的。他們在進(jìn)化步驟中被確定。具體實驗結(jié)果如表 6 所示:

表 6:混合精度量化搜索的結(jié)果

搜索成本分析

搜索成本在 NAS 中是一件要緊的事。本文給出了與先前方法 [4] [26] 的一些對比結(jié)果,如表 7 所示:

表 7:搜索成本

論文地址:

https:///abs/1904.00420



【2019 新智元 AI 技術(shù)峰會精彩回顧

2019 年 3 月 27 日,新智元再匯 AI 之力,在北京泰富酒店舉辦 AI 開年盛典 ——2019 新智元 AI 技術(shù)峰會。峰會以 “智能云?芯世界 “為主題,聚焦智能云和 AI 芯片的發(fā)展,重塑未來 AI 世界格局。

同時,新智元在峰會現(xiàn)場權(quán)威發(fā)布若干 AI 白皮書,聚焦產(chǎn)業(yè)鏈的創(chuàng)新活躍,評述 AI 獨角獸影響力,助力中國在世界級的 AI 競爭中實現(xiàn)超越。



    本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點擊一鍵舉報。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多