午夜视频在线网站,日韩视频精品在线,中文字幕精品一区二区三区在线,在线播放精品,1024你懂我懂的旧版人,欧美日韩一级黄色片,一区二区三区在线观看视频

分享

計(jì)算機(jī)視覺領(lǐng)域最全匯總(第2部分)

 南風(fēng)清雨 2018-10-03

摘要: 關(guān)于計(jì)算機(jī)視覺你知道的可能有些少!

計(jì)算機(jī)視覺領(lǐng)域最全匯總(第1部分)

7、紋理生成(Texture Synthesis)與風(fēng)格遷移(Style Transform)

紋理生成用于生成包含相同紋理的較大圖像。給定正常圖像和包含特定風(fēng)格的圖像,然后通過(guò)風(fēng)格遷移不僅保留圖像的原始內(nèi)容,而且將該圖像轉(zhuǎn)換為指定的風(fēng)格。

7.1:特征反演(Feature Inversion)

特征反演是紋理生成和風(fēng)格遷移背后的核心概念。給定一個(gè)中間層特征,我們希望迭代來(lái)創(chuàng)建與給定特征類似圖像。特征反演還可以告訴我們?cè)谥虚g層特征中包含多少圖像信息。

給定DxHxW的深度卷積特征,我們將它們轉(zhuǎn)換為Dx(HW)矩陣X,因此我們可以將對(duì)應(yīng)Gram矩陣定義為:G = XX ^ T

通過(guò)外積,Gram矩陣捕獲不同特征之間的關(guān)系。

7.2:紋理生成的概念

它對(duì)給定紋理圖案的Gram矩陣進(jìn)行特征逆向工程。使生成圖像的各層特征的Gram矩陣接近給定紋理圖像的各層Gram。低層特征傾向于捕獲細(xì)節(jié)信息,而高層特征可以捕獲更大面積的特征。

計(jì)算機(jī)視覺領(lǐng)域最全匯總(第2部分)

7.3:風(fēng)格遷移的概念

此優(yōu)化有兩個(gè)主要目標(biāo):第一個(gè)是使生成的圖像的內(nèi)容更接近原始圖像的內(nèi)容,而第二個(gè)是使生成的圖像的風(fēng)格與指定的風(fēng)格匹配。風(fēng)格由Gram矩陣體現(xiàn),而內(nèi)容直接由神經(jīng)元的激活值體現(xiàn)。

計(jì)算機(jī)視覺領(lǐng)域最全匯總(第2部分)

7.4:直接生成風(fēng)格遷移的圖像

上面直接生成風(fēng)格遷移的圖像的方法的缺點(diǎn)是需要多次迭代才能收斂。解決該問(wèn)題的方案是訓(xùn)練一個(gè)神經(jīng)網(wǎng)絡(luò)來(lái)直接生成風(fēng)格遷移的圖像。一旦訓(xùn)練結(jié)束,進(jìn)行風(fēng)格遷移只需前饋網(wǎng)絡(luò)一次,十分高效。在訓(xùn)練時(shí),將生成圖像、原始圖像、風(fēng)格圖像三者前饋一固定網(wǎng)絡(luò)以提取不同層特征用于計(jì)算損失函數(shù)。

計(jì)算機(jī)視覺領(lǐng)域最全匯總(第2部分)

實(shí)驗(yàn)證明,通過(guò)使用實(shí)例歸一化,風(fēng)格變換網(wǎng)絡(luò)可以移除與圖像相關(guān)的比較信息以簡(jiǎn)化生成過(guò)程。

7.5:條件示例規(guī)范化

上述方法的一個(gè)問(wèn)題是我們必須為每種不同的風(fēng)格訓(xùn)練一個(gè)單獨(dú)的模型。由于不同的風(fēng)格有時(shí)包含相似性,因此可以通過(guò)在不同風(fēng)格的風(fēng)格變換網(wǎng)絡(luò)之間共享參數(shù)來(lái)完成這項(xiàng)工作。具體來(lái)說(shuō),它更改了風(fēng)格轉(zhuǎn)換網(wǎng)絡(luò)的示例規(guī)范化,使其具有N組縮放和平移參數(shù),每個(gè)組對(duì)應(yīng)于特定風(fēng)格。這樣我們就可以從單個(gè)前饋過(guò)程中獲得N個(gè)風(fēng)格的變換圖像。

8、面部驗(yàn)證/識(shí)別

人臉驗(yàn)證/識(shí)別可以認(rèn)為是一種更加精細(xì)的細(xì)粒度圖像識(shí)別任務(wù)。人臉驗(yàn)證是給定兩張圖像、判斷其是否屬于同一個(gè)人,而人臉識(shí)別是回答圖像中的人是誰(shuí)。一個(gè)人臉驗(yàn)證/識(shí)別系統(tǒng)通常包括三大步:檢測(cè)圖像中的人臉,特征點(diǎn)定位、及對(duì)人臉進(jìn)行驗(yàn)證/識(shí)別。人臉驗(yàn)證/識(shí)別的難題在于需要進(jìn)行小樣本學(xué)習(xí)。通常情況下,數(shù)據(jù)集中每人只有對(duì)應(yīng)的一張圖像,這稱為一次性學(xué)習(xí)(one-shot learning)。

8.1:面部識(shí)別系統(tǒng)背后的概念

作為分類問(wèn)題(非常多的類別數(shù)),或作為度量學(xué)習(xí)的問(wèn)題。如果兩個(gè)圖像屬于同一個(gè)人,那么我們希望它們的深層特征非常相似。否則,它們的特征應(yīng)該不同。之后,根據(jù)深度特征之間的距離進(jìn)行驗(yàn)證或識(shí)別(k最近鄰居分類)。

8.2:DeepFace

第一個(gè)成功將深度神經(jīng)網(wǎng)絡(luò)應(yīng)用于面部驗(yàn)證/識(shí)別模型的系統(tǒng)。DeepFace使用非共享參數(shù)局部性連接。這是因?yàn)槿四樀牟煌糠志哂胁煌奶卣鳎ɡ缪劬妥齑骄哂胁煌奶卣鳎?,因此傳統(tǒng)卷積層的經(jīng)典“共享參數(shù)”不適用于面部驗(yàn)證。因此,面部識(shí)別網(wǎng)絡(luò)使用非共享參數(shù)局部性連接。它使用的孿生(Siamese network)網(wǎng)絡(luò)用于面部驗(yàn)證。當(dāng)兩個(gè)圖像的深度特征小于給定閾值時(shí),它們被認(rèn)為是同一個(gè)人。

8.3:FaceNet

FaceNet通過(guò)三因子輸入,希望負(fù)樣本之間的距離大于正樣本之間的距離給定量。此外,三個(gè)輸入因子并不是隨機(jī)的,否則,因?yàn)樨?fù)樣本的差異樣本太大,網(wǎng)絡(luò)將無(wú)法學(xué)習(xí)。選擇最具挑戰(zhàn)性的三個(gè)元素組(例如最遠(yuǎn)的正樣本和最接近的負(fù)樣本)會(huì)使該網(wǎng)絡(luò)陷入局部最優(yōu)。FaceNet使用半困難策略,選擇比正樣本更遠(yuǎn)的負(fù)樣本。

計(jì)算機(jī)視覺領(lǐng)域最全匯總(第2部分)

8.4:大區(qū)間交叉熵?fù)p失

近年來(lái),這一直是一個(gè)熱門的研究課題。由于類內(nèi)波動(dòng)大而類間相似度高,有研究工作旨在提升經(jīng)典的交叉熵?fù)p失對(duì)深度特征的判斷能力。例如,L-Softmax加強(qiáng)優(yōu)化目標(biāo),使對(duì)應(yīng)類別的參數(shù)向量和深度特征夾角增大。

A-Softmax進(jìn)一步約束L-Softmax的參數(shù)向量長(zhǎng)度為1,使訓(xùn)練更集中到優(yōu)化深度特征和夾角上。實(shí)際中,L-Softmax和A-Softmax都很難收斂,訓(xùn)練時(shí)采用了退火方法,從標(biāo)準(zhǔn)softmax逐漸退火至L-Softmax或A-Softmax。

8.5:實(shí)時(shí)檢測(cè)

該系統(tǒng)確定面部圖像是來(lái)自真人還是來(lái)自照片,這是面部驗(yàn)證/識(shí)別任務(wù)的關(guān)鍵障礙。目前在業(yè)界流行的一些方法是讀取人的面部表情,紋理信息,眨眼或要求用戶完成一系列動(dòng)作的變化。

9、圖像搜索和檢索

給定一個(gè)包含特定實(shí)例(例如特定目標(biāo),場(chǎng)景或建筑物)的圖像,圖像搜索用于在數(shù)據(jù)庫(kù)中查找包含與給定實(shí)例類似的元素的圖像。然而,由于兩個(gè)圖像中的角度,光照和障礙物通常不相同,因此創(chuàng)建能夠處理圖像類別中的這些差異的搜索算法的問(wèn)題對(duì)研究人員構(gòu)成了重大挑戰(zhàn)。

9.1:經(jīng)典圖像搜索的過(guò)程

首先,我們必須從圖像中提取適當(dāng)?shù)拇硇允噶俊F浯?,將歐氏距離或余弦距離應(yīng)用于這些矢量以執(zhí)行最近鄰居搜索并找到最相似的圖像。最后,我們使用特定的處理技術(shù)對(duì)搜索結(jié)果進(jìn)行小幅調(diào)整。我們可以看到圖像搜索引擎性能的限制因素是圖像的表示:

計(jì)算機(jī)視覺領(lǐng)域最全匯總(第2部分)

9.2:無(wú)監(jiān)督的圖像搜索

無(wú)監(jiān)督圖像搜索使用預(yù)先訓(xùn)練的ImageNet模型,沒有外部信息作為特征提取引擎來(lái)提取圖像的表示。

  1. 直觀的思路

    :因?yàn)樯疃热B接特征提供了圖像的高級(jí)描述,并且是一個(gè)“自然”矢量,直觀的思維過(guò)程是直接提取深度全連接特征作為圖像的代表矢量。但是,由于圖像分類中使用完全連接的特征缺乏對(duì)圖像的詳細(xì)描述,因此該思維過(guò)程僅產(chǎn)生平均準(zhǔn)確度。
  2. 使用深度卷積特征

    :因?yàn)樯疃染矸e具有更好的詳細(xì)信息,并且可以用于處理任何大小的圖像,目前流行的方法是提取深度卷積特征,然后使用加權(quán)全局搜索和求和池來(lái)獲得圖像的代表向量。權(quán)重表示不同位置的特征的必要性,并且可以采用空間矢量權(quán)重或信道矢量權(quán)重的形式。
  3. CroW

    :深度卷積特征是一種分布式表示。盡管來(lái)自神經(jīng)元的響應(yīng)值在確定區(qū)域是否有目標(biāo)方面不是非常有用,但如果多個(gè)神經(jīng)元同時(shí)具有大量反應(yīng),那么該區(qū)域很可能包含目標(biāo)。因此,CroW沿著通道添加了特征圖以獲得二維合成圖,對(duì)其進(jìn)行標(biāo)準(zhǔn)化,并根據(jù)數(shù)量標(biāo)準(zhǔn)化的結(jié)果將其用作空間權(quán)重。CroW的通道權(quán)重由特征圖的稀疏性決定,類似于TF-IDF中的IDF特征,自然語(yǔ)言處理中的特征可用于提升不常見但具有高度確定性的特征。
  4. 類加權(quán)特征

    :該方法嘗試?yán)脠D像集成網(wǎng)絡(luò)的類別預(yù)測(cè)信息使空間權(quán)重更具確定性。具體地,它使用CAM來(lái)獲得預(yù)訓(xùn)練網(wǎng)絡(luò)中每個(gè)類別的最具代表性的區(qū)域的語(yǔ)義信息;然后它使用標(biāo)準(zhǔn)化的CAM結(jié)果作為空間權(quán)重。
  5. PWA

    :PWA發(fā)現(xiàn),深度卷積特征的不同通道對(duì)應(yīng)于目標(biāo)上不同區(qū)域的響應(yīng)。因此,PWA可以選擇一系列確定性特征映射,并將其標(biāo)準(zhǔn)化結(jié)果用作收斂的空間權(quán)重。然后系統(tǒng)級(jí)聯(lián)結(jié)果以形成最終圖像的表示。

計(jì)算機(jī)視覺領(lǐng)域最全匯總(第2部分)

9.3:有監(jiān)督圖像搜索

有監(jiān)督圖像搜索首先采用預(yù)先訓(xùn)練的ImageNet模型并將其調(diào)整到另一個(gè)訓(xùn)練數(shù)據(jù)集上。然后,它從這個(gè)調(diào)整的模型中提取圖像表示。為了獲得更好的結(jié)果,用于優(yōu)化模型的訓(xùn)練數(shù)據(jù)集通常類似于搜索數(shù)據(jù)集。此外,我們可以使用候選區(qū)域網(wǎng)絡(luò)從可能包含目標(biāo)的圖像中提取前景區(qū)域。

孿生網(wǎng)絡(luò):類似于人臉識(shí)別的思想,該系統(tǒng)使用兩個(gè)元素或三個(gè)元素輸入(++ -)來(lái)訓(xùn)練模型,以最小化兩個(gè)樣本之間的距離,并最大化兩個(gè)不同樣本之間的距離。

計(jì)算機(jī)視覺領(lǐng)域最全匯總(第2部分)

9.4:對(duì)象跟蹤

對(duì)象跟蹤的目標(biāo)是跟蹤視頻中目標(biāo)的移動(dòng)。通常,目標(biāo)位于視頻的第一幀中并由框標(biāo)記。我們需要預(yù)測(cè)框在下一幀中的位置。對(duì)象跟蹤與目標(biāo)測(cè)試類似。然而,對(duì)象跟蹤的難點(diǎn)在于我們不知道我們跟蹤哪個(gè)目標(biāo)。因此,我們無(wú)法在任務(wù)之前收集足夠的訓(xùn)練數(shù)據(jù)并訓(xùn)練專門的測(cè)試。

9.5:孿生網(wǎng)絡(luò)

類似于面部驗(yàn)證的概念,利用孿生網(wǎng)絡(luò)可以在一條線上的目標(biāo)框內(nèi)輸入圖像,并且在另一條線上輸入候選圖像區(qū)域,然后輸出兩個(gè)圖像之間的相似度。我們不需要遍歷不同幀中的所有其他候選區(qū)域;相反,我們可以使用卷積網(wǎng)絡(luò),只需要將每個(gè)圖像前饋一次,通過(guò)卷積,我們可以獲得二維的響應(yīng)圖,其中最重要的響應(yīng)位置確定了框的位置。基于孿生網(wǎng)絡(luò)的方法非??觳⑶夷軌蛱幚砣魏未笮〉膱D像。

計(jì)算機(jī)視覺領(lǐng)域最全匯總(第2部分)

9.6:CFNet

相關(guān)濾波器訓(xùn)練線性模板以區(qū)分圖像區(qū)域和它們周圍的區(qū)域,然后使用傅立葉變換。CFNet與離線訓(xùn)練的孿生網(wǎng)絡(luò)和相關(guān)的在線濾波模板相結(jié)合,能夠提高加權(quán)網(wǎng)絡(luò)的跟蹤性能。

計(jì)算機(jī)視覺領(lǐng)域最全匯總(第2部分)

10、生成式模型(generative models)

這種類型的模型用于學(xué)習(xí)數(shù)據(jù)(圖像)的分布或從其分布中采樣新圖像。生成模型可用于超分辨率重建、圖像著色、圖像轉(zhuǎn)換、從文本生成圖像、學(xué)習(xí)隱藏的圖像表示、半監(jiān)督學(xué)習(xí)等。此外,生成式模型可以與強(qiáng)化學(xué)習(xí)相結(jié)合,用于模擬和逆強(qiáng)化學(xué)習(xí)。

計(jì)算機(jī)視覺領(lǐng)域最全匯總(第2部分)

10.1:顯式建模

使用條件概率的公式來(lái)對(duì)圖像的分布進(jìn)行最大似然估計(jì)并從中學(xué)習(xí)。該方法的缺點(diǎn)在于,由于每個(gè)圖像中的像素取決于先前的像素,因此必須在一個(gè)角開始并以有序的方式進(jìn)行,所以生成圖像的過(guò)程將稍微緩慢。例如,WaveNet可以產(chǎn)生類似于人類創(chuàng)建的語(yǔ)音,但由于它不能同時(shí)產(chǎn)生,一秒鐘的語(yǔ)音需要2分鐘來(lái)計(jì)算,并且實(shí)時(shí)生成是不可能的。

10.2:變分自編碼器

為了避免顯式建模的缺陷,變分自編碼器對(duì)數(shù)據(jù)分布進(jìn)行了隱式建模。它認(rèn)為生成圖像受隱藏變量控制的影響,并假設(shè)隱藏變量受到對(duì)角高斯分布的影響。

變分自編碼器使用解碼網(wǎng)絡(luò)根據(jù)隱藏變量生成圖像。由于我們無(wú)法直接應(yīng)用最大似然估計(jì),因此在訓(xùn)練時(shí),類似于EM算法,變分自編碼器構(gòu)造似然函數(shù)的下界函數(shù),然后使用該下界函數(shù)進(jìn)行優(yōu)化。變分自編碼器的好處是因?yàn)槊總€(gè)維度的獨(dú)立性;我們可以通過(guò)控制隱藏變量來(lái)控制影響輸出圖像變化的因素。

計(jì)算機(jī)視覺領(lǐng)域最全匯總(第2部分)

10.3:生成對(duì)抗式網(wǎng)絡(luò)(GAN)

由于學(xué)習(xí)數(shù)據(jù)分布極其困難,生成對(duì)抗式網(wǎng)絡(luò)完全避免了這一步驟并立即生成圖像。生成對(duì)抗式網(wǎng)絡(luò)使用生成網(wǎng)絡(luò)G從隨機(jī)噪聲創(chuàng)建圖像,并使用判別網(wǎng)絡(luò)D來(lái)確定輸入圖像是真實(shí)的還是偽造的。

在訓(xùn)練期間,判別網(wǎng)絡(luò)D的目標(biāo)是確定圖像是真實(shí)的還是偽造的,并且生成式網(wǎng)絡(luò)G的目的是使判別網(wǎng)絡(luò)D傾向于確定其輸出圖像是真實(shí)的。在實(shí)踐中,訓(xùn)練生成式對(duì)抗網(wǎng)絡(luò)會(huì)帶來(lái)模型崩潰的問(wèn)題,其中生成對(duì)抗式網(wǎng)絡(luò)無(wú)法學(xué)習(xí)完整的數(shù)據(jù)分布。這在LS-GAN和W-GAN中產(chǎn)生了改進(jìn),與變分自編碼器一樣,生成對(duì)抗式網(wǎng)絡(luò)提供更好的詳細(xì)信息。

計(jì)算機(jī)視覺領(lǐng)域最全匯總(第2部分)

11、視頻分類

上述大多數(shù)任務(wù)都可以用于視頻分類,這里我們將以視頻分類為例來(lái)說(shuō)明處理視頻數(shù)據(jù)的一些基本方法。

11.1:多幀圖像特征匯合

這類方法將視頻視為一系列幀圖像,網(wǎng)絡(luò)接收屬于視頻的一組多幀圖像(例如15幀),然后從這些圖像中提取深度特征,并最終集成這些圖像特征以獲得視頻的該部分的特征以對(duì)其進(jìn)行分類。實(shí)驗(yàn)表明,使用“慢速融合(slow fusion)”效果最佳。此外,獨(dú)立組織單個(gè)幀也可以得到非常有競(jìng)爭(zhēng)力的結(jié)果,這意味著來(lái)自單個(gè)幀的圖像包含大量相關(guān)信息。

計(jì)算機(jī)視覺領(lǐng)域最全匯總(第2部分)

11.2:三維卷積

將標(biāo)準(zhǔn)的二維卷積擴(kuò)展為三維卷積,以在時(shí)間維度上連接局部。例如,系統(tǒng)可以采用VGG 3x3卷積并將其擴(kuò)展為3x3x3卷積或2x2收斂擴(kuò)展為2x2x2收斂。

計(jì)算機(jī)視覺領(lǐng)域最全匯總(第2部分)

11.3:圖像+序列兩個(gè)分支結(jié)構(gòu)

這種類型的方法使用兩個(gè)獨(dú)立的網(wǎng)絡(luò)來(lái)區(qū)分從視頻捕獲的圖像信息和時(shí)間信息。圖像信息可以從單幀中的靜止圖像獲得,并且是圖像分類的經(jīng)典問(wèn)題。然后通過(guò)光流獲得運(yùn)動(dòng)信息,跟蹤目標(biāo)在相鄰幀上的運(yùn)動(dòng)。

計(jì)算機(jī)視覺領(lǐng)域最全匯總(第2部分)

11.4:CNN + RNN捕獲遠(yuǎn)程依賴關(guān)系

先前的方法僅能夠捕獲幾幀圖像之間的依賴關(guān)系。此方法使用CNN從單個(gè)幀中提取圖像特征,然后使用RNN捕獲幀之間的依賴關(guān)系。

計(jì)算機(jī)視覺領(lǐng)域最全匯總(第2部分)

此外,研究人員已嘗試將CNN和RNN結(jié)合起來(lái),以便每個(gè)卷積層能夠捕獲遠(yuǎn)距離依賴性。

計(jì)算機(jī)視覺領(lǐng)域最全匯總(第2部分)

以上為譯文。

本文由阿里云云棲社區(qū)組織翻譯。

文章原標(biāo)題《deep-dive-into-computer-vision-with-neural-network-2》,

    本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊一鍵舉報(bào)。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請(qǐng)遵守用戶 評(píng)論公約

    類似文章 更多