摘要: 關(guān)于計(jì)算機(jī)視覺你知道的可能有些少! 計(jì)算機(jī)視覺領(lǐng)域最全匯總(第1部分) 7、紋理生成(Texture Synthesis)與風(fēng)格遷移(Style Transform)紋理生成用于生成包含相同紋理的較大圖像。給定正常圖像和包含特定風(fēng)格的圖像,然后通過(guò)風(fēng)格遷移不僅保留圖像的原始內(nèi)容,而且將該圖像轉(zhuǎn)換為指定的風(fēng)格。 7.1:特征反演(Feature Inversion) 特征反演是紋理生成和風(fēng)格遷移背后的核心概念。給定一個(gè)中間層特征,我們希望迭代來(lái)創(chuàng)建與給定特征類似圖像。特征反演還可以告訴我們?cè)谥虚g層特征中包含多少圖像信息。 給定DxHxW的深度卷積特征,我們將它們轉(zhuǎn)換為Dx(HW)矩陣X,因此我們可以將對(duì)應(yīng)Gram矩陣定義為:G = XX ^ T 通過(guò)外積,Gram矩陣捕獲不同特征之間的關(guān)系。 7.2:紋理生成的概念 它對(duì)給定紋理圖案的Gram矩陣進(jìn)行特征逆向工程。使生成圖像的各層特征的Gram矩陣接近給定紋理圖像的各層Gram。低層特征傾向于捕獲細(xì)節(jié)信息,而高層特征可以捕獲更大面積的特征。 7.3:風(fēng)格遷移的概念 此優(yōu)化有兩個(gè)主要目標(biāo):第一個(gè)是使生成的圖像的內(nèi)容更接近原始圖像的內(nèi)容,而第二個(gè)是使生成的圖像的風(fēng)格與指定的風(fēng)格匹配。風(fēng)格由Gram矩陣體現(xiàn),而內(nèi)容直接由神經(jīng)元的激活值體現(xiàn)。 7.4:直接生成風(fēng)格遷移的圖像 上面直接生成風(fēng)格遷移的圖像的方法的缺點(diǎn)是需要多次迭代才能收斂。解決該問(wèn)題的方案是訓(xùn)練一個(gè)神經(jīng)網(wǎng)絡(luò)來(lái)直接生成風(fēng)格遷移的圖像。一旦訓(xùn)練結(jié)束,進(jìn)行風(fēng)格遷移只需前饋網(wǎng)絡(luò)一次,十分高效。在訓(xùn)練時(shí),將生成圖像、原始圖像、風(fēng)格圖像三者前饋一固定網(wǎng)絡(luò)以提取不同層特征用于計(jì)算損失函數(shù)。 實(shí)驗(yàn)證明,通過(guò)使用實(shí)例歸一化,風(fēng)格變換網(wǎng)絡(luò)可以移除與圖像相關(guān)的比較信息以簡(jiǎn)化生成過(guò)程。 7.5:條件示例規(guī)范化 上述方法的一個(gè)問(wèn)題是我們必須為每種不同的風(fēng)格訓(xùn)練一個(gè)單獨(dú)的模型。由于不同的風(fēng)格有時(shí)包含相似性,因此可以通過(guò)在不同風(fēng)格的風(fēng)格變換網(wǎng)絡(luò)之間共享參數(shù)來(lái)完成這項(xiàng)工作。具體來(lái)說(shuō),它更改了風(fēng)格轉(zhuǎn)換網(wǎng)絡(luò)的示例規(guī)范化,使其具有N組縮放和平移參數(shù),每個(gè)組對(duì)應(yīng)于特定風(fēng)格。這樣我們就可以從單個(gè)前饋過(guò)程中獲得N個(gè)風(fēng)格的變換圖像。 8、面部驗(yàn)證/識(shí)別人臉驗(yàn)證/識(shí)別可以認(rèn)為是一種更加精細(xì)的細(xì)粒度圖像識(shí)別任務(wù)。人臉驗(yàn)證是給定兩張圖像、判斷其是否屬于同一個(gè)人,而人臉識(shí)別是回答圖像中的人是誰(shuí)。一個(gè)人臉驗(yàn)證/識(shí)別系統(tǒng)通常包括三大步:檢測(cè)圖像中的人臉,特征點(diǎn)定位、及對(duì)人臉進(jìn)行驗(yàn)證/識(shí)別。人臉驗(yàn)證/識(shí)別的難題在于需要進(jìn)行小樣本學(xué)習(xí)。通常情況下,數(shù)據(jù)集中每人只有對(duì)應(yīng)的一張圖像,這稱為一次性學(xué)習(xí)(one-shot learning)。 8.1:面部識(shí)別系統(tǒng)背后的概念 作為分類問(wèn)題(非常多的類別數(shù)),或作為度量學(xué)習(xí)的問(wèn)題。如果兩個(gè)圖像屬于同一個(gè)人,那么我們希望它們的深層特征非常相似。否則,它們的特征應(yīng)該不同。之后,根據(jù)深度特征之間的距離進(jìn)行驗(yàn)證或識(shí)別(k最近鄰居分類)。 8.2:DeepFace 第一個(gè)成功將深度神經(jīng)網(wǎng)絡(luò)應(yīng)用于面部驗(yàn)證/識(shí)別模型的系統(tǒng)。DeepFace使用非共享參數(shù)局部性連接。這是因?yàn)槿四樀牟煌糠志哂胁煌奶卣鳎ɡ缪劬妥齑骄哂胁煌奶卣鳎?,因此傳統(tǒng)卷積層的經(jīng)典“共享參數(shù)”不適用于面部驗(yàn)證。因此,面部識(shí)別網(wǎng)絡(luò)使用非共享參數(shù)局部性連接。它使用的孿生(Siamese network)網(wǎng)絡(luò)用于面部驗(yàn)證。當(dāng)兩個(gè)圖像的深度特征小于給定閾值時(shí),它們被認(rèn)為是同一個(gè)人。 8.3:FaceNet FaceNet通過(guò)三因子輸入,希望負(fù)樣本之間的距離大于正樣本之間的距離給定量。此外,三個(gè)輸入因子并不是隨機(jī)的,否則,因?yàn)樨?fù)樣本的差異樣本太大,網(wǎng)絡(luò)將無(wú)法學(xué)習(xí)。選擇最具挑戰(zhàn)性的三個(gè)元素組(例如最遠(yuǎn)的正樣本和最接近的負(fù)樣本)會(huì)使該網(wǎng)絡(luò)陷入局部最優(yōu)。FaceNet使用半困難策略,選擇比正樣本更遠(yuǎn)的負(fù)樣本。 8.4:大區(qū)間交叉熵?fù)p失 近年來(lái),這一直是一個(gè)熱門的研究課題。由于類內(nèi)波動(dòng)大而類間相似度高,有研究工作旨在提升經(jīng)典的交叉熵?fù)p失對(duì)深度特征的判斷能力。例如,L-Softmax加強(qiáng)優(yōu)化目標(biāo),使對(duì)應(yīng)類別的參數(shù)向量和深度特征夾角增大。 A-Softmax進(jìn)一步約束L-Softmax的參數(shù)向量長(zhǎng)度為1,使訓(xùn)練更集中到優(yōu)化深度特征和夾角上。實(shí)際中,L-Softmax和A-Softmax都很難收斂,訓(xùn)練時(shí)采用了退火方法,從標(biāo)準(zhǔn)softmax逐漸退火至L-Softmax或A-Softmax。 8.5:實(shí)時(shí)檢測(cè) 該系統(tǒng)確定面部圖像是來(lái)自真人還是來(lái)自照片,這是面部驗(yàn)證/識(shí)別任務(wù)的關(guān)鍵障礙。目前在業(yè)界流行的一些方法是讀取人的面部表情,紋理信息,眨眼或要求用戶完成一系列動(dòng)作的變化。 9、圖像搜索和檢索給定一個(gè)包含特定實(shí)例(例如特定目標(biāo),場(chǎng)景或建筑物)的圖像,圖像搜索用于在數(shù)據(jù)庫(kù)中查找包含與給定實(shí)例類似的元素的圖像。然而,由于兩個(gè)圖像中的角度,光照和障礙物通常不相同,因此創(chuàng)建能夠處理圖像類別中的這些差異的搜索算法的問(wèn)題對(duì)研究人員構(gòu)成了重大挑戰(zhàn)。 9.1:經(jīng)典圖像搜索的過(guò)程 首先,我們必須從圖像中提取適當(dāng)?shù)拇硇允噶俊F浯?,將歐氏距離或余弦距離應(yīng)用于這些矢量以執(zhí)行最近鄰居搜索并找到最相似的圖像。最后,我們使用特定的處理技術(shù)對(duì)搜索結(jié)果進(jìn)行小幅調(diào)整。我們可以看到圖像搜索引擎性能的限制因素是圖像的表示: 9.2:無(wú)監(jiān)督的圖像搜索 無(wú)監(jiān)督圖像搜索使用預(yù)先訓(xùn)練的ImageNet模型,沒有外部信息作為特征提取引擎來(lái)提取圖像的表示。
9.3:有監(jiān)督圖像搜索 有監(jiān)督圖像搜索首先采用預(yù)先訓(xùn)練的ImageNet模型并將其調(diào)整到另一個(gè)訓(xùn)練數(shù)據(jù)集上。然后,它從這個(gè)調(diào)整的模型中提取圖像表示。為了獲得更好的結(jié)果,用于優(yōu)化模型的訓(xùn)練數(shù)據(jù)集通常類似于搜索數(shù)據(jù)集。此外,我們可以使用候選區(qū)域網(wǎng)絡(luò)從可能包含目標(biāo)的圖像中提取前景區(qū)域。 孿生網(wǎng)絡(luò):類似于人臉識(shí)別的思想,該系統(tǒng)使用兩個(gè)元素或三個(gè)元素輸入(++ -)來(lái)訓(xùn)練模型,以最小化兩個(gè)樣本之間的距離,并最大化兩個(gè)不同樣本之間的距離。 9.4:對(duì)象跟蹤 對(duì)象跟蹤的目標(biāo)是跟蹤視頻中目標(biāo)的移動(dòng)。通常,目標(biāo)位于視頻的第一幀中并由框標(biāo)記。我們需要預(yù)測(cè)框在下一幀中的位置。對(duì)象跟蹤與目標(biāo)測(cè)試類似。然而,對(duì)象跟蹤的難點(diǎn)在于我們不知道我們跟蹤哪個(gè)目標(biāo)。因此,我們無(wú)法在任務(wù)之前收集足夠的訓(xùn)練數(shù)據(jù)并訓(xùn)練專門的測(cè)試。 9.5:孿生網(wǎng)絡(luò) 類似于面部驗(yàn)證的概念,利用孿生網(wǎng)絡(luò)可以在一條線上的目標(biāo)框內(nèi)輸入圖像,并且在另一條線上輸入候選圖像區(qū)域,然后輸出兩個(gè)圖像之間的相似度。我們不需要遍歷不同幀中的所有其他候選區(qū)域;相反,我們可以使用卷積網(wǎng)絡(luò),只需要將每個(gè)圖像前饋一次,通過(guò)卷積,我們可以獲得二維的響應(yīng)圖,其中最重要的響應(yīng)位置確定了框的位置。基于孿生網(wǎng)絡(luò)的方法非??觳⑶夷軌蛱幚砣魏未笮〉膱D像。 9.6:CFNet 相關(guān)濾波器訓(xùn)練線性模板以區(qū)分圖像區(qū)域和它們周圍的區(qū)域,然后使用傅立葉變換。CFNet與離線訓(xùn)練的孿生網(wǎng)絡(luò)和相關(guān)的在線濾波模板相結(jié)合,能夠提高加權(quán)網(wǎng)絡(luò)的跟蹤性能。 10、生成式模型(generative models)這種類型的模型用于學(xué)習(xí)數(shù)據(jù)(圖像)的分布或從其分布中采樣新圖像。生成模型可用于超分辨率重建、圖像著色、圖像轉(zhuǎn)換、從文本生成圖像、學(xué)習(xí)隱藏的圖像表示、半監(jiān)督學(xué)習(xí)等。此外,生成式模型可以與強(qiáng)化學(xué)習(xí)相結(jié)合,用于模擬和逆強(qiáng)化學(xué)習(xí)。 10.1:顯式建模 使用條件概率的公式來(lái)對(duì)圖像的分布進(jìn)行最大似然估計(jì)并從中學(xué)習(xí)。該方法的缺點(diǎn)在于,由于每個(gè)圖像中的像素取決于先前的像素,因此必須在一個(gè)角開始并以有序的方式進(jìn)行,所以生成圖像的過(guò)程將稍微緩慢。例如,WaveNet可以產(chǎn)生類似于人類創(chuàng)建的語(yǔ)音,但由于它不能同時(shí)產(chǎn)生,一秒鐘的語(yǔ)音需要2分鐘來(lái)計(jì)算,并且實(shí)時(shí)生成是不可能的。 10.2:變分自編碼器 為了避免顯式建模的缺陷,變分自編碼器對(duì)數(shù)據(jù)分布進(jìn)行了隱式建模。它認(rèn)為生成圖像受隱藏變量控制的影響,并假設(shè)隱藏變量受到對(duì)角高斯分布的影響。 變分自編碼器使用解碼網(wǎng)絡(luò)根據(jù)隱藏變量生成圖像。由于我們無(wú)法直接應(yīng)用最大似然估計(jì),因此在訓(xùn)練時(shí),類似于EM算法,變分自編碼器構(gòu)造似然函數(shù)的下界函數(shù),然后使用該下界函數(shù)進(jìn)行優(yōu)化。變分自編碼器的好處是因?yàn)槊總€(gè)維度的獨(dú)立性;我們可以通過(guò)控制隱藏變量來(lái)控制影響輸出圖像變化的因素。 10.3:生成對(duì)抗式網(wǎng)絡(luò)(GAN) 由于學(xué)習(xí)數(shù)據(jù)分布極其困難,生成對(duì)抗式網(wǎng)絡(luò)完全避免了這一步驟并立即生成圖像。生成對(duì)抗式網(wǎng)絡(luò)使用生成網(wǎng)絡(luò)G從隨機(jī)噪聲創(chuàng)建圖像,并使用判別網(wǎng)絡(luò)D來(lái)確定輸入圖像是真實(shí)的還是偽造的。 在訓(xùn)練期間,判別網(wǎng)絡(luò)D的目標(biāo)是確定圖像是真實(shí)的還是偽造的,并且生成式網(wǎng)絡(luò)G的目的是使判別網(wǎng)絡(luò)D傾向于確定其輸出圖像是真實(shí)的。在實(shí)踐中,訓(xùn)練生成式對(duì)抗網(wǎng)絡(luò)會(huì)帶來(lái)模型崩潰的問(wèn)題,其中生成對(duì)抗式網(wǎng)絡(luò)無(wú)法學(xué)習(xí)完整的數(shù)據(jù)分布。這在LS-GAN和W-GAN中產(chǎn)生了改進(jìn),與變分自編碼器一樣,生成對(duì)抗式網(wǎng)絡(luò)提供更好的詳細(xì)信息。 11、視頻分類上述大多數(shù)任務(wù)都可以用于視頻分類,這里我們將以視頻分類為例來(lái)說(shuō)明處理視頻數(shù)據(jù)的一些基本方法。 11.1:多幀圖像特征匯合 這類方法將視頻視為一系列幀圖像,網(wǎng)絡(luò)接收屬于視頻的一組多幀圖像(例如15幀),然后從這些圖像中提取深度特征,并最終集成這些圖像特征以獲得視頻的該部分的特征以對(duì)其進(jìn)行分類。實(shí)驗(yàn)表明,使用“慢速融合(slow fusion)”效果最佳。此外,獨(dú)立組織單個(gè)幀也可以得到非常有競(jìng)爭(zhēng)力的結(jié)果,這意味著來(lái)自單個(gè)幀的圖像包含大量相關(guān)信息。 11.2:三維卷積 將標(biāo)準(zhǔn)的二維卷積擴(kuò)展為三維卷積,以在時(shí)間維度上連接局部。例如,系統(tǒng)可以采用VGG 3x3卷積并將其擴(kuò)展為3x3x3卷積或2x2收斂擴(kuò)展為2x2x2收斂。 11.3:圖像+序列兩個(gè)分支結(jié)構(gòu) 這種類型的方法使用兩個(gè)獨(dú)立的網(wǎng)絡(luò)來(lái)區(qū)分從視頻捕獲的圖像信息和時(shí)間信息。圖像信息可以從單幀中的靜止圖像獲得,并且是圖像分類的經(jīng)典問(wèn)題。然后通過(guò)光流獲得運(yùn)動(dòng)信息,跟蹤目標(biāo)在相鄰幀上的運(yùn)動(dòng)。 11.4:CNN + RNN捕獲遠(yuǎn)程依賴關(guān)系 先前的方法僅能夠捕獲幾幀圖像之間的依賴關(guān)系。此方法使用CNN從單個(gè)幀中提取圖像特征,然后使用RNN捕獲幀之間的依賴關(guān)系。 此外,研究人員已嘗試將CNN和RNN結(jié)合起來(lái),以便每個(gè)卷積層能夠捕獲遠(yuǎn)距離依賴性。 以上為譯文。 本文由阿里云云棲社區(qū)組織翻譯。 文章原標(biāo)題《deep-dive-into-computer-vision-with-neural-network-2》, |
|
來(lái)自: 南風(fēng)清雨 > 《計(jì)算機(jī)》