風(fēng)靡朋友圈的妙鴨相機(jī)，到底用了哪些底層技術(shù)？

天承辦公室 2023-08-07 發(fā)布于江蘇

展開(kāi)全文

雖然只要9.9，但生成的照片真的很逼真！

在大家被ChatGPT和Midjourney所驚艷之后，如今又驚嘆于妙鴨相機(jī)的寫(xiě)真能力！

它到底用到了什么AI技術(shù)才做到這么厲害的呢？

本文就帶大家來(lái)探索一下！

AIGC關(guān)鍵技術(shù)

無(wú)論是ChatGPT，還是Midjourney、妙鴨相機(jī)，都屬于人工智能創(chuàng)造內(nèi)容（AI Generated Content，AIGC）！

AIGC有兩項(xiàng)關(guān)鍵技術(shù)：

一個(gè)是ChatGPT所代表的大模型（Large Language Model，LLM）技術(shù)。
另一個(gè)是Midjourney、妙鴨相機(jī)等AI繪畫(huà)作圖背后的擴(kuò)散模型（Diffusion Model）技術(shù)。

AI繪畫(huà)、AI對(duì)話、AI游戲創(chuàng)作等這些產(chǎn)物的背后是深度生成模型，它可以根據(jù)已有的數(shù)據(jù)和計(jì)算機(jī)程序生成新的數(shù)據(jù)。

真實(shí)世界的數(shù)據(jù)是復(fù)雜的，其維度高、分布復(fù)雜，變量之間還存在非線性關(guān)系，例如，圖片數(shù)據(jù)被認(rèn)為是二維空間的像素點(diǎn)數(shù)據(jù)，并且圖片內(nèi)容決定了像素點(diǎn)之間有著復(fù)雜的交互關(guān)系。這對(duì)使用傳統(tǒng)模型進(jìn)行擬合數(shù)據(jù)分布提出了巨大挑戰(zhàn)。

此外，我們不僅希望AI生成的內(nèi)容有真實(shí)性，也希望其是新穎的，即可以對(duì)問(wèn)題提出新的解決方案，而不只是復(fù)制已有的內(nèi)容；高效地利用計(jì)算機(jī)的運(yùn)算能力，實(shí)現(xiàn)高效的自動(dòng)化生產(chǎn)；根據(jù)用戶需求提供相應(yīng)的內(nèi)容，等等。

在這些需求下，擴(kuò)散模型能夠捕捉復(fù)雜的數(shù)據(jù)分布、產(chǎn)生真實(shí)、新穎的內(nèi)容，并且能夠?qū)崿F(xiàn)個(gè)性化的、高效的生產(chǎn)。因此，引起了人們的廣泛關(guān)注。

深度生成模型源于生成式建模和深度學(xué)習(xí)。

生成建模認(rèn)為數(shù)據(jù)在相應(yīng)的空間存在著概率密度分布，其目的就是建模和學(xué)習(xí)這種潛在分布。早期的生成建模如高斯混合模型（GMM），隱馬爾可夫模型（HMM）在表達(dá)能力和可擴(kuò)展性方面存在局限性，在現(xiàn)實(shí)數(shù)據(jù)的復(fù)雜性面前表現(xiàn)得較為吃力。

隨后生成建模成功地與深度學(xué)習(xí)結(jié)合，產(chǎn)生了著名的變分自編碼器（VAE）、生成對(duì)抗網(wǎng)絡(luò)（GAN），等等。

VAE將深度神經(jīng)網(wǎng)絡(luò)與變分推斷技術(shù)相結(jié)合，學(xué)習(xí)潛在先驗(yàn)并生成新樣本。它們提供了端到端訓(xùn)練的框架，并提供了更靈活的生成建模能力。
GAN在深度生成模型的歷史中是另一個(gè)重要的里程碑，GAN引入了一種新穎的對(duì)抗訓(xùn)練方法，同時(shí)訓(xùn)練生成器網(wǎng)絡(luò)和判別器網(wǎng)絡(luò)。該架構(gòu)通過(guò)生成器和判別器網(wǎng)絡(luò)之間的最小、最大博弈來(lái)生成高度逼真的樣本。

深度生成模型還有基于能量的模型和基于流的模型，等等。

擴(kuò)散模型

擴(kuò)散模型于2020年被提出，但其發(fā)源可以追溯到2015年，理論背景甚至可以追溯到20世紀(jì)對(duì)于隨機(jī)過(guò)程、隨機(jī)微分方程的研究。

擴(kuò)散模型通過(guò)向原始數(shù)據(jù)逐步加入噪聲來(lái)破壞原始信息，然后再逆轉(zhuǎn)這一過(guò)程生成樣本。相較于以往的深度生成模型，擴(kuò)散模型生成的數(shù)據(jù)質(zhì)量更高、多樣性更強(qiáng)，并且擴(kuò)散模型的結(jié)構(gòu)也很靈活，這使得擴(kuò)散模型很快成為了研究和應(yīng)用的熱點(diǎn)。在《擴(kuò)散模型：生成式AI模型的理論、應(yīng)用與代碼實(shí)踐》一書(shū)中就詳細(xì)討論了擴(kuò)散模型與其他深度生成模型的關(guān)系。

我們可以考慮一個(gè)物理過(guò)程來(lái)通俗地理解擴(kuò)散模型。把真實(shí)世界的數(shù)據(jù)比作空氣中的一團(tuán)分子，它們互相交織，形成了具有特定結(jié)構(gòu)的整體。由于這個(gè)分子團(tuán)過(guò)于復(fù)雜，我們無(wú)法直接了解其結(jié)構(gòu)，但我們可以理解在空氣中做無(wú)規(guī)則運(yùn)動(dòng)的某種粒子，即對(duì)應(yīng)著服從標(biāo)準(zhǔn)高斯分布的某個(gè)變量。從無(wú)規(guī)則運(yùn)動(dòng)的粒子出發(fā)，我們不斷變換這些粒子的相對(duì)位置，每次只變換一小步，最終將這些粒子的分布狀態(tài)變換為我們想要的復(fù)雜的分子的形態(tài)。也就是說(shuō)，從純?cè)肼曢_(kāi)始，我們進(jìn)行了很多小的“去噪”變換，逐漸地將噪聲的分布轉(zhuǎn)換為數(shù)據(jù)的分布，這樣就可以利用得到的數(shù)據(jù)分布進(jìn)行采樣，得到新的數(shù)據(jù)?？梢钥吹?，我們需要知道的信息就是——該如何進(jìn)行每一步的變換。這比直接學(xué)習(xí)原始數(shù)據(jù)的分布簡(jiǎn)單得多，并且樸素地解釋了擴(kuò)散模型的有效性。《擴(kuò)散模型：生成式AI模型的理論、應(yīng)用與代碼實(shí)踐》一書(shū)會(huì)詳細(xì)、嚴(yán)格地介紹擴(kuò)散模型的原理和算法。

擴(kuò)散模型也有其內(nèi)在的缺點(diǎn)，如采樣速度慢、對(duì)結(jié)構(gòu)化數(shù)據(jù)處理能力較差，等等。例如，擴(kuò)散模型在將噪聲分布逐步轉(zhuǎn)換為數(shù)據(jù)分布的過(guò)程中需要大量調(diào)用神經(jīng)網(wǎng)絡(luò)，這就導(dǎo)致了生成高質(zhì)量圖片時(shí)采樣時(shí)間較長(zhǎng)。后續(xù)大量的研究就是致力于提升擴(kuò)散模型各個(gè)方面的性能，使擴(kuò)散模型可以真正幫助人們高效解決現(xiàn)實(shí)問(wèn)題。《擴(kuò)散模型：生成式AI模型的理論、應(yīng)用與代碼實(shí)踐》一書(shū)將詳細(xì)分析擴(kuò)散模型的優(yōu)缺點(diǎn)，并系統(tǒng)地講解擴(kuò)散模型的進(jìn)一步發(fā)展。

擴(kuò)散模型應(yīng)用

得益于擴(kuò)散模型的強(qiáng)大性能，圖片生成的應(yīng)用Stable Diffusion、DALLE·2、Midjourney、妙鴨相機(jī)等在實(shí)際生產(chǎn)中都有利用擴(kuò)散模型進(jìn)行創(chuàng)造性內(nèi)容生成。

這些應(yīng)用程序利用擴(kuò)散模型進(jìn)行條件生成，即基于輸入，引導(dǎo)、生成符合條件的內(nèi)容。這種引導(dǎo)可以是自然語(yǔ)句，可以是部分圖像，也可以用低分辨率的圖像作為引導(dǎo)，生成高分辨率的圖像，等等。

此外還有利用擴(kuò)散模型生成語(yǔ)音、視頻等各種模態(tài)數(shù)據(jù)的應(yīng)用。藝術(shù)創(chuàng)作者們可以使用這些應(yīng)用進(jìn)行直接創(chuàng)作，或者使用它來(lái)提供靈感。在生成內(nèi)容上進(jìn)行修改可以大大提升工作效率。

但同時(shí)，擴(kuò)散模型的強(qiáng)大能力和廣泛引用也導(dǎo)致了潛在的負(fù)面影響。

AI的高效讓部分創(chuàng)作者面臨失業(yè)的風(fēng)險(xiǎn)；
擴(kuò)散模型生成的內(nèi)容存在版權(quán)問(wèn)題、隱私問(wèn)題和偏見(jiàn)問(wèn)題；
AI生成的內(nèi)容可能被用于有害的用途；
……

此外，擴(kuò)散模型在科學(xué)研究領(lǐng)域也有應(yīng)用，比如分子結(jié)構(gòu)生成、分子動(dòng)力學(xué)模擬。擴(kuò)散模型可以生成表示分子的3D表示、分子的圖結(jié)構(gòu)，或者二者同時(shí)生成，以及控制生成分子的性質(zhì)。這對(duì)于AI制藥領(lǐng)域是又一大研究貢獻(xiàn)。

在工業(yè)界的應(yīng)用有點(diǎn)云生成和補(bǔ)全、異常檢測(cè)等。

在醫(yī)學(xué)領(lǐng)域的應(yīng)用包括醫(yī)學(xué)圖像重建和病灶檢測(cè)等。

總的來(lái)看，擴(kuò)散模型在各個(gè)領(lǐng)域正處于一個(gè)百花齊放的狀態(tài)。

《擴(kuò)散模型：生成式AI模型的理論、應(yīng)用與代碼實(shí)踐》一書(shū)也會(huì)詳細(xì)介紹擴(kuò)散模型在各個(gè)領(lǐng)域的應(yīng)用研究。

為了推進(jìn)擴(kuò)散模型的發(fā)展和應(yīng)用，需要多個(gè)學(xué)科領(lǐng)域的合作，包括機(jī)器學(xué)習(xí)算法、深度生成學(xué)習(xí)理論、隨機(jī)分析理論，各領(lǐng)域的應(yīng)用研究、隱私保護(hù)、法律與監(jiān)管要求等。

目前擴(kuò)散模型在各領(lǐng)域的發(fā)展和應(yīng)用的介紹分散于論文和網(wǎng)絡(luò)上，因此有必要在《擴(kuò)散模型：生成式AI模型的理論、應(yīng)用與代碼實(shí)踐》這本書(shū)中進(jìn)行系統(tǒng)地介紹。

《擴(kuò)散模型 : 生成式AI模型的理論、應(yīng)用與代碼實(shí)踐》是一本從淺入深、全面系統(tǒng)地介紹擴(kuò)散模型的書(shū)籍，其具備豐富的實(shí)踐案例，以及前沿視角，受到一眾專家、學(xué)者的認(rèn)可、推薦。

本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間，所有內(nèi)容均由用戶發(fā)布，不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買等信息，謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請(qǐng)點(diǎn)擊一鍵舉報(bào)。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來(lái)自：天承辦公室 > 《022機(jī)器之心》

舉報(bào)/認(rèn)領(lǐng)