午夜视频在线网站,日韩视频精品在线,中文字幕精品一区二区三区在线,在线播放精品,1024你懂我懂的旧版人,欧美日韩一级黄色片,一区二区三区在线观看视频

分享

風(fēng)靡朋友圈的妙鴨相機(jī),到底用了哪些底層技術(shù)?

 天承辦公室 2023-08-07 發(fā)布于江蘇

圖片

雖然只要9.9,但生成的照片真的很逼真!

在大家被ChatGPT和Midjourney所驚艷之后,如今又驚嘆于妙鴨相機(jī)的寫(xiě)真能力!

它到底用到了什么AI技術(shù)才做到這么厲害的呢?

本文就帶大家來(lái)探索一下!圖片

01

AIGC關(guān)鍵技術(shù)

無(wú)論是ChatGPT,還是Midjourney、妙鴨相機(jī),都屬于人工智能創(chuàng)造內(nèi)容(AI Generated Content,AIGC)!

AIGC有兩項(xiàng)關(guān)鍵技術(shù):

  • 一個(gè)是ChatGPT所代表的大模型(Large Language Model,LLM)技術(shù)。

  • 另一個(gè)是Midjourney、妙鴨相機(jī)等AI繪畫(huà)作圖背后的擴(kuò)散模型(Diffusion Model)技術(shù)。

AI繪畫(huà)、AI對(duì)話、AI游戲創(chuàng)作等這些產(chǎn)物的背后是深度生成模型,它可以根據(jù)已有的數(shù)據(jù)和計(jì)算機(jī)程序生成新的數(shù)據(jù)。

真實(shí)世界的數(shù)據(jù)是復(fù)雜的,其維度高、分布復(fù)雜,變量之間還存在非線性關(guān)系,例如,圖片數(shù)據(jù)被認(rèn)為是二維空間的像素點(diǎn)數(shù)據(jù),并且圖片內(nèi)容決定了像素點(diǎn)之間有著復(fù)雜的交互關(guān)系。這對(duì)使用傳統(tǒng)模型進(jìn)行擬合數(shù)據(jù)分布提出了巨大挑戰(zhàn)。

此外,我們不僅希望AI生成的內(nèi)容有真實(shí)性,也希望其是新穎的,即可以對(duì)問(wèn)題提出新的解決方案,而不只是復(fù)制已有的內(nèi)容;高效地利用計(jì)算機(jī)的運(yùn)算能力,實(shí)現(xiàn)高效的自動(dòng)化生產(chǎn);根據(jù)用戶需求提供相應(yīng)的內(nèi)容,等等。

在這些需求下,擴(kuò)散模型能夠捕捉復(fù)雜的數(shù)據(jù)分布、產(chǎn)生真實(shí)、新穎的內(nèi)容,并且能夠?qū)崿F(xiàn)個(gè)性化的、高效的生產(chǎn)。因此,引起了人們的廣泛關(guān)注。

深度生成模型源于生成式建模和深度學(xué)習(xí)。

生成建模認(rèn)為數(shù)據(jù)在相應(yīng)的空間存在著概率密度分布,其目的就是建模和學(xué)習(xí)這種潛在分布。早期的生成建模如高斯混合模型(GMM),隱馬爾可夫模型(HMM)在表達(dá)能力和可擴(kuò)展性方面存在局限性,在現(xiàn)實(shí)數(shù)據(jù)的復(fù)雜性面前表現(xiàn)得較為吃力。

隨后生成建模成功地與深度學(xué)習(xí)結(jié)合,產(chǎn)生了著名的變分自編碼器(VAE)、生成對(duì)抗網(wǎng)絡(luò)(GAN),等等。

  • VAE將深度神經(jīng)網(wǎng)絡(luò)與變分推斷技術(shù)相結(jié)合,學(xué)習(xí)潛在先驗(yàn)并生成新樣本。它們提供了端到端訓(xùn)練的框架,并提供了更靈活的生成建模能力。

  • GAN在深度生成模型的歷史中是另一個(gè)重要的里程碑,GAN引入了一種新穎的對(duì)抗訓(xùn)練方法,同時(shí)訓(xùn)練生成器網(wǎng)絡(luò)和判別器網(wǎng)絡(luò)。該架構(gòu)通過(guò)生成器和判別器網(wǎng)絡(luò)之間的最小、最大博弈來(lái)生成高度逼真的樣本。

深度生成模型還有基于能量的模型和基于流的模型,等等。

02

擴(kuò)散模型

擴(kuò)散模型于2020年被提出,但其發(fā)源可以追溯到2015年,理論背景甚至可以追溯到20世紀(jì)對(duì)于隨機(jī)過(guò)程、隨機(jī)微分方程的研究。

擴(kuò)散模型通過(guò)向原始數(shù)據(jù)逐步加入噪聲來(lái)破壞原始信息,然后再逆轉(zhuǎn)這一過(guò)程生成樣本。相較于以往的深度生成模型,擴(kuò)散模型生成的數(shù)據(jù)質(zhì)量更高、多樣性更強(qiáng),并且擴(kuò)散模型的結(jié)構(gòu)也很靈活,這使得擴(kuò)散模型很快成為了研究和應(yīng)用的熱點(diǎn)。在《擴(kuò)散模型:生成式AI模型的理論、應(yīng)用與代碼實(shí)踐》一書(shū)中就詳細(xì)討論了擴(kuò)散模型與其他深度生成模型的關(guān)系。

我們可以考慮一個(gè)物理過(guò)程來(lái)通俗地理解擴(kuò)散模型。把真實(shí)世界的數(shù)據(jù)比作空氣中的一團(tuán)分子,它們互相交織,形成了具有特定結(jié)構(gòu)的整體。由于這個(gè)分子團(tuán)過(guò)于復(fù)雜,我們無(wú)法直接了解其結(jié)構(gòu),但我們可以理解在空氣中做無(wú)規(guī)則運(yùn)動(dòng)的某種粒子,即對(duì)應(yīng)著服從標(biāo)準(zhǔn)高斯分布的某個(gè)變量。從無(wú)規(guī)則運(yùn)動(dòng)的粒子出發(fā),我們不斷變換這些粒子的相對(duì)位置,每次只變換一小步,最終將這些粒子的分布狀態(tài)變換為我們想要的復(fù)雜的分子的形態(tài)。也就是說(shuō),從純?cè)肼曢_(kāi)始,我們進(jìn)行了很多小的“去噪”變換,逐漸地將噪聲的分布轉(zhuǎn)換為數(shù)據(jù)的分布,這樣就可以利用得到的數(shù)據(jù)分布進(jìn)行采樣,得到新的數(shù)據(jù)??梢钥吹?,我們需要知道的信息就是——該如何進(jìn)行每一步的變換。這比直接學(xué)習(xí)原始數(shù)據(jù)的分布簡(jiǎn)單得多,并且樸素地解釋了擴(kuò)散模型的有效性。《擴(kuò)散模型:生成式AI模型的理論、應(yīng)用與代碼實(shí)踐》一書(shū)會(huì)詳細(xì)、嚴(yán)格地介紹擴(kuò)散模型的原理和算法。

擴(kuò)散模型也有其內(nèi)在的缺點(diǎn),如采樣速度慢、對(duì)結(jié)構(gòu)化數(shù)據(jù)處理能力較差,等等。例如,擴(kuò)散模型在將噪聲分布逐步轉(zhuǎn)換為數(shù)據(jù)分布的過(guò)程中需要大量調(diào)用神經(jīng)網(wǎng)絡(luò),這就導(dǎo)致了生成高質(zhì)量圖片時(shí)采樣時(shí)間較長(zhǎng)。后續(xù)大量的研究就是致力于提升擴(kuò)散模型各個(gè)方面的性能,使擴(kuò)散模型可以真正幫助人們高效解決現(xiàn)實(shí)問(wèn)題。《擴(kuò)散模型:生成式AI模型的理論、應(yīng)用與代碼實(shí)踐》書(shū)將詳細(xì)分析擴(kuò)散模型的優(yōu)缺點(diǎn),并系統(tǒng)地講解擴(kuò)散模型的進(jìn)一步發(fā)展。

03

擴(kuò)散模型應(yīng)用

得益于擴(kuò)散模型的強(qiáng)大性能,圖片生成的應(yīng)用Stable Diffusion、DALLE·2、Midjourney、妙鴨相機(jī)等在實(shí)際生產(chǎn)中都有利用擴(kuò)散模型進(jìn)行創(chuàng)造性內(nèi)容生成。

這些應(yīng)用程序利用擴(kuò)散模型進(jìn)行條件生成,即基于輸入,引導(dǎo)、生成符合條件的內(nèi)容。這種引導(dǎo)可以是自然語(yǔ)句,可以是部分圖像,也可以用低分辨率的圖像作為引導(dǎo),生成高分辨率的圖像,等等。

此外還有利用擴(kuò)散模型生成語(yǔ)音、視頻等各種模態(tài)數(shù)據(jù)的應(yīng)用。藝術(shù)創(chuàng)作者們可以使用這些應(yīng)用進(jìn)行直接創(chuàng)作,或者使用它來(lái)提供靈感。在生成內(nèi)容上進(jìn)行修改可以大大提升工作效率。

但同時(shí),擴(kuò)散模型的強(qiáng)大能力和廣泛引用也導(dǎo)致了潛在的負(fù)面影響。

  • AI的高效讓部分創(chuàng)作者面臨失業(yè)的風(fēng)險(xiǎn);

  • 擴(kuò)散模型生成的內(nèi)容存在版權(quán)問(wèn)題、隱私問(wèn)題和偏見(jiàn)問(wèn)題;

  • AI生成的內(nèi)容可能被用于有害的用途;

  • ……

此外,擴(kuò)散模型在科學(xué)研究領(lǐng)域也有應(yīng)用,比如分子結(jié)構(gòu)生成、分子動(dòng)力學(xué)模擬。擴(kuò)散模型可以生成表示分子的3D表示、分子的圖結(jié)構(gòu),或者二者同時(shí)生成,以及控制生成分子的性質(zhì)。這對(duì)于AI制藥領(lǐng)域是又一大研究貢獻(xiàn)。

在工業(yè)界的應(yīng)用有點(diǎn)云生成和補(bǔ)全、異常檢測(cè)等。

在醫(yī)學(xué)領(lǐng)域的應(yīng)用包括醫(yī)學(xué)圖像重建和病灶檢測(cè)等。

總的來(lái)看,擴(kuò)散模型在各個(gè)領(lǐng)域正處于一個(gè)百花齊放的狀態(tài)。

《擴(kuò)散模型:生成式AI模型的理論、應(yīng)用與代碼實(shí)踐》書(shū)也會(huì)詳細(xì)介紹擴(kuò)散模型在各個(gè)領(lǐng)域的應(yīng)用研究。

為了推進(jìn)擴(kuò)散模型的發(fā)展和應(yīng)用,需要多個(gè)學(xué)科領(lǐng)域的合作,包括機(jī)器學(xué)習(xí)算法、深度生成學(xué)習(xí)理論、隨機(jī)分析理論,各領(lǐng)域的應(yīng)用研究、隱私保護(hù)、法律與監(jiān)管要求等。

目前擴(kuò)散模型在各領(lǐng)域的發(fā)展和應(yīng)用的介紹分散于論文和網(wǎng)絡(luò)上,因此有必要在《擴(kuò)散模型:生成式AI模型的理論、應(yīng)用與代碼實(shí)踐》這本書(shū)中進(jìn)行系統(tǒng)地介紹。

圖片

《擴(kuò)散模型 : 生成式AI模型的理論、應(yīng)用與代碼實(shí)踐》是一本從淺入深、全面系統(tǒng)地介紹擴(kuò)散模型的書(shū)籍,其具備豐富的實(shí)踐案例,以及前沿視角,受到一眾專家、學(xué)者的認(rèn)可、推薦。

圖片

    本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊一鍵舉報(bào)。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請(qǐng)遵守用戶 評(píng)論公約

    類似文章 更多