雖然只要9.9,但生成的照片真的很逼真! 在大家被ChatGPT和Midjourney所驚艷之后,如今又驚嘆于妙鴨相機(jī)的寫(xiě)真能力! 它到底用到了什么AI技術(shù)才做到這么厲害的呢? 本文就帶大家來(lái)探索一下! AIGC關(guān)鍵技術(shù) 無(wú)論是ChatGPT,還是Midjourney、妙鴨相機(jī),都屬于人工智能創(chuàng)造內(nèi)容(AI Generated Content,AIGC)! AIGC有兩項(xiàng)關(guān)鍵技術(shù):
AI繪畫(huà)、AI對(duì)話、AI游戲創(chuàng)作等這些產(chǎn)物的背后是深度生成模型,它可以根據(jù)已有的數(shù)據(jù)和計(jì)算機(jī)程序生成新的數(shù)據(jù)。 真實(shí)世界的數(shù)據(jù)是復(fù)雜的,其維度高、分布復(fù)雜,變量之間還存在非線性關(guān)系,例如,圖片數(shù)據(jù)被認(rèn)為是二維空間的像素點(diǎn)數(shù)據(jù),并且圖片內(nèi)容決定了像素點(diǎn)之間有著復(fù)雜的交互關(guān)系。這對(duì)使用傳統(tǒng)模型進(jìn)行擬合數(shù)據(jù)分布提出了巨大挑戰(zhàn)。 此外,我們不僅希望AI生成的內(nèi)容有真實(shí)性,也希望其是新穎的,即可以對(duì)問(wèn)題提出新的解決方案,而不只是復(fù)制已有的內(nèi)容;高效地利用計(jì)算機(jī)的運(yùn)算能力,實(shí)現(xiàn)高效的自動(dòng)化生產(chǎn);根據(jù)用戶需求提供相應(yīng)的內(nèi)容,等等。 在這些需求下,擴(kuò)散模型能夠捕捉復(fù)雜的數(shù)據(jù)分布、產(chǎn)生真實(shí)、新穎的內(nèi)容,并且能夠?qū)崿F(xiàn)個(gè)性化的、高效的生產(chǎn)。因此,引起了人們的廣泛關(guān)注。 深度生成模型源于生成式建模和深度學(xué)習(xí)。 生成建模認(rèn)為數(shù)據(jù)在相應(yīng)的空間存在著概率密度分布,其目的就是建模和學(xué)習(xí)這種潛在分布。早期的生成建模如高斯混合模型(GMM),隱馬爾可夫模型(HMM)在表達(dá)能力和可擴(kuò)展性方面存在局限性,在現(xiàn)實(shí)數(shù)據(jù)的復(fù)雜性面前表現(xiàn)得較為吃力。 隨后生成建模成功地與深度學(xué)習(xí)結(jié)合,產(chǎn)生了著名的變分自編碼器(VAE)、生成對(duì)抗網(wǎng)絡(luò)(GAN),等等。
深度生成模型還有基于能量的模型和基于流的模型,等等。 擴(kuò)散模型 擴(kuò)散模型于2020年被提出,但其發(fā)源可以追溯到2015年,理論背景甚至可以追溯到20世紀(jì)對(duì)于隨機(jī)過(guò)程、隨機(jī)微分方程的研究。 擴(kuò)散模型通過(guò)向原始數(shù)據(jù)逐步加入噪聲來(lái)破壞原始信息,然后再逆轉(zhuǎn)這一過(guò)程生成樣本。相較于以往的深度生成模型,擴(kuò)散模型生成的數(shù)據(jù)質(zhì)量更高、多樣性更強(qiáng),并且擴(kuò)散模型的結(jié)構(gòu)也很靈活,這使得擴(kuò)散模型很快成為了研究和應(yīng)用的熱點(diǎn)。在《擴(kuò)散模型:生成式AI模型的理論、應(yīng)用與代碼實(shí)踐》一書(shū)中就詳細(xì)討論了擴(kuò)散模型與其他深度生成模型的關(guān)系。 我們可以考慮一個(gè)物理過(guò)程來(lái)通俗地理解擴(kuò)散模型。把真實(shí)世界的數(shù)據(jù)比作空氣中的一團(tuán)分子,它們互相交織,形成了具有特定結(jié)構(gòu)的整體。由于這個(gè)分子團(tuán)過(guò)于復(fù)雜,我們無(wú)法直接了解其結(jié)構(gòu),但我們可以理解在空氣中做無(wú)規(guī)則運(yùn)動(dòng)的某種粒子,即對(duì)應(yīng)著服從標(biāo)準(zhǔn)高斯分布的某個(gè)變量。從無(wú)規(guī)則運(yùn)動(dòng)的粒子出發(fā),我們不斷變換這些粒子的相對(duì)位置,每次只變換一小步,最終將這些粒子的分布狀態(tài)變換為我們想要的復(fù)雜的分子的形態(tài)。也就是說(shuō),從純?cè)肼曢_(kāi)始,我們進(jìn)行了很多小的“去噪”變換,逐漸地將噪聲的分布轉(zhuǎn)換為數(shù)據(jù)的分布,這樣就可以利用得到的數(shù)據(jù)分布進(jìn)行采樣,得到新的數(shù)據(jù)??梢钥吹?,我們需要知道的信息就是——該如何進(jìn)行每一步的變換。這比直接學(xué)習(xí)原始數(shù)據(jù)的分布簡(jiǎn)單得多,并且樸素地解釋了擴(kuò)散模型的有效性。《擴(kuò)散模型:生成式AI模型的理論、應(yīng)用與代碼實(shí)踐》一書(shū)會(huì)詳細(xì)、嚴(yán)格地介紹擴(kuò)散模型的原理和算法。 擴(kuò)散模型也有其內(nèi)在的缺點(diǎn),如采樣速度慢、對(duì)結(jié)構(gòu)化數(shù)據(jù)處理能力較差,等等。例如,擴(kuò)散模型在將噪聲分布逐步轉(zhuǎn)換為數(shù)據(jù)分布的過(guò)程中需要大量調(diào)用神經(jīng)網(wǎng)絡(luò),這就導(dǎo)致了生成高質(zhì)量圖片時(shí)采樣時(shí)間較長(zhǎng)。后續(xù)大量的研究就是致力于提升擴(kuò)散模型各個(gè)方面的性能,使擴(kuò)散模型可以真正幫助人們高效解決現(xiàn)實(shí)問(wèn)題。《擴(kuò)散模型:生成式AI模型的理論、應(yīng)用與代碼實(shí)踐》一書(shū)將詳細(xì)分析擴(kuò)散模型的優(yōu)缺點(diǎn),并系統(tǒng)地講解擴(kuò)散模型的進(jìn)一步發(fā)展。 擴(kuò)散模型應(yīng)用 得益于擴(kuò)散模型的強(qiáng)大性能,圖片生成的應(yīng)用Stable Diffusion、DALLE·2、Midjourney、妙鴨相機(jī)等在實(shí)際生產(chǎn)中都有利用擴(kuò)散模型進(jìn)行創(chuàng)造性內(nèi)容生成。 這些應(yīng)用程序利用擴(kuò)散模型進(jìn)行條件生成,即基于輸入,引導(dǎo)、生成符合條件的內(nèi)容。這種引導(dǎo)可以是自然語(yǔ)句,可以是部分圖像,也可以用低分辨率的圖像作為引導(dǎo),生成高分辨率的圖像,等等。 此外還有利用擴(kuò)散模型生成語(yǔ)音、視頻等各種模態(tài)數(shù)據(jù)的應(yīng)用。藝術(shù)創(chuàng)作者們可以使用這些應(yīng)用進(jìn)行直接創(chuàng)作,或者使用它來(lái)提供靈感。在生成內(nèi)容上進(jìn)行修改可以大大提升工作效率。 但同時(shí),擴(kuò)散模型的強(qiáng)大能力和廣泛引用也導(dǎo)致了潛在的負(fù)面影響。
此外,擴(kuò)散模型在科學(xué)研究領(lǐng)域也有應(yīng)用,比如分子結(jié)構(gòu)生成、分子動(dòng)力學(xué)模擬。擴(kuò)散模型可以生成表示分子的3D表示、分子的圖結(jié)構(gòu),或者二者同時(shí)生成,以及控制生成分子的性質(zhì)。這對(duì)于AI制藥領(lǐng)域是又一大研究貢獻(xiàn)。 在工業(yè)界的應(yīng)用有點(diǎn)云生成和補(bǔ)全、異常檢測(cè)等。 在醫(yī)學(xué)領(lǐng)域的應(yīng)用包括醫(yī)學(xué)圖像重建和病灶檢測(cè)等。 總的來(lái)看,擴(kuò)散模型在各個(gè)領(lǐng)域正處于一個(gè)百花齊放的狀態(tài)。 《擴(kuò)散模型:生成式AI模型的理論、應(yīng)用與代碼實(shí)踐》一書(shū)也會(huì)詳細(xì)介紹擴(kuò)散模型在各個(gè)領(lǐng)域的應(yīng)用研究。 為了推進(jìn)擴(kuò)散模型的發(fā)展和應(yīng)用,需要多個(gè)學(xué)科領(lǐng)域的合作,包括機(jī)器學(xué)習(xí)算法、深度生成學(xué)習(xí)理論、隨機(jī)分析理論,各領(lǐng)域的應(yīng)用研究、隱私保護(hù)、法律與監(jiān)管要求等。 目前擴(kuò)散模型在各領(lǐng)域的發(fā)展和應(yīng)用的介紹分散于論文和網(wǎng)絡(luò)上,因此有必要在《擴(kuò)散模型:生成式AI模型的理論、應(yīng)用與代碼實(shí)踐》這本書(shū)中進(jìn)行系統(tǒng)地介紹。 《擴(kuò)散模型 : 生成式AI模型的理論、應(yīng)用與代碼實(shí)踐》是一本從淺入深、全面系統(tǒng)地介紹擴(kuò)散模型的書(shū)籍,其具備豐富的實(shí)踐案例,以及前沿視角,受到一眾專家、學(xué)者的認(rèn)可、推薦。 |
|
來(lái)自: 天承辦公室 > 《022機(jī)器之心》