近一周,相信大家的朋友圈都被一個(gè)詞刷屏了:Sora。 2月16日凌晨,在沒有任何預(yù)兆和消息透露的情況下,OpenAI突然發(fā)布了自己的首個(gè)文生視頻模型:Sora,大幅刷新行業(yè)多個(gè)指標(biāo),將視頻生成的時(shí)長一次性提升了15倍,顛覆了生成式 AI 在視頻領(lǐng)域的全球市場(chǎng)格局。 OpenAI新爆款Sora的熱度持續(xù)發(fā)酵,以黑馬之姿占據(jù)各大平臺(tái)話題中心——馬斯克感嘆“人類愿賭服輸”;楊立昆狠批“Sora不是世界模型,參數(shù)量或僅30億”;周鴻祎預(yù)言“AGI實(shí)現(xiàn)將從10年縮短到1年”... 似乎一夜之間,人們又回到了一年多前那個(gè)令人焦慮的“ChatGPT時(shí)刻”。在爭(zhēng)議之外,Sora到底“?!痹谀模繉?duì)于創(chuàng)業(yè)者和行業(yè)來講,會(huì)引發(fā)“地震”嗎? 丁磊博士在AI領(lǐng)域有20多年的研究和工作經(jīng)驗(yàn),曾為硅谷公司PayPal創(chuàng)立人工智能平臺(tái),并出版了《生成式人工智能》一書。中信書院特邀丁磊博士,以資深從業(yè)者的視角,為我們理清思路。 來 源 | 中信書院(ID:citicbook) 作 者 | 丁 磊 編 輯 | 三 昧 01從文字到視頻Sora到底有多“可怕”OpenAI發(fā)布了一個(gè)由Sora據(jù)一段文字生成的長達(dá)60秒的視頻,要知道就在不久之前,谷歌公司發(fā)布的最新視頻生成模型VideoPoet,其生成的視頻也就僅僅10秒。 當(dāng)然,Sora的突破不僅僅在于時(shí)長,這個(gè)60秒的視頻,不管是流暢度和穩(wěn)定性,還是對(duì)光影反射、運(yùn)動(dòng)方式等細(xì)節(jié)的處理方面,特別是對(duì)物理世界的學(xué)習(xí)能力,都表現(xiàn)出極高的水準(zhǔn)。 那Sora到底是怎樣根據(jù)一段文字生成如此驚艷的視頻? 我們知道視頻是一幀一幀的圖片連接而成的,而想要了解“文字生成視頻”,我們應(yīng)該先了解“文字生成圖片”。 近兩年,隨著Midjourney、Stable Diffusion、Dall-E等圖片生成工具的出現(xiàn)以及性能的升級(jí)強(qiáng)化,幾乎是和ChatGPT一道,將人們對(duì)生成式AI的關(guān)注度推到了一個(gè)前所未有的高度。這些工具能根據(jù)一段提示詞創(chuàng)作出風(fēng)格迥異、內(nèi)容豐富的圖片,其對(duì)細(xì)節(jié)的處理已經(jīng)相當(dāng)出色(如圖1)。 圖1:圖片生成工具生成的圖片 圖源:https:///dall-e-3 這些圖片生成工具的背后,是一項(xiàng)稱為Diffusion(擴(kuò)散)模型的關(guān)鍵技術(shù),它能夠?qū)⒁粡堮R賽克一樣的圖片,不斷結(jié)合提示詞提供的信息,多次還原,最后形成一張完整、清晰的圖片。 Diffusion模型完整的擴(kuò)散過程包括正向擴(kuò)散和逆向擴(kuò)散兩個(gè)過程(如圖2),在正向擴(kuò)散過程中通過逐步添加高斯噪聲使得圖片變得模糊,而在逆向擴(kuò)散過程中通過學(xué)習(xí)正向反過程來訓(xùn)練模型,兩者結(jié)合形成最終的Diffusion模型。 圖2:Diffusion模型的擴(kuò)散過程 既然有了圖片,為了得到最終的視頻,我們就需要想辦法讓圖片動(dòng)起來,這就要用到大名鼎鼎的Transformer模型了。 Transformer模型是一個(gè)用來處理各類序列問題的強(qiáng)大模型,一類是文本生成,ChatGPT就是利用Transformer模型根據(jù)用戶輸入的提示詞,來生成連續(xù)的文字內(nèi)容的。另一類是視頻生成,由于視頻本質(zhì)上是由連續(xù)的圖片幀組成的,我們同樣可以將視頻理解為一種圖像數(shù)據(jù)序列,無非是其在圖像領(lǐng)域的自然延展。 實(shí)際運(yùn)用過程中,Sora把視頻分解為更小的數(shù)據(jù)單元Patch(時(shí)空碎片),每個(gè)Patch相當(dāng)于文本序列模型中的一個(gè)Token(詞元),而這也是Sora最重要的理念之一。 從Sora生成的視頻中我們似乎可以察覺到,它就像具備了理解世界通識(shí)的能力,能夠準(zhǔn)確的模擬事物在現(xiàn)實(shí)世界中的真實(shí)表現(xiàn),例如最基本的動(dòng)作連貫性、流體運(yùn)行的形態(tài)、光影隨動(dòng)物的變化、物體尺寸的比例等等這些,都表現(xiàn)的像是真實(shí)拍攝的視頻一樣,令人嘆為觀止。 比如,給出提示詞:“攝像機(jī)跟隨一輛白色老式SUV,頂部有黑色行李架,它加速通過一條陡峭的土路,周圍是松樹,地勢(shì)陡峭,車輪卷起了塵土...”,Sora生成了汽車在山間疾馳的視頻(如圖3),此時(shí)“世界模型”就需要預(yù)測(cè)汽車輪胎和路面相互作用所形成的車輪印跡、汽車疾馳時(shí)揚(yáng)起的塵土和一系列的光影變化等。 圖3:Sora生成的視頻部分截取 圖源:OpenAI 官網(wǎng) Sora的橫空出世,不僅帶來了視頻生成領(lǐng)域全新的應(yīng)用體驗(yàn),其兼具的內(nèi)容生成和理解世界的能力更是讓人們對(duì)生成式AI有了新的認(rèn)識(shí)和思考。 02三個(gè)維度看Sora引發(fā)的“地震”Sora真正令人震驚之處,是在于模型能夠理解物體在物理世界中的存在方式和運(yùn)行規(guī)律,模型可以學(xué)習(xí)物理世界的規(guī)律又可以準(zhǔn)確模擬出真實(shí)的物理世界。隨著這種能力的進(jìn)一步深化,由Sora推動(dòng)的人工智能跨越式發(fā)展,將極大拉近我們與更具通用性的未來智能世界的距離。 引爆AI產(chǎn)業(yè)投資熱情 資本市場(chǎng)一向是很敏感的,Sora引爆了資本對(duì)AI產(chǎn)業(yè)的投資熱情,涉及AI概念的賽道整體上漲,更多人看到了生成式AI的發(fā)展和希望。其中走在前列的仍是科技巨頭,國內(nèi)外科技巨頭都在不斷增加對(duì)AI技術(shù)的持續(xù)投入。 緊隨其后的,無論是互聯(lián)網(wǎng),還是信息、金融、零售等等各行業(yè),也有更多企業(yè)宣布積極投入大模型研發(fā)和AI的相關(guān)布局。越來越多的投資者也意識(shí)到,想要讓人工智能在特定的行業(yè)內(nèi)得到更加廣泛和深入的應(yīng)用,需要更多的投入和耐心,而這對(duì)生產(chǎn)力水平的提升,以及對(duì)產(chǎn)業(yè)結(jié)構(gòu)的調(diào)整和發(fā)展也有著深遠(yuǎn)的意義。 給行業(yè)帶來“巨震” 最先受到影響的無疑是影視、短視頻、廣告、互娛、媒體等這些行業(yè)。Sora能夠快速生成高質(zhì)量視頻內(nèi)容,大幅降低了特效和高風(fēng)險(xiǎn)鏡頭的制作成本,提高內(nèi)容制作效率。借助Sora,廣告公司則可以迅速制作符合市場(chǎng)需求的視頻廣告,縮短了創(chuàng)意到成品的周期。 而這必將是一把雙刃劍,視頻內(nèi)容制作成本和門檻大幅降低的同時(shí),也會(huì)加劇行業(yè)的競(jìng)爭(zhēng),它對(duì)創(chuàng)作者提出了更高的要求,創(chuàng)作者必須不斷創(chuàng)新,才能保持其作品的吸引力和市場(chǎng)份額。 我們離失業(yè)還遠(yuǎn)嗎? 不僅僅是視頻,生成式AI帶動(dòng)文本、圖像、音頻等各種內(nèi)容生成技術(shù)快速發(fā)展,應(yīng)用場(chǎng)景快速演化,各行各業(yè)都會(huì)受到影響,這也加劇了人們擔(dān)憂和隱慮,有人不免驚呼“硅基生命終將取代碳基生命”“AI接管人類社會(huì)的步伐在加快”等。有些人可能徹底選擇“躺平”了,認(rèn)為AI進(jìn)化如此之快,甚至可以學(xué)習(xí)物理世界了,我們離失業(yè)還遠(yuǎn)么! 目前,各種生成式AI模型仍在研發(fā)階段,還有待進(jìn)一步落地應(yīng)用,談?wù)撌欠衲苋〈祟惖墓ぷ鬟€為時(shí)過早,但是這不可否定AI的影響力。AI帶來的改變是深入各行各業(yè)和我們生活的每個(gè)角落的。 AI的快速進(jìn)步會(huì)極大的提升生產(chǎn)效率和工作方式,重新定義人在工作中的位置。隨著越來越多的新興職業(yè)和崗位的出現(xiàn),例如AI產(chǎn)品經(jīng)理、提示詞(Prompt)工程師、AI創(chuàng)意師、AI 調(diào)校師等等,這些職業(yè)的需求和數(shù)量也將逐步提升,可以說,AI也帶來職業(yè)結(jié)構(gòu)的改變。 與其說AI將取代從業(yè)者,不如說AI代替的是枯燥繁重的工作內(nèi)容,AI淘汰的不是人類,是落后的生產(chǎn)力。對(duì)于AI,我們不應(yīng)該將其視為競(jìng)爭(zhēng)對(duì)手,而是將其視作我們的工作伙伴,訓(xùn)練并加以使用。正所謂,君子生非異也,善假于物也。 03由Sora到世界模型生成式AI的未來已來面對(duì)Sora帶來的震驚,人們的反應(yīng)也可以說是喜憂參半。一方面見證了生成式AI的又一“奇跡”,另一方面也興許會(huì)發(fā)現(xiàn)大語言模型離解決實(shí)際問題的距離還很遠(yuǎn),而且“馴服”大模型仍需要時(shí)間。 有研究聲稱隨著越來越多人使用,大模型似乎變笨了,甚至還出現(xiàn)了“幻覺”。出現(xiàn)這種問題的主要原因是目前主流的生成式模型仍然缺少對(duì)于物理世界的理解,以致于對(duì)于一個(gè)正常人來說非常容易解答的問題,在大模型看來卻無法給出正確的輸出。 Sora的出現(xiàn)讓我們更加清晰的認(rèn)識(shí)到了這個(gè)問題,也為生成式AI的未來發(fā)展提供了方向,就是讓大模型認(rèn)識(shí)和學(xué)習(xí)物理世界,建立起大模型與物理世界的聯(lián)通。這必將帶來AI新的應(yīng)用和突破。有人認(rèn)為,Sora意味著實(shí)現(xiàn)通用人工智能的時(shí)間被大大縮短。 人腦認(rèn)識(shí)事物的過程類似一個(gè)模型。從認(rèn)識(shí)論的角度來看,在人腦認(rèn)識(shí)的過程中會(huì)逐漸形成“關(guān)于世界的模型”。人的主觀知識(shí)并不一定從一開始就符合現(xiàn)實(shí)規(guī)律,但是通過不斷的實(shí)踐和不斷的比較中,從模型獲得的預(yù)期結(jié)果與實(shí)踐的結(jié)果,來修正主觀認(rèn)識(shí),以減少模型預(yù)測(cè)與實(shí)踐之間的差異。這種調(diào)整機(jī)制可以使得人腦關(guān)于世界的模型更接近真理。 這就好比說,體育運(yùn)動(dòng)是人類對(duì)物理世界認(rèn)知和學(xué)習(xí)過程的體現(xiàn)。以乒乓球運(yùn)動(dòng)為例,運(yùn)動(dòng)員一開始能掌握最簡(jiǎn)單的推、攻技巧,對(duì)于常規(guī)的來球,一般都能正常應(yīng)對(duì),回球路線也符合自己的預(yù)期。隨著來球的速度、旋轉(zhuǎn)的變化,運(yùn)動(dòng)員發(fā)現(xiàn)以往的接球技巧很難完全應(yīng)對(duì)了,回球時(shí)而下網(wǎng)、時(shí)而出臺(tái)。 運(yùn)動(dòng)員逐漸認(rèn)知到,通過調(diào)整球拍接球的力度和角度可以應(yīng)對(duì)不同的來球情況。隨著接觸到的來球情況變得多樣,大腦里就會(huì)構(gòu)建越來越復(fù)雜的“世界模型”,之后在賽場(chǎng)上無論遇到什么情況,都能應(yīng)對(duì)自如。這就是人類的“世界模型”認(rèn)知和學(xué)習(xí)的過程。 “世界模型”也是心理學(xué)和工程科學(xué)上的一個(gè)重要概念。例如,著名人工智能科學(xué)家Yann LeCun(楊立昆)在談?wù)摍C(jī)器智能的時(shí)候就提到了世界模型的重要性:世界模型模塊構(gòu)成了架構(gòu)中最復(fù)雜的部分,其作用包括:估計(jì)世界狀況的缺失信息,以及預(yù)測(cè)世界的未來狀態(tài)(如圖4)。 圖4:自主智能的系統(tǒng)架構(gòu)(在原圖基礎(chǔ)上有簡(jiǎn)化)圖源:Yann LeCun,“A Path Towards Autonomous Machine Intelligence” 世界模型可以被看作是世界相關(guān)方面的一種“模擬器”,對(duì)真實(shí)的物理世界進(jìn)行建立模型,從而讓機(jī)器像人類一樣,對(duì)世界有一個(gè)全面而準(zhǔn)確的認(rèn)知,可以預(yù)測(cè)世界的自然演變,或者可以預(yù)測(cè)由特定行為產(chǎn)生的未來世界狀態(tài)。 回到對(duì)Sora的討論,Sora帶給人們的震撼是,它似乎通過學(xué)習(xí),不斷締造物理場(chǎng)景下的“知識(shí)體系”,通過融匯這些知識(shí),生成高質(zhì)量的視頻內(nèi)容,給人類帶來以假亂真的視覺感受。當(dāng)然,如果我們以“世界模型”的標(biāo)準(zhǔn)來重新審視目前的生成結(jié)果,Sora距離真正意義上的“世界模型”還有一段不小的距離。 一方面,Sora在處理復(fù)雜場(chǎng)景和物理效果時(shí)仍然存在一些不足。例如,當(dāng)場(chǎng)景中涉及到多個(gè)物體的交互或復(fù)雜的物理運(yùn)動(dòng)時(shí),Sora可能會(huì)出現(xiàn)失誤或偏差。 另一方面,Sora主要依賴于大量的訓(xùn)練數(shù)據(jù)來學(xué)習(xí)視頻的生成規(guī)律,這種方式雖然有效但在一定程度限制了其在新場(chǎng)景下的泛化能力。 Sora讓我們看到了AI形成“世界模型”的影子,一旦AI與物理世界建立了聯(lián)通,學(xué)習(xí)到了“世界模型”,AI的推理和預(yù)測(cè)能力將實(shí)現(xiàn)突破,這將在很多應(yīng)用場(chǎng)景和專業(yè)領(lǐng)域里大有可為。這樣的AI能夠執(zhí)行復(fù)雜任務(wù)和操作,甚至能夠完全模仿人類智能的行為,最終實(shí)現(xiàn)通用人工智能。 04引領(lǐng)科技革命為什么這次又是美國?我曾為硅谷公司PayPal建立了服務(wù)全球用戶的數(shù)據(jù)科學(xué)平臺(tái),在AI領(lǐng)域有20多年的研究和工作經(jīng)驗(yàn)。在硅谷工作多年,我非常了解為什么硅谷會(huì)出現(xiàn)OpenAI及山姆·奧特曼這樣的人——是硅谷的“工程師文化基因”造就了他們。 OpenAI是長在美國硅谷重視工程師地位的文化土壤里,有著強(qiáng)大的“工程師文化基因”,簡(jiǎn)單說就是工程師可以主導(dǎo)研發(fā),擁有更大自主性,發(fā)揮創(chuàng)造性的空間更大。 同時(shí),OpenAI堅(jiān)持產(chǎn)品驅(qū)動(dòng),沒有知識(shí)分子的清高,無論是Transformer還是Instruction Tuning等算法模型,不因?yàn)槭莿e人發(fā)明的就避之不用,而是秉承“拿來主義”,持續(xù)在自己的大模型里埋首用功。對(duì)一個(gè)企業(yè)來說,最大的價(jià)值創(chuàng)造永遠(yuǎn)在用戶使用的產(chǎn)品里。 那么,為什么谷歌等大公司目前在人工智能領(lǐng)域的研發(fā)都很難超越OpenAI? 一個(gè)關(guān)鍵因素是這些大公司還是按照原有的軟件研發(fā)方式研發(fā)新的AI技術(shù),將任務(wù)拆成不同的細(xì)分任務(wù),多部門人員各自負(fù)責(zé)細(xì)分業(yè)務(wù),這是一種“養(yǎng)雞模式”。 以大模型訓(xùn)練為核心的新興AI技術(shù)研發(fā),其本質(zhì)是一個(gè)很難拆解的任務(wù),需要核心領(lǐng)導(dǎo)層在技術(shù)、產(chǎn)品和業(yè)務(wù)等層面都有端到端的視野和管控能力。這更像是一種“養(yǎng)娃模式”,父母需要站在全局角度,親自教授培養(yǎng)孩子,也就是說孩子的教育不需要那么多老師,核心人物只要少數(shù)。據(jù)OpenAI發(fā)布的Sora技術(shù)報(bào)告,Sora作者團(tuán)隊(duì)僅有13人。 值得一提的是,OpenAI的CEO山姆·奧特曼,其個(gè)人能力就非常強(qiáng),不僅懂技術(shù),也懂商業(yè)運(yùn)作,甚至在去年底發(fā)生了舉世矚目的“宮斗”事件后,都能快速回歸原位,足見其影響力之強(qiáng)大。正是有這樣一位領(lǐng)導(dǎo)者,全局把控公司運(yùn)營方式,同時(shí)避免過多受股東制約,才能讓OpenAI始終走在AI技術(shù)創(chuàng)新的前沿。 就AI產(chǎn)業(yè)發(fā)展來說,中國的人才不比美國少,要想在AI競(jìng)爭(zhēng)中快速占據(jù)有利位置,不妨加快布局,充分尊重模型訓(xùn)練本身的規(guī)律,用客觀全面的AI思維,去迎接新一輪的挑戰(zhàn)。 現(xiàn)在大家普遍對(duì)人工智能感到焦慮,在我的新書《生成式人工智能——AIGC的邏輯與應(yīng)用》當(dāng)中,比較詳細(xì)地展望了AIGC的未來趨勢(shì)以及對(duì)個(gè)人的影響,我們身處在AI技術(shù)日益革新的世界中,每一個(gè)人,與其踟躕不定,不如就此前行。 |
|