十二月上旬,AIGC圈子復現(xiàn)了年初Sora曝光時的熱鬧:
一方面,OpenAI憋了大半年的Sora終于開放使用,服務器隨即被擠爆宕機;而在另一邊,國產視頻模型也開始高強度更新產出。比如快手的可靈AI,現(xiàn)在就已經進化到可以拿來拍電影的階段了。
月初,由可靈牽頭的國內首個“AIGC導演共創(chuàng)計劃”,對外發(fā)布了首批總共9部短片,快手搜這個計劃名字就都能看。
9部片子來自圈內9位知名導演和AIGC作者協(xié)作,導演組這邊,像是擔任過《英雄本色》、《臥虎藏龍》美術指導的葉錦添,《海洋天堂》和《北京遇上西雅圖》系列導演薛曉路,風格各異但大咖確實不少。
這些片子有個共同點:都是AI做的——都是拿可靈AI視頻模型生成的,正片時長五六分鐘左右。
放在影視行業(yè),這就只是一部微電影的體量,或者兩三集時下大火的短劇時長,內容上基本做到了劇情連貫,但畫面部分槽點還是頗多。
不過這些并不重要,重要的是所有片子100%由AI制作,雖然后續(xù)訪談中導演們都談到了“確實需要反復地生成和調優(yōu)”。
AI拍電影,現(xiàn)在終于不是噱頭了。
AIGC的一大步
角色、故事,然后做出音視頻和表演等等要素,構成了我們認知里的“電影”,不管大制作還是小成本,微電影還是好萊塢。
首先的要求就是,角色得確定,故事要連貫。傳統(tǒng)影視制作要劇本、選角,動畫電影要原畫設計,基本定下來之后再開工。
但“連貫性”和“確定性”,對于AI生成視頻模型來說,一直都是個巨大的難題。幾秒鐘一個場景或許還行,一旦時間長了、提示詞復雜場景比較多,畫面主體、環(huán)境等等很可能就“千變萬化”,圓的變成了方的,下一個場景也許又變回去了。
并且,這種變化在“黑箱”中,幾乎不可控。
今年七月份,藍媒匯受邀參加了一場頭部短劇團隊的媒體溝通會,AI生成視頻的在話題會上聊得非常熱鬧。
從形式上看,短劇本身的體量決定了行業(yè)的每部作品都不會也不能是大制作,所以如果能用AI直接生成內容,理論上會帶來大幅度的降本增效。
但一線短劇從業(yè)者,在當時給出了暫時性的否定回答:AIGC目前還不太能用,原因概括就是“質價比不高”。
首先,目前AI視頻模型的調用成本還比較高,這個成本是相對于生成結果來說的。
假設找專業(yè)團隊做后期特效等內容是花一份錢辦一份事,那么,同樣的需求讓AI來做,結果很可能是花了半份錢,卻只辦了不到1/10的事,且后面還要多次返工,勞神費力、得不償失。
不好用導致的不劃算,成了AI視頻生成模型,在短劇這個幾乎是目前最小單位的影視作品賽道中,形成供需關系的阻力:技術有了但尚未形成生產力。
會上主理人大膽做了一個預判,說“至少半年”。
五個月過后,可靈還真就掏出來了這種生產力,至少是生產力的雛形。
類比拍電影,就是主角、場景什么的要素都能固定下來了,能拍成作品了,以前的AIGC是沒辦法做出這種長時間的連貫性和一致性的。
好在哪里?差在哪里?
具體看看影片,拿時長最長的一部說下細節(jié):
開頭這段講故事的起因,小藍和父母通過電腦視頻通話,了解到父母正在家鄉(xiāng)準備收麥子,引出后面派機器人過去幫忙這么一套情節(jié)。
劇情邏輯本身不用在意,這個畫面確實有些亮點。
首先,第一個鏡頭中固定位置的電腦很穩(wěn)定,包括背部的蘋果logo都沒有隨著時間推進出現(xiàn)變化,AI顯然是理解了“電腦”在場景里是個固定物體的意思,視頻通話不影響電腦外觀。
人物方面,可以看到小藍和父母,三個人嘴部的動作和音頻內容大體是能對上的,至少開閉時間正確。
導演賈樟柯在訪談里專門提了這個點,說用到了可靈AI新推出的“對口型”功能,并挑戰(zhàn)了“對口型”功能講方言的能力,這個功能讓用戶可以在生成人物視頻后上傳音頻,再將音頻內容與視頻人物嘴型同步,以滿足影視創(chuàng)作中人物對白的基本需要。
而且,這里導演用的還是方言,山西汾陽話。
當然,小問題也不是沒有,后面這段畫面在短時間內切換了三個場景,小鎮(zhèn)里找路、搭車,最后找到麥田。
在這三個場景的切換中,人物主體雖然保持了大面上的一致,都是人臉+白色機械為主體的男性機器人,但不管是面部細節(jié)還是白色機體的構造,三個場景明顯細看都能看出是三個完全不同的“角色”。
這就是前面提到的“一致性”問題,不管是三段內容分別生成,還是同一段提示詞寫了三個場景切換,畫面主體人物依然出現(xiàn)了細節(jié)上的不可控。
用影視的標準去評價,這當然是有問題,但對于AIGC來說,這種程度的一致性保持,考慮到全片五分多鐘的時長,其實還算比較不錯。
這部片子的最初設計中,機器人的設定是下圖這個更為抽象的純機器形象,更據(jù)稱“更加難以把控畫面的一致性”,AIGC作者Jade Wu的解決辦法就是換成了一個帶有人像的半機器人設計。也就是說,目前的畫面狀態(tài)實際上已經費了一番功夫去調整。
前段時間,OpenAI 的視頻王炸Sora對外放出,從大量實測畫面來看,Sora在畫面穩(wěn)定性和一致性上的獨屬t0應該是毫無疑問的。
而且很值得注意的點是,不少Sora生成的擬真畫風視頻中,畫面幾乎看不到很濃的“AI味”,而是有種世界模型概念下物理模擬出的實拍感。
時長方面,可靈等目前分鐘級以上的能力已經非??捎^,下一步要期待的,還是模型生成的畫面能否去掉AI味,做到“以假亂真”。
技術層面的有限差距和追進過程,反而是值得期待的。