AI真的要“斷糧”了？OpenAI創(chuàng)始人的最新警告震動(dòng)全球，但他可能忽略了這個(gè)事實(shí)...

鄭飛3bbr5o1bk2 2024-12-16

展開全文

收起

你可能想象不到，就在幾天前的NeurIPS會(huì)議上，OpenAI的聯(lián)合創(chuàng)始人Ilya Sutskever拋出了一個(gè)令整個(gè)AI圈震驚的觀點(diǎn)：'我們熟知的預(yù)訓(xùn)練模式必將終結(jié)。'

等等，預(yù)訓(xùn)練不是AI發(fā)展的基石嗎？為什么會(huì)終結(jié)？

預(yù)訓(xùn)練是 AI 模型開發(fā)的第一階段，大語言模型通過互聯(lián)網(wǎng)、書籍等海量未標(biāo)記數(shù)據(jù)來學(xué)習(xí)模式。

讓我們先回到AI發(fā)展的核心驅(qū)動(dòng)力 -算法、算力、數(shù)據(jù)這'三駕馬車'。如今，隨著硬件升級(jí)和數(shù)據(jù)中心擴(kuò)建，算力呈指數(shù)級(jí)增長；隨著技術(shù)突破和持續(xù)創(chuàng)新，算法不斷進(jìn)步。?

在演講中，Sutskever 表示：AI的訓(xùn)練數(shù)據(jù)，正像石油一樣，面臨著耗竭的危機(jī)。雖然計(jì)算能力在硬件升級(jí)、算法改進(jìn)和數(shù)據(jù)中心擴(kuò)建的推動(dòng)下不斷提升，但一個(gè)無法改變的事實(shí)是：'我們只有一個(gè)互聯(lián)網(wǎng)'。

Sutskever將訓(xùn)練數(shù)據(jù)比作不可再生資源，這個(gè)比喻格外深刻。雖然數(shù)據(jù)本身可以被復(fù)制，但AI系統(tǒng)能從中提取的實(shí)質(zhì)性知識(shí)和洞察是有限的，這種限制無法通過簡單的數(shù)據(jù)復(fù)制來突破。就像反復(fù)閱讀同一本書并不會(huì)獲得新的知識(shí)一樣，AI系統(tǒng)需要真正有價(jià)值的新數(shù)據(jù)才能提升能力。

不過，筆者對這個(gè)觀點(diǎn)并不完全認(rèn)同。

中國古人講“溫故而知新”，同樣的內(nèi)容在不同階段重新學(xué)習(xí)，往往能獲得新的理解和啟發(fā)。對AI系統(tǒng)來說也是如此，隨著算法的進(jìn)步和模型架構(gòu)的改進(jìn)，重新處理已有數(shù)據(jù)可能會(huì)挖掘出此前未能發(fā)現(xiàn)的模式和關(guān)聯(lián)。

而且，現(xiàn)有的互聯(lián)網(wǎng)數(shù)據(jù)質(zhì)量參差不齊，如果能通過更好的數(shù)據(jù)清洗和篩選提升訓(xùn)練數(shù)據(jù)的質(zhì)量，可能比簡單地?cái)U(kuò)大數(shù)據(jù)規(guī)模帶來更顯著的效果提升。

當(dāng)然，高質(zhì)量的新數(shù)據(jù)依然是AI發(fā)展的重要推動(dòng)力，它能為模型帶來全新的知識(shí)領(lǐng)域和應(yīng)用場景。關(guān)鍵在于如何平衡和優(yōu)化這兩個(gè)維度：一方面深化對已有數(shù)據(jù)的理解，另一方面不斷拓展新的數(shù)據(jù)來源。而且，互聯(lián)網(wǎng)也并非靜態(tài)存在，每天都有海量新的內(nèi)容被創(chuàng)造出來。

更值得深思的是，如果說目前的數(shù)據(jù)已經(jīng)接近枯竭，那就意味著現(xiàn)有的大模型已經(jīng)用盡了世界上所有的有效數(shù)據(jù)，卻只達(dá)到了目前這樣的水平——這顯然不夠令人信服。事實(shí)上，我們有理由相信，無論是在數(shù)據(jù)利用效率還是模型架構(gòu)上，都還有很大的優(yōu)化空間。

因此，僅僅因?yàn)榭赡苊媾R'數(shù)據(jù)枯竭'就斷言AI發(fā)展將遇到天花板，似乎還為時(shí)尚早。

從十層神經(jīng)網(wǎng)絡(luò)到現(xiàn)實(shí)的瓶頸

為了更好的理解預(yù)訓(xùn)練，讓我們回溯到10年前。2014年，Sutskever提出了一個(gè)看似簡單的'深度學(xué)習(xí)假設(shè)'：一個(gè)十層神經(jīng)網(wǎng)絡(luò)就能模仿人類在瞬間完成的任何任務(wù)。選擇十層的原因很實(shí)際——當(dāng)時(shí)的技術(shù)條件只能支持這個(gè)規(guī)模。這個(gè)假設(shè)建立在人工神經(jīng)元和生物神經(jīng)元的相似性基礎(chǔ)上。

但有一個(gè)關(guān)鍵的區(qū)別：人腦可以自我重構(gòu)，而AI系統(tǒng)需要與其參數(shù)規(guī)模相匹配的海量訓(xùn)練數(shù)據(jù)。這就像一個(gè)永遠(yuǎn)饑餓的巨人，需要越來越多的“養(yǎng)料”才能繼續(xù)成長。

這個(gè)想法開創(chuàng)了預(yù)訓(xùn)練時(shí)代，催生了GPT-2、GPT-3等里程碑式的模型。這一重大進(jìn)展要?dú)w功于前OpenAI同事Alec Radford和Anthropic創(chuàng)始人Dario Amodei的貢獻(xiàn)。但現(xiàn)在，Sutskever認(rèn)為這種方法似乎已經(jīng)觸及天花板。有意思的是，Alec Radford和Dario Amodei倒沒有提出這樣的觀點(diǎn)。

突破瓶頸：三個(gè)可能的方向

面對這一挑戰(zhàn)，Sutskever指出了幾個(gè)潛在的突破方向：

-AI代理：發(fā)展具有真正獨(dú)立思考能力的系統(tǒng)，不再依賴純數(shù)據(jù)訓(xùn)練

-合成數(shù)據(jù)：創(chuàng)造高質(zhì)量的新型訓(xùn)練數(shù)據(jù)，他稱這是'重大挑戰(zhàn)'

-增強(qiáng)推理計(jì)算：在推理階段投入更多計(jì)算資源，而不是一味擴(kuò)大預(yù)訓(xùn)練規(guī)模

他預(yù)測，下一代模型將具有'真正的代理特性'。'代理' (Agent) 已成為 AI 領(lǐng)域的熱詞，雖然他沒有詳細(xì)解釋，但業(yè)內(nèi)普遍認(rèn)為這指的是能夠自主執(zhí)行任務(wù)、做決策并與軟件交互的 AI 系統(tǒng)。盡管當(dāng)前系統(tǒng)的'代理性'還很初級(jí)，但隨著獨(dú)立思考和推理能力的發(fā)展，這種情況將發(fā)生改變。

除了代理特性，他表示未來的系統(tǒng)還將具備推理能力。不同于當(dāng)前主要依賴模式匹配的 AI，未來的 AI 系統(tǒng)將能夠像人類思考一樣逐步推理。

Sutskever 指出，系統(tǒng)的推理能力越強(qiáng)，其行為就越難預(yù)測，就像頂級(jí)國際象棋 AI 的走法經(jīng)常讓特級(jí)大師也感到意外一樣。

'它們能夠從有限數(shù)據(jù)中獲取洞察，'他說，'而且不會(huì)產(chǎn)生混淆。'而且向真實(shí)推理的轉(zhuǎn)變可能有助于減少AI的'幻覺'現(xiàn)象。

在演講中，他還將 AI 系統(tǒng)的發(fā)展與進(jìn)化生物學(xué)做了對比，引用了關(guān)于物種大腦和體重關(guān)系的研究。他指出，大多數(shù)哺乳動(dòng)物的大腦體重比遵循一定規(guī)律，但人類祖先卻呈現(xiàn)出完全不同的發(fā)展軌跡。

圖：Ilya Sutskever 將人工智能系統(tǒng)的擴(kuò)展與進(jìn)化生物學(xué)進(jìn)行了比較

他認(rèn)為，就像進(jìn)化找到了人類大腦發(fā)展的新路徑，AI 可能也會(huì)找到突破當(dāng)前預(yù)訓(xùn)練模式的新方向。

從理論到實(shí)踐：SSI的新探索

圖：OpenAI聯(lián)合創(chuàng)始人，前首席科學(xué)家Ilya Sutskever

理念的轉(zhuǎn)變促使Sutskever在2024年5月離開OpenAI后創(chuàng)立了Safe Superintelligence Inc（SSI）。這家估值50億美元的創(chuàng)業(yè)公司已獲得超過10億美元融資，致力于開發(fā)安全的超智能系統(tǒng)。

這場“數(shù)據(jù)危機(jī)”很可能重塑整個(gè)AI行業(yè)的發(fā)展路徑。但與1970年代的石油危機(jī)不同，數(shù)據(jù)資源的優(yōu)化還有更多可能性：提升數(shù)據(jù)質(zhì)量、改進(jìn)處理方法、深化對已有數(shù)據(jù)的理解，以及探索新的學(xué)習(xí)范式。

在這個(gè)充滿挑戰(zhàn)和機(jī)遇的時(shí)代，誰能在數(shù)據(jù)質(zhì)量提升、已有數(shù)據(jù)深度挖掘以及新數(shù)據(jù)獲取三個(gè)維度取得突破，誰就可能成為下一個(gè)AI時(shí)代的引領(lǐng)者。

本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間，所有內(nèi)容均由用戶發(fā)布，不代表本站觀點(diǎn)。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息，謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請點(diǎn)擊一鍵舉報(bào)。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來自：鄭飛3bbr5o1bk2 > 《2024》

舉報(bào)/認(rèn)領(lǐng)