當(dāng)前,人工智能持續(xù)升溫,大語言模型吸引了眾多人士的關(guān)注,并在全球范圍內(nèi)掀起了一股熱潮。人工智能的成功本質(zhì)上不是大算力“出奇跡”,而是改變了計算模型。本文首先肯定了數(shù)據(jù)對于人工智能的基礎(chǔ)性作用,指出合成數(shù)據(jù)將是未來數(shù)據(jù)的主要來源;然后回顧了計算模型的發(fā)展歷程,重點介紹了神經(jīng)網(wǎng)絡(luò)模型與圖靈模型的歷史性競爭,指出了大模型的重要標(biāo)志是機(jī)器涌現(xiàn)智能,強(qiáng)調(diào)大模型的本質(zhì)是“壓縮”,分析了大模型產(chǎn)生“幻覺”的原因;最后本文呼吁科技界在智能化科研中要重視大科學(xué)模型。 如今,大數(shù)據(jù)在降溫,而大模型還在持續(xù)升溫,AI for Science的驚艷成果正吸引著人們的眼球。如今,科技界對AI的認(rèn)識和如何選擇AI的技術(shù)發(fā)展路線還存在不少爭議,以下是爭議較多的幾個問題。 ● 以數(shù)據(jù)為中心,還是以模型為中心; ● 大語言模型(large language model,LLM)能否成為通用智能模型; ● 以模擬人類智能為目標(biāo),還是發(fā)展可能與人類不同的機(jī)器智能; ● 連接主義AI與符號主義AI的結(jié)合是否必要和可行; ● 機(jī)器有沒有理解能力; ● 神經(jīng)元計算模型是否不同于圖靈計算模型。 人工智能還處在“伽利略時代”,或者說“牛頓時代的前夜”,面臨著諸多未知和挑戰(zhàn)。我們要看到現(xiàn)有技術(shù)路徑的局限性,不能只追求增量式改進(jìn);要提倡百家爭鳴,過早地鎖定技術(shù)路線會阻礙人工智能的發(fā)展。本文對與大數(shù)據(jù)和計算模型有關(guān)的一些有爭議的話題發(fā)表一些看法,旨在拋磚引玉,引起大家討論。 現(xiàn)狀及面臨的挑戰(zhàn) 數(shù)據(jù)是人類認(rèn)識復(fù)雜世界的基本途徑 大量的科學(xué)和工程實踐表明:只要找到足夠多具有代表性的樣本(數(shù)據(jù)),就可以運用數(shù)據(jù)找到一個模型或者一組模型的組合,使得它和真實情況非常接近。在更高質(zhì)量數(shù)據(jù)集上訓(xùn)練的模型,可能只需要較少的訓(xùn)練或較少的模型參數(shù)。近幾年,人工智能的重大突破已經(jīng)凸顯出數(shù)據(jù)的巨大作用。 近年來,人工智能取得重大突破,得益于大數(shù)據(jù)、大模型和大算力,三者缺一不可。大數(shù)據(jù)和大算力是大模型發(fā)揮作用的前提條件。20世紀(jì),算力和數(shù)據(jù)都是短板,無法釋放大模型的潛力。如今,GPU彌補(bǔ)了算力短板,互聯(lián)網(wǎng)提供了海量數(shù)據(jù),如此才凸顯出大模型的威力。目前,最受關(guān)注的是算力。NVIDIA公司的市值超過萬億美元,這顯示出投資界對算力的高度重視。但從實際應(yīng)用來看,數(shù)據(jù)可能要排在第一位?,F(xiàn)階段人工智能的主流是數(shù)據(jù)智能,從某種意義上講,沒有數(shù)據(jù)就沒有智能,沒有數(shù)據(jù)就沒有解釋。單純提高算力不是萬能藥,野蠻地提高算力對于擴(kuò)大復(fù)雜問題的求解規(guī)模沒有實際意義。例如,若圍棋棋盤擴(kuò)大到20×20(只增加一行一列),野蠻搜索的算力需要提高1018倍。 牛頓力學(xué)、相對論、量子力學(xué)的成功,使很多科學(xué)家相信靠人類的抽象思維能力就可以了解宇宙中任何事物的奧秘,幾個簡單的公式就可以解釋萬事萬物。但是,客觀世界本質(zhì)上具有不確定性。從根本上講,解決很多復(fù)雜問題的關(guān)鍵在于消除不確定性,只能用數(shù)據(jù)來消除不確定性。例如,大氣物理學(xué)已經(jīng)有很多理論,有很多精確的偏微分方程,但天氣預(yù)報的效果始終不盡人意。華為的盤古和DeepMind的Graph Cast,通過理解海量氣候數(shù)據(jù)中的復(fù)雜模式來進(jìn)行預(yù)測,不是通過物理方程的計算來預(yù)報天氣,其預(yù)報精度和速度都超過傳統(tǒng)的數(shù)值天氣預(yù)報。這一事實表明,數(shù)據(jù)是人類認(rèn)識復(fù)雜世界的基本途徑。 以數(shù)據(jù)為中心,還是以模型為中心 在人工智能發(fā)展歷程中,數(shù)據(jù)和模型哪一個更重要,這個問題一直存在爭議。這兩年大語言模型發(fā)展勢頭很猛,爭議也更加激烈。谷歌大腦的創(chuàng)始人吳恩達(dá)認(rèn)為,在過去十年中,人工智能最大的轉(zhuǎn)變是向深度學(xué)習(xí)的轉(zhuǎn)變,神經(jīng)網(wǎng)絡(luò)架構(gòu)問題已經(jīng)基本解決,今后十年會轉(zhuǎn)向以數(shù)據(jù)為中心。現(xiàn)在更有效的方法是固定神經(jīng)網(wǎng)絡(luò)架構(gòu),尋找改善數(shù)據(jù)的方法。以數(shù)據(jù)為中心的AI是一門對成功構(gòu)建AI系統(tǒng)所需的數(shù)據(jù)進(jìn)行系統(tǒng)工程的學(xué)科。對于許多實際應(yīng)用來說,擁有50個精心設(shè)計的樣本就足以向神經(jīng)網(wǎng)絡(luò)解釋你想讓它學(xué)習(xí)什么,比如缺陷檢查系統(tǒng)。在許多根本不存在巨大數(shù)據(jù)集的行業(yè)中,必須將重點從大數(shù)據(jù)轉(zhuǎn)移到好數(shù)據(jù)。 圖靈獎得主楊立昆(leCun)的看法則完全不同,他認(rèn)為大多數(shù)人類知識與語言無關(guān),基于自監(jiān)督的語言模型無法獲得關(guān)于真實世界的知識,這些模型在本質(zhì)上是不可控的。我們需要學(xué)習(xí)一個具備常識推理與預(yù)測能力的世界模型,而世界模型是AI大模型未來最理想的道路。很顯然,楊立昆的觀點是重點發(fā)展新的模型,而不是在數(shù)據(jù)上下功夫。 對技術(shù)發(fā)展方向的選擇不完全是一種學(xué)術(shù)判斷,甚至代表了一種信仰。當(dāng)神經(jīng)網(wǎng)絡(luò)模型受到學(xué)術(shù)界普遍排斥的時候, Hilton等一批學(xué)者毫不動搖,堅信神經(jīng)網(wǎng)絡(luò)模型與人腦有一定的相似性。正是因為這一份信仰,神經(jīng)網(wǎng)絡(luò)才得以大翻身。在神經(jīng)網(wǎng)絡(luò)模型取得巨大成功的今天,科技界對大模型的前途仍然存在兩種針鋒相對的預(yù)判。以O(shè)penAI公司為代表的一方認(rèn)為,只要擴(kuò)大模型和數(shù)據(jù)的規(guī)模、增加算力,未來的大模型很可能會涌現(xiàn)出目前沒有的新功能,呈現(xiàn)更好的通用性。另一種觀點認(rèn)為,目前的大語言模型不可能實現(xiàn)通用人工智能,必須研究新的智能模型和通用AI技術(shù)。 許多學(xué)者對ChatGPT等大模型的規(guī)模與性能的關(guān)系做了研究。一方面,要提高LLM的性能,數(shù)據(jù)量、模型參數(shù)和計算量都要數(shù)量級地同步提升[1]。也就是說,目前LLM的代價很高。另一方面,究竟多大的模型是必需的,對于這一問題還沒有結(jié)論。有學(xué)者在研究少樣本學(xué)習(xí)理論,降低模型成本還有很大的研究空間。大語言模型可能不是實現(xiàn)通用人工智能的最佳道路,只是人工智能發(fā)展過程中的一個階段性成果,但它比前兩波人工智能采用的技術(shù)具有更大的使用價值。大語言模型也不是萬能的,盡管其泛化能力超出人們的預(yù)期,但本質(zhì)上還是封閉范圍的AI,學(xué)到的是互聯(lián)網(wǎng)上的書本知識,還沒有學(xué)到與人類實踐活動有關(guān)的大量隱性知識。目前,關(guān)于神經(jīng)元計算模型的計算復(fù)雜性的研究成果還不多,這個課題值得深入研究。在人工智能界獨占鰲頭的技術(shù)一般紅火十年左右,如Transformer已經(jīng)流行6年多了,可能幾年后會被新的模型和算法取代。 合成數(shù)據(jù)將是未來數(shù)據(jù)的主要來源 數(shù)據(jù)并不是取之不盡的資源,數(shù)據(jù)消費的速度遠(yuǎn)遠(yuǎn)高于數(shù)據(jù)自然產(chǎn)生的速度。有預(yù)測認(rèn)為,到2026年文本數(shù)據(jù)將被訓(xùn)練完,圖像數(shù)據(jù)將在2040年左右用完。自然語言處理將實現(xiàn)從對已有數(shù)據(jù)的消費(自然語言理解)到全新數(shù)據(jù)的生產(chǎn)(自然語言生成)的躍遷,這將是一次巨大變革。合成數(shù)據(jù)將是未來數(shù)據(jù)的主要來源。以自動駕駛為例,自動駕駛汽車在道路上可能遇到的每個場景,是無法通過收集真實世界的駕駛數(shù)據(jù)來覆蓋的。Waymo公司(Google母公司旗下研發(fā)自動駕駛汽車的子公司)從現(xiàn)實世界收集的駕駛數(shù)據(jù)僅為300萬英里(約483萬 km)的數(shù)據(jù),而到2019年,自動生成的模擬駕駛數(shù)據(jù)已達(dá)到100億英里(約161億 km)的數(shù)據(jù)。合成數(shù)據(jù)不是完全隨機(jī)產(chǎn)生的,首先要收集真實的數(shù)據(jù)子集,分析和識別其中的規(guī)律和趨勢,然后使用這些數(shù)據(jù)來生成新的數(shù)據(jù),這些新數(shù)據(jù)有可能彌補(bǔ)沒有收集到的數(shù)據(jù)。合成數(shù)據(jù)不可避免地依賴一部分真實數(shù)據(jù)用于自身的創(chuàng)建。因此,合成數(shù)據(jù)永遠(yuǎn)不會完全取代它所依賴的初始數(shù)據(jù)。合成數(shù)據(jù)可以用來驗證或擴(kuò)展已知規(guī)律,加速科研的進(jìn)程,但不大可能直接揭示在原始數(shù)據(jù)集中不存在的全新規(guī)律。 算力網(wǎng)現(xiàn)在很紅火,但算力網(wǎng)傳送的是數(shù)據(jù)、模型和任務(wù),算力本身是不能被傳送的。在互聯(lián)網(wǎng)服務(wù)中,音視頻數(shù)據(jù)是用戶消費的產(chǎn)品,按流量計費,傳送越多,公司收入越多。而在算力網(wǎng)中,數(shù)據(jù)傳送是計算成本的一部分,應(yīng)盡可能減少數(shù)據(jù)傳送。算力網(wǎng)首先要考慮數(shù)據(jù)在地理分布上的合理性,讓同行業(yè)的數(shù)據(jù)相對集中并靠近計算資源。如果大部分?jǐn)?shù)據(jù)是合成數(shù)據(jù),有算力的地方可以在當(dāng)?shù)禺a(chǎn)生需要的大部分?jǐn)?shù)據(jù),從而大大減輕數(shù)據(jù)傳送的壓力。到那時,算力網(wǎng)的主要作用轉(zhuǎn)變?yōu)閺V域分布式計算的任務(wù)分配和模型的傳送。此外,構(gòu)建算力網(wǎng)應(yīng)當(dāng)考慮合成數(shù)據(jù)的發(fā)展趨勢。 關(guān)于計算模型的歷史回顧和思考 人工智能的突破源于計算模型的改變 計算模型有不同的層次,圖靈機(jī)模型是一種通用的計算模型,理論上可以實現(xiàn)所有的計算。而目前流行的卷積神經(jīng)網(wǎng)絡(luò)等智能計算模型是專用的計算模型。通用計算模型有很多種,包括圖靈計算(離散變量計算,即遞歸計算)、神經(jīng)網(wǎng)絡(luò)計算(數(shù)據(jù)驅(qū)動的圖靈計算)、模擬計算(連續(xù)變量計算)和量子計算等新計算模型。計算模型是分析可計算性和計算復(fù)雜性的基礎(chǔ)。圖靈機(jī)模型只是若干個計算模型的一種。通用計算模型在可計算性上都是等價的,但對于某些計算問題,不同模型的計算效率有天壤之別。例如,在量子計算模型上用Shor算法做大數(shù)分解是多項式復(fù)雜性,而在圖靈機(jī)模型上做大數(shù)分解是指數(shù)復(fù)雜性。 經(jīng)典的圖靈計算模型的遞歸形式是f(x,0)=g(x);f(x,y 1)=h(x,y,f(x,y))。機(jī)器學(xué)習(xí)的遞歸形式是f0(x,0)=g(x);f2(x,y 1)=h(x,y,f1(x,y));f≈L(g)。在圖靈計算模型中,遞歸迭代函數(shù)和輸入都是確定的。而在機(jī)器學(xué)習(xí)模型中,每次迭代的結(jié)果都產(chǎn)生一組新的迭代方程,f隨輸入數(shù)據(jù)而變化, f0、f1、f2是遞歸函數(shù)f的水平分裂。機(jī)器學(xué)習(xí)是不同于經(jīng)典圖靈計算的數(shù)據(jù)驅(qū)動型遞歸計算[2]。 問題的復(fù)雜性隨計算模型的改變而改變。人們常說的NP困難問題是對確定性圖靈計算模型而言的。自然語言理解、模式識別等NP困難問題,在大語言模型上能被有效解決,這說明大語言模型對這類問題的求解效率遠(yuǎn)遠(yuǎn)高于圖靈計算模型。人工智能的成功本質(zhì)上不是大算力“出奇跡”,而是改變了計算模型。從理論上講,現(xiàn)在還沒有明確的證據(jù)表明,神經(jīng)網(wǎng)絡(luò)模型能夠為NP完全問題提供多項式時間的解法(只是針對某些問題實例有多項式復(fù)雜性的近似解)。AI研究的新近發(fā)展體現(xiàn)了一種趨勢,放棄絕對性,擁抱不確定性,即只求近似解或滿足一定精度的解,這或許是這次AI“意外”取得成功的深層原因。 圖靈機(jī)模型和神經(jīng)網(wǎng)絡(luò)模型各有優(yōu)缺點,適合于不同的計算問題。若對一個領(lǐng)域已經(jīng)有較透徹的理解,要求完全正確或非常精確的解,選擇圖靈機(jī)模型一般更合適。若對一個領(lǐng)域了解不深入,問題很復(fù)雜,只求近似解,選擇神經(jīng)網(wǎng)絡(luò)模型可能更合適。需要注意,理論上有些NP問題求近似解仍然是NP困難問題。LLM求解NP問題是針對某些問題實例,而不是針對整個問題類。 兩種計算模型的歷史性競爭 人工智能經(jīng)歷了60多年的發(fā)展,曾經(jīng)兩次跌入低谷,目前是興起的第三次浪潮。波浪式的發(fā)展始終圍繞符號主義和連接主義的競爭,而背后實際上是圖靈機(jī)模型和神經(jīng)網(wǎng)絡(luò)模型的競爭。從源頭上理清神經(jīng)網(wǎng)絡(luò)模型的發(fā)展脈絡(luò),有助于我們了解它的潛力和局限性。 1936年,圖靈在《論可計算數(shù)及其在判定問題上的應(yīng)用》中提出圖靈機(jī)模型,這個模型成為80多年來計算機(jī)和人工智能發(fā)展的基本模型。1943年麥卡洛克(McCulloch)和皮茨(Pitts)提出了神經(jīng)元計算模型,這個模型在可計算性上與圖靈模型是等價的(理論上無限容量的神經(jīng)網(wǎng)絡(luò)模型被認(rèn)為是圖靈完備的,即可以模擬任何圖靈機(jī)的計算過程)。對自動機(jī)理論而言,神經(jīng)網(wǎng)絡(luò)模型可能比圖靈模型更有價值。 1945年,馮·諾伊曼發(fā)表了一篇長達(dá)101頁的報告《EDVAC報告書的第一份草案》,為計算機(jī)的發(fā)展奠定了堅實的基礎(chǔ)。麥卡洛克和皮茨的《神經(jīng)活動中內(nèi)在思想的邏輯演算》是這份報告唯一的參考文獻(xiàn)。馮·諾伊曼在給維納的信中也提到,麥卡洛克和皮茨的大膽嘗試,與圖靈博士的非神經(jīng)觀點同樣重要。后來,馮·諾伊曼在他的遺作《自復(fù)制自動機(jī)理論》中指出,圖靈機(jī)和神經(jīng)網(wǎng)絡(luò)模型分別代表了一種重要的研究方式——組合方法和整體方法。麥卡洛克和皮茨對底層的零件進(jìn)行了公理化定義,可以得到非常復(fù)雜的組合結(jié)構(gòu);圖靈定義了自動機(jī)的功能,并沒有涉及具體的零件[3]。這說明神經(jīng)網(wǎng)絡(luò)計算模型對計算機(jī)概念的形成產(chǎn)生了重大影響。 由于當(dāng)時計算機(jī)的性能太低,數(shù)據(jù)也缺乏,基于神經(jīng)網(wǎng)絡(luò)模型構(gòu)建計算機(jī)的想法無法實現(xiàn)。1946年11月,馮·諾伊曼給維納寫信時指出,為了理解自動機(jī)的功能及背后的一般原理,我們選擇了太陽底下最復(fù)雜的一個對象……在整合了圖靈、皮茨和麥卡洛克的偉大貢獻(xiàn)后,情況不僅沒有好轉(zhuǎn),反而日益惡化……這些人向世人展示了一種絕對的且無望的通用性。從此,馮·諾伊曼放棄了用神經(jīng)網(wǎng)絡(luò)模型構(gòu)建計算機(jī),轉(zhuǎn)向研究自復(fù)制自動機(jī)。 值得指出的是,早在1948年,圖靈也寫了一篇論文《智能機(jī)器》(Intelligent machinery),提出了與圖靈機(jī)不同的計算模型——“無組織機(jī)器”,它模擬嬰兒的大腦皮層,通過適當(dāng)?shù)母蓴_訓(xùn)練來實現(xiàn)組織化。實際上,這篇論文介紹的是早期的隨機(jī)連接神經(jīng)網(wǎng)絡(luò)模型,描述了目前人工智能連結(jié)主義的基本原理,包括遺傳算法和強(qiáng)化學(xué)習(xí)等。由于沒有得到他老板的認(rèn)可,這篇論文一直沒有被發(fā)表,直到2004年才被發(fā)現(xiàn)[4]。這一被歷史淹沒的重要論文,說明圖靈同樣看好神經(jīng)網(wǎng)絡(luò)模型。如果學(xué)術(shù)界早看到這篇論文,今天的計算機(jī)世界可能是另一幅模樣。 馮·諾伊曼早就預(yù)言,信息理論包括兩大塊,即嚴(yán)格的信息論和概率的信息論。以概率統(tǒng)計為基礎(chǔ)的信息理論對于現(xiàn)代計算機(jī)的設(shè)計更加重要。統(tǒng)計意義的正確性與確定性、計算程序的嚴(yán)格正確性是解決復(fù)雜問題的不同思路。圖靈機(jī)模型和神經(jīng)網(wǎng)絡(luò)模型的競爭,實際上是科學(xué)技術(shù)發(fā)展史上常見的功能主義和結(jié)構(gòu)主義的競爭,蒸汽機(jī)、飛機(jī)等重大發(fā)明都是先實現(xiàn)功能后來才研究發(fā)現(xiàn)其結(jié)構(gòu)原理的,計算機(jī)和人工智能走的路也一樣。幾十年來,神經(jīng)網(wǎng)絡(luò)模型一直比不過圖靈模型,在學(xué)術(shù)界受到排擠。但有一批學(xué)者堅持不懈, 終于讓結(jié)構(gòu)主義取得了一次初步勝利,神經(jīng)網(wǎng)絡(luò)模型開始顯示它的威力。 大模型的重要標(biāo)志是機(jī)器涌現(xiàn)智能 在AlphaFold2實現(xiàn)蛋白質(zhì)結(jié)構(gòu)預(yù)測和GP T4令人驚奇的功能中,機(jī)器猜想都發(fā)揮了關(guān)鍵作用,這說明大規(guī)模的機(jī)器學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)已涌現(xiàn)出某種程度的認(rèn)知智能,大模型的核心特征是“涌現(xiàn)”功能。神經(jīng)科學(xué)家Terrence Sejnowski這樣描述LLM:“達(dá)到了一個閾值,就好像一個外星人突然出現(xiàn),可以用一種奇怪的方式與我們交流。”也有人比喻大模型就像毛毛蟲變成蝴蝶,幼蟲代表訓(xùn)練模型的數(shù)據(jù),蝴蝶代表著從數(shù)據(jù)中創(chuàng)造的AI。 大模型是否具有涌現(xiàn)和理解能力,對這個問題學(xué)術(shù)界還沒有形成共識。2022年,在一項針對自然語言處理的調(diào)查中,受訪者被詢問是否同意以下說法:根據(jù)文本訓(xùn)練的生成模型,在給定足夠的數(shù)據(jù)和計算資源的情況下,能夠在某種非瑣碎的意義上理解自然語言。在480名受訪者中,51%同意,49%不同意。有些學(xué)者認(rèn)為,LLM所謂的“涌現(xiàn)”行為是度量標(biāo)準(zhǔn)引起的“海市蜃樓”,一旦改變指標(biāo)進(jìn)行測試,所謂的“涌現(xiàn)”特性就會消失。不同學(xué)者對涌現(xiàn)的理解可能不同,涌現(xiàn)未必要看性能測試曲線上是否有突變的拐點。過去的人工智能做不到的事情,今天的大模型可以做到,從宏觀上看就是涌現(xiàn)了一些意想不到的新功能,如機(jī)器翻譯、計算機(jī)生成文藝作品、新材料的發(fā)現(xiàn)、全自動設(shè)計CPU芯片等??梢哉f,大模型已經(jīng)具有一定的理解和創(chuàng)造能力。 馮·諾伊曼的遺作《自復(fù)制自動機(jī)理論》指出,自動機(jī)理論的核心概念在于復(fù)雜性,超復(fù)雜的系統(tǒng)會涌現(xiàn)出新的原理。他提出了一個重要的概念——復(fù)雜度閾值。突破了復(fù)雜度閾值的系統(tǒng),因在數(shù)據(jù)層的擴(kuò)散和變異作用而不斷進(jìn)化,從而可以做很困難的事情。現(xiàn)在的神經(jīng)網(wǎng)絡(luò)模型有成千上萬億個參數(shù),可能已接近馮·諾伊曼講的復(fù)雜度閾值。復(fù)雜度閾值并不等于模型的規(guī)模,智能也不等同于復(fù)雜性。需要深入研究如何準(zhǔn)確定義和測量復(fù)雜性、智能與復(fù)雜性是什么關(guān)系以及如何理解和預(yù)測涌現(xiàn)行為。 機(jī)器理解不同于人的理解。機(jī)器翻譯可以不懂語義,AI天氣預(yù)報可以不懂氣象理論,這可能是一種新穎的“理解”形式,一種能夠?qū)崿F(xiàn)預(yù)測的理解形式。我們需要開發(fā)新的基準(zhǔn)和探索方法,以深入了解不同類型的智力和理解的機(jī)制。理解、智能和意識有3個不同層次的內(nèi)涵,有理解能力未必有自我意識。所謂“對齊”和“微調(diào)”是人類認(rèn)知和機(jī)器“認(rèn)知”的接口。即使機(jī)器有意識,源頭還是人類,應(yīng)當(dāng)能找到人類影響機(jī)器的接口。因此,我們對機(jī)器的認(rèn)知不必過于恐慌。 大模型的本質(zhì)是“壓縮” 20世紀(jì)90年代,Hinton就提出,深度學(xué)習(xí)的本質(zhì)可能就是壓縮。OpenAI首席科學(xué)家Ilya Sutskever提出,壓縮可能就是學(xué)習(xí)的本質(zhì)!馬毅團(tuán)隊提出“白盒”。Transformer也指出,智能的本質(zhì)就是壓縮。著名計算機(jī)科學(xué)家李明教授采用第一性原理和Kolmogorov復(fù)雜性理論證明了“理解就是壓縮,大模型就是壓縮”。 大語言模型的本質(zhì)是一個性能強(qiáng)大的近似無損的數(shù)據(jù)壓縮器,即將輸入文件的知識“壓縮”后,以權(quán)重矩陣的形式存儲在神經(jīng)網(wǎng)絡(luò)模型中。ChatGPT原始訓(xùn)練數(shù)據(jù)集的大小是900 TB,訓(xùn)練完成后,模型參數(shù)文件大約是64 TB,整體的壓縮比約為1∶14,而傳統(tǒng)語言模型(如Bert、RNN)的壓縮比大約是1∶10~1∶8。 組合搜索的關(guān)鍵是壓縮搜索空間。AlphaGo只搜索了一個很小比例的空間(約1/10150),就能找到相當(dāng)準(zhǔn)確的滿意解。中國科學(xué)院計算技術(shù)研究所(以下簡稱中科院計算所)做的“啟蒙1號”也是將幾乎無窮大的搜索空間壓縮到106。為什么搜索空間可以被大幅度地壓縮?因為許多理論上的解空間對實際求解沒有意義,解分布也不是隨機(jī)的。必須有效地識別和利用數(shù)據(jù)中的關(guān)鍵模式和結(jié)構(gòu),在巨大搜索空間中快速找到最有價值的區(qū)域。 大模型的“幻覺” LLM的主要功能是預(yù)測(猜),不是搜索正確答案。搜索是沒有創(chuàng)造性的,猜測可能有創(chuàng)造性,這種猜測可以看成人類智能的補(bǔ)充而不是替代。向LLM提問其實不是人類在測試計算機(jī)的智能,而是LLM在測試提問者對機(jī)器智能的了解程度,因此,這可以看成一種反向的圖靈測試。OpenAI科學(xué)家Andrej Karpathy指出:從某種意義上說,大語言模型的全部工作恰恰就是制造“幻覺”,大模型就是“造夢機(jī)”。提問者是否能夠讓“幻覺”和自己的現(xiàn)實一致,很大程度取決于提問者對產(chǎn)生內(nèi)容的檢查能力。 圖靈停機(jī)問題的不可判定性說明復(fù)雜系統(tǒng)具有不可預(yù)測性,不存在一個通用的程序能夠預(yù)測所有復(fù)雜系統(tǒng)的運行結(jié)果。也就是說,不確定性是復(fù)雜系統(tǒng)的本質(zhì)特征,要想弄清楚某個復(fù)雜系統(tǒng)的運行結(jié)果,唯一的辦法就是讓這個系統(tǒng)實際運行。長期的計算思維教育使我們習(xí)慣了用執(zhí)行固定程序的觀念來看待復(fù)雜系統(tǒng),實際上大模型像人腦一樣是個復(fù)雜系統(tǒng),其信息處理過程并不是執(zhí)行固定的程序。即使是在推理階段,由于采用概率性推理,執(zhí)行過程也存在隨機(jī)性。相同的問題也可能生成不同的答案,結(jié)果必然有不確定性。 哥德爾不完備性定理表明,完備性和一致性不能同時滿足。LLM的“幻覺”是系統(tǒng)不一致性的表現(xiàn),泛化能力是完備性的表現(xiàn)。從這個角度看,“幻覺”是由于追求泛化能力造成的。LLM的泛化能力和“幻覺”是一個硬幣的兩面,我們需要在與“幻覺”共存的環(huán)境下發(fā)展人工智能。 基于大科學(xué)模型的智能化科研 大語言模型的局限 國內(nèi)流行“大模型”的說法,國外并不流行l(wèi)arge model或big model的說法,流行的是large language model(LLM)。這是OpenAI公司帶領(lǐng)的方向,主要受ChatGPT的影響。DeepMind團(tuán)隊也用LLM的方法學(xué)習(xí)必要知識,但主要采用強(qiáng)化學(xué)習(xí)方法,機(jī)器本身也產(chǎn)生了很多數(shù)據(jù)。在科研工作中,我們應(yīng)更加關(guān)注DeepMind團(tuán)隊的工作。為了區(qū)別于大語言模型,筆者建議發(fā)展大科學(xué)模型(large science model,LSM)。科研領(lǐng)域?qū)δP偷恼_性和精度要求較高,模型具有識別自身能力不足的“自知之明”與提高模型準(zhǔn)確性同等重要,科研大模型必須找到對付AI“幻覺”的辦法。神經(jīng)網(wǎng)絡(luò)模型的哲學(xué)基礎(chǔ)是經(jīng)驗主義,實際上采用的是不完全歸納推理,存在或然性,得出的結(jié)論可能存在偏差或錯誤。經(jīng)驗主義也無法完全解釋人類的創(chuàng)造性思維和創(chuàng)新能力。人工神經(jīng)網(wǎng)絡(luò)是一個有高表達(dá)能力的通用函數(shù)類,其理論逼近能力優(yōu)于經(jīng)典的數(shù)值函數(shù)表示。但普通算法通常無法獲得理論近似率,基于點樣本的有效算法能多大程度地利用這些優(yōu)越的近似性質(zhì),仍然是深度學(xué)習(xí)領(lǐng)域中的開放問題。基于神經(jīng)網(wǎng)絡(luò)模型的深度學(xué)習(xí)方法難以保證高精度。由于神經(jīng)網(wǎng)絡(luò)模型滿足不了13個“9”的高精確性要求,中科院計算所在全自動設(shè)計的CPU芯片“啟蒙1號”的研發(fā)中,發(fā)明了一種新的機(jī)器學(xué)習(xí)模型——二進(jìn)制推測圖(BSD),用來表示電路邏輯。BSD不但能保證精度,而且與大語言模型一樣,也具有“涌現(xiàn)”功能。 智能化科研與傳統(tǒng)科研的區(qū)別 人工智能不僅應(yīng)用于基礎(chǔ)研究(AI for science,AI4S),還應(yīng)用于技術(shù)研究和工程實施(AI for technology,AI4T)。因此,筆者建議將“第五科研范式”稱為“智能化科研”(AI for research,AI4R)。早期的AI研究采用的數(shù)學(xué)基礎(chǔ)是基于符號的數(shù)理邏輯,很多數(shù)學(xué)工具用不上,這也是早期AI研究跌入低谷的重要原因。這次AI之“火”復(fù)燃,明顯的改進(jìn)是采用了統(tǒng)計學(xué)的方法,處理的對象變?yōu)榇罅康臄?shù)據(jù),數(shù)學(xué)工具可以大顯身手,這也是AI技術(shù)突飛猛進(jìn)的重要原因。傳統(tǒng)科研的主要方式是求解函數(shù)y=f(x),即通過實驗和理論研究先找到反映客觀規(guī)律的函數(shù)f(一般用微分方程的形式表示),或者根據(jù)已知的知識編寫求解f的程序,再通過輸入x求得結(jié)果y。但對于復(fù)雜或者較為通用的問題,人類還沒有獲得函數(shù)f的確切表達(dá),只能通過已知的輸入x和輸出y來擬合函數(shù)f,這是求函數(shù)值的反問題。智能化科研(AI4R)大多是在解決“反問題”。為特定應(yīng)用編寫計算機(jī)程序是可行的,但為一般智能編寫計算機(jī)程序會引發(fā)組合學(xué)爆炸。經(jīng)過幾十年努力,現(xiàn)在有了另一種求解途徑,即一個基于學(xué)習(xí)而不是編寫計算機(jī)程序的替代方案。大模型相當(dāng)于一種可能具備通用智能的應(yīng)用程序,這些算法有時會失敗,但足以在現(xiàn)實世界中處理一些復(fù)雜的問題。 注:作者系中國工程院院士,第三世界科學(xué)院院士,中國科學(xué)院計算技術(shù)研究所首席科學(xué)家,中國計算機(jī)學(xué)會名譽(yù)理事長。主要從事計算機(jī)體系結(jié)構(gòu)、并行算法、人工智能、大數(shù)據(jù),計算機(jī)網(wǎng)絡(luò)、信息技術(shù)發(fā)展戰(zhàn)略等方面的研究,發(fā)表科學(xué)論文150多篇,出版了三本《創(chuàng)新求索錄》文集,長期致力于發(fā)展曙光高性能計算機(jī)產(chǎn)業(yè)和CPU等核心技術(shù)的自主可控。 |
|