2024年10月8日,國慶節(jié)放假后第一天,2024年的諾貝爾物理學獎頒給了兩位人工智能學者,約翰·霍普菲爾德(John Hopfield)和杰弗里·辛頓(Geoffrey Hinton),因為他們通過人工神經(jīng)網(wǎng)絡(luò)對機器學習方面形成的奠基性貢獻。我相信這結(jié)果讓大多數(shù)物理學家大失所望,畢竟物理學方面的成就也不少。自1901年首次頒獎開始,歷屆的物理學獎也從未給過其它專業(yè)的科學家,倒是反過來的有,比如居里夫人,1911年因發(fā)現(xiàn)元素釙(Polonium,對她出生國波蘭的紀念)和鐳獲得諾貝爾化學獎,成為第一個兩獲諾貝爾獎的人。 圖1: 約翰·霍普菲爾德(左)和杰弗里·辛頓(右)(圖來自網(wǎng)絡(luò)) 不過,約翰·霍普菲爾德和杰弗里·辛頓獲得諾貝爾物理學獎,估計讓人工智能學者也同樣大吃一驚。畢竟人工智能界的最高獎通常是圖靈獎,是為紀念人工智能圖靈所設(shè)。辛頓在2018年和他兩學生Yoshua Bengio, Yann LeCun(楊立昆,中譯名)因?qū)ι疃葘W習的貢獻獲得圖靈獎,估計已經(jīng)知足了,沒想到還有大獎在后面。而另一讓人工智能學者吃驚的可能是,為啥霍普菲爾德能拿諾獎。從1936年圖靈提出想模擬人類智能的圖靈機開始,杰出的人工智能學者層出不窮,為啥霍普菲爾德能夠勝出呢?下面以我個人的理解,來簡單聊聊兩位人工智能科學家的貢獻。 圖2: 2018年圖靈獎獲得者 辛頓是大家熟悉的,他的成名作是與Rumelhart以及Williams于1986年在《Nature》上發(fā)表的誤差反向傳播算法。該算法讓神經(jīng)網(wǎng)絡(luò)經(jīng)歷第一波寒冬后,重新走向人工智能的舞臺。盡管該算法在數(shù)學界很早就有相關(guān)的研究,但應(yīng)用于神經(jīng)網(wǎng)絡(luò)則是從1986年開始。只是,反向傳播算法引發(fā)的熱潮,在1995年左右很快又被統(tǒng)計機器學習蓋過去,因為后者在當時既有嚴格的理論保證,也有比當時的神經(jīng)網(wǎng)絡(luò)更為出色的性能。結(jié)果,有將近20年的時間,人工智能的主流研究者都在統(tǒng)計機器學習方面深耕。即使2006年辛頓在《Science》上首次提出深度學習的概念,學者們?nèi)匀粚⑿艑⒁?,跟進的不多。 直到2012年,辛頓帶著他的學生Alex在李飛飛構(gòu)建的ImageNet圖像大數(shù)據(jù)上,用提出的Alex網(wǎng)絡(luò)將識別性能比前一屆一次性提高將近10個百分點,這才讓大部分的人工智能學者真正轉(zhuǎn)向深度學習,因為以之前每屆用統(tǒng)計機器學習方法較上一屆提升性能的速度估計,這次的提高需要用20多年時間。 自此以后,人工智能開始相信,大數(shù)據(jù)、算力、深度模型,是走向通用人工智能的關(guān)鍵三要素??茖W家們想到了各種各樣的方式來增廣數(shù)據(jù),從對圖像本身的旋轉(zhuǎn)、平移、變形來生成數(shù)據(jù)、利用生成對抗網(wǎng)來生成、利用擴散模型來生成;從人工標注到半人工到全自動機器標注。而對算力的渴望也促進了GPU顯卡性能的快速提升,因為它是極為方便并行計算的。但它也導(dǎo)致了對我國人工智能研究的卡脖子,因為目前幾乎絕大多數(shù)學者和人工智能相關(guān)企業(yè)都認為硬件是對大數(shù)據(jù)學習的核心保障。深度模型的發(fā)展也從最早的卷積神經(jīng)網(wǎng)絡(luò),經(jīng)歷了若干次的迭代,如遞歸神經(jīng)網(wǎng)絡(luò)、長短時記憶網(wǎng)絡(luò)、生成對抗網(wǎng)、轉(zhuǎn)換器(Transformer)、擴散模型,到基于Transformer發(fā)展而來的預(yù)訓練生成式轉(zhuǎn)換器(GPT),以及各種GPT的變體。 回過頭來看,這些研究與辛頓在人工智能領(lǐng)域、尤其是人工神經(jīng)網(wǎng)絡(luò)方面的堅持是密不可分的。 當然,辛頓的堅持并不意味著他只認定一個方向。實際上,他對人工智能真諦的探索一直是有轉(zhuǎn)變的。記得某年神經(jīng)信息處理頂會(NIPS,Neural Information Processing Systems)會議曾做過一個搞笑視頻,講述辛頓對大腦如何工作的理解,從1983年的玻爾茲曼機、到86年的反向傳播、到對比散度、再到06年的深度學習,經(jīng)歷過多次的變遷。如果用機器學習的表述來理解辛頓的觀點,可以說依某個小于1(1表示確定,0表示否定)的概率成立。 再說說霍普菲爾德。他的主要貢獻是1982年提出的Hopfield網(wǎng)絡(luò),如果從發(fā)表的時間節(jié)點來看,當時沒有反向傳播算法,這個網(wǎng)絡(luò)的初期版本自然是無法通過誤差反向來調(diào)優(yōu)的。 但這個網(wǎng)絡(luò)當時發(fā)表在PNAS期刊上,文章的標題里有一個與物理相關(guān)的單詞“Physical Systems”。網(wǎng)絡(luò)的主要想法是,如果按物理學講的能量函數(shù)最小化來構(gòu)造網(wǎng)絡(luò),這個網(wǎng)絡(luò)一定會有若干最終會隨能量波動穩(wěn)定到最小能量函數(shù)的狀態(tài)點,而這些點能幫助網(wǎng)絡(luò)形成記憶。同時,通過學習神經(jīng)元之間的聯(lián)接權(quán)值和讓網(wǎng)絡(luò)進行工作狀態(tài),該網(wǎng)絡(luò)又具備一定的學習記憶和聯(lián)想回憶能力。 另一個與物理相關(guān)的是,構(gòu)造該網(wǎng)絡(luò)的設(shè)計思路模擬了電路結(jié)構(gòu),假定網(wǎng)絡(luò)每個單元均由運算放大器和電容電阻組成,而每一個單元就是一個神經(jīng)元。 不過,這個網(wǎng)絡(luò)從當時看,還是存在諸多不足的。比如只能找到局部最小值。但更嚴重的問題是: 盡管從神經(jīng)生理學角度來看,這個網(wǎng)絡(luò)的記憶能對應(yīng)于原型說,每個神經(jīng)元可以看成是一個具有某個固定記憶的離散吸引子(Discrete Attractor),但它的記憶是有限的,且不具備良好的幾何或拓撲結(jié)構(gòu)。 圖3:Hopfield網(wǎng)絡(luò)結(jié)構(gòu)圖,1982。圓形節(jié)點代表可形成記憶的神經(jīng)元,相互聯(lián)接的線反映了神經(jīng)元之間聯(lián)系的權(quán)重。 圖4: Kohonen網(wǎng)絡(luò),1989 所以,便有了很多在此基礎(chǔ)上的新方法的提出。比如1989年的Kohonen網(wǎng)絡(luò)在設(shè)計時就假設(shè)有一張網(wǎng)來與數(shù)據(jù)云進行匹配,通過算法的迭代最終可以將網(wǎng)絡(luò)完好地擬合到數(shù)據(jù)上,而網(wǎng)上的每個節(jié)點便可以認為是一個記憶元,或離散吸引子。這樣的網(wǎng)絡(luò)有更好的拓撲或幾何表征。 另外,關(guān)于人的記憶是不是應(yīng)該是離散吸引子,至今也沒有終結(jié)的答案,比如2000年左右就有一系列的流形學習文章發(fā)表(Manifold learning)。這些文章在神經(jīng)生理學方面的一個重要假設(shè)是,人的記憶可能是以連續(xù)吸引子形式存在的。比如一個人不同角度的臉,在大腦記憶時,吸引子可能是一條曲線的形式,或者曲面、或者更高維度的超曲面。人在還原不同角度的人臉時,可以在曲面上自由滑動來生成,從而實現(xiàn)更有效的記憶。在此理念下,僅考慮離散吸引子的Hopfield網(wǎng)絡(luò)及其變體,自然就少了很多跟進的研究者。 當然,流形學習的研究實際上后期也停頓了,因為這方面的變現(xiàn)能力不強。 隨著深度學習的興起,大家發(fā)現(xiàn)通過提高數(shù)據(jù)量、加強算力建設(shè)、擴大深度模型的規(guī)模,足以保證深度學習能實現(xiàn)好的預(yù)測性能,而預(yù)測性能才是保證人工智能落地的關(guān)鍵要素。至于是否一定要與大腦建立某種關(guān)聯(lián)性,是否一定要有好的可解釋性,在當前階段并不是人工智能考慮的重心。 也許,等現(xiàn)有的大模型出現(xiàn)類似計算機一樣的摩爾定律時,人工智能會回歸到尋找和建立與大腦更為一致、更加節(jié)能、更加智能的理論和模型上。 再回到人工智能與諾獎的關(guān)系。從今年諾貝爾物理學獎的得獎情況,和人工智能近年來對幾乎全學科、所有領(lǐng)域的融入程度來看,也許,未來學好人工智能,很有可能會比拒絕人工智能的人,能更有效的工作、生活、形成新的重要發(fā)現(xiàn),甚至爭奪各個方向的諾貝爾獎。 張軍平寫于2024年10月8日晚 |
|