一個代號引發(fā)全網(wǎng)恐慌？OpenAI的Q*到底是啥

長沙7喜 2023-11-27 發(fā)布于湖南

展開全文

讓我們先把OpenAI管理層內部的極地大亂斗放在一邊，聊一聊這家公司最新的傳言——Q*。

OpenAI在11月22號的時候給員工發(fā)了一封內部信，承認了Q*，并將這個項目描述為“超越人類的自主系統(tǒng)”。著實讓人感覺到有一絲絲可怕。

雖然OpenAI官方?jīng)]有放出任何有關Q*的消息，但是我們還是能淺淺了解。

首先第一步，我們要認識Q*的讀法，官方正式名稱叫做Q-Star，翻譯過來就是Q星。對，你沒看錯，即便深度學習中，區(qū)塊之間是通過乘積來求解的，但是在Q*里，“*”并不是乘的意思，而是“星號”。“Q”這個字母在強化學習中表示一個動作的期望獎勵。

在人工智能領域里，但凡跟大寫Q沾邊的，本質都是Q學習。Q學習以現(xiàn)在的評判標準可以算是強化學習的一種，指的是在訓練的過程中，以記錄訓練歷史獎勵值的方式，告訴智能體下一步怎么樣選才能跟歷史最高獎勵值相同。但請注意，歷史最大獎勵值并不代表模型的最大獎勵值，有可能是，也有很大可能不是，甚至還有可能八竿子打不著。

換句話說，Q學習和智能體就像是一支球隊的分析師和教練之間的關系。教練負責指導球隊，分析師則用來輔佐教練。

在強化學習的過程中，智能體輸出的決策是要反饋到環(huán)境中才能得到獎勵值。而Q學習因為只記錄獎勵值，因此它不需要對環(huán)境進行建模，相當于“結果好，一切就好”。

不過這樣看下來，好像Q學習還不如現(xiàn)在人工智能，尤其是大模型常用的深度學習模型。像現(xiàn)在這種動不動幾十億幾百億這么多參數(shù)下，Q學習不僅對模型沒什么幫助，反倒還增加了復雜性，從而降低了魯棒性。

別急，其實這是因為上述Q學習背后的思路本身只是一個誕生于1989年的基本概念。

DeepMind在2013年的時候曾經(jīng)通過改進Q學習，推出過一個算法叫做深度Q學習，其最鮮明的特點就是使用經(jīng)歷回放，從過去多個結果中進行采樣，再使用Q學習，進而達到提高模型的穩(wěn)定性，降低模型因為某一次結果導致訓練方向過于發(fā)散。

然而實話實說，這個概念一直沒有走紅也是有原因的，而從實際意義來看，深度Q學習此前在學界看來最大的作用就是開發(fā)出了DQN。

DQN是指深度Q網(wǎng)絡，誕生于深度Q學習。DQN的思路和Q學習是一模一樣的，但是在求得Q學習中最大獎勵值的過程，是用神經(jīng)網(wǎng)絡來實現(xiàn)的。這一下子就fashion了起來。

DQN同一時間只會生成一個節(jié)點。與此同時，DQN會生成一個優(yōu)先級隊列，然后再把剩下的節(jié)點和動作的元祖存到優(yōu)先級隊列里。顯而易見，一個節(jié)點肯定不夠用，如果全程就一個節(jié)點那最后求解的答案一定錯得離譜。當節(jié)點和動作元祖從隊列中移出來的時候，就會根據(jù)這個動作應用到已經(jīng)生成的那個節(jié)點得出來的關聯(lián)性進而生成一個新節(jié)點，以此類推。

稍微懂點人工智能發(fā)展史的人會覺得越看越眼熟，這不就是高配版弗洛伊德求邊長？

現(xiàn)代計算機中，處理器所使用的核心原理就是弗洛伊德算法，通過與歷史最優(yōu)值比對，求得兩點之間最短的路徑。內存的作用就是將計算以優(yōu)先級的方式存儲，每當處理器完成一次計算后，內存再把下一條計算扔給處理器。

DQN本質沒什么區(qū)別。

這基本就是Q的意思，那么*又是指什么呢？

從諸多的業(yè)內人士分析來看，*很有可能指代的是A*算法。

這是一種啟發(fā)式算法。先不著急講啟發(fā)式算法是什么，我來講個笑話：

A問B說“快速求出1928749189571*1982379176的乘積”，B立馬就回答A說：“32”。這個A聽了就很納悶，這么大的兩個數(shù)相乘，不可能答案是兩位數(shù)。B反問A：“你就說快不快？”。

看起來離譜，但啟發(fā)式算法也是同理。

它的本質就是估算，在效率和正解之間只能選擇一個。要不然就非常講究效率，可有時候會出錯；要不然就非常講究正確性，可耗時有時候會很長。A*算法則是先通過啟發(fā)式算法估算一個大概其的值，當然這個值很有可能極其偏離正解。估算完成后就會開始循環(huán)遍歷，如果怎么都沒辦法求解那就重新估值，直到開始出現(xiàn)解。如此反復，最終得出最佳解。

雖然能得到最佳解，然而A*就是上文提到的第二種，答案對，耗時比較長。放在實驗室環(huán)境還好，這種算法要是放在個人設備上，有可能會導致內存溢出，產(chǎn)生系統(tǒng)問題，比如藍屏。

因此這樣的局限性使得過往A*算法往往應用于一些不太復雜的模型，最典型的就是網(wǎng)絡游戲中角色尋路。一些大型游戲中，角色在尋路開始的那一剎那出現(xiàn)卡頓，就是因為A*算法。

綜合來看，目前人工智能圈的共識是，OpenAI內部信中提到的Q*算法，大抵是Q學習和A兩者的取長補短，即節(jié)省算力、節(jié)省內存，并得到最佳解——因為它總不可能是又多花費算力，又浪費內存，最后還得不到最佳解吧！那不成累傻小子了嗎！

而且，就像OpenAI把基礎模型這件事最終做成了一樣，它同樣早已存在，甚至也一度被人們冷落，直到OpenAI用具體的創(chuàng)新的方法把它的潛力重新發(fā)掘出來。今天人們自然有理由相信在Q和A這兩個早就存在的算法思路里，OpenAI能故技重施再次創(chuàng)造奇跡——當然，對于這奇跡可能對人類帶來的危害也因為最近OpenAI的鬧劇而讓更多人憂心忡忡。

所以，回到這個算法，Q*最有可能的樣子是，利用Q學習快速找到接近最優(yōu)解的估值，再利用A*算法在小范圍內求解，省去了大量沒有意義的計算過程，以此達到快速求得最佳解的效果。但是OpenAI具體要怎么做，還得等公開論文（如果能等到的話）。

Q*的出現(xiàn)其實說明了一個問題，人工智能頭部公司意識到當下人工智能發(fā)展中求解的過程比求解更有意義。因為現(xiàn)在只追求答案的正確性不再能滿足人們對人工智能的需求。比如OpenCompass上，即便是平均分數(shù)差10分、20分，但是如果從理解的準確率上看，最好的模型和最差的模型也沒有很大的差距。

在人們的猜測和恐慌中，一個關于Q*的說法是，Q*可以解決非常高級的數(shù)學問題。薩里以人為本人工智能研究所所長安德魯·羅戈斯基表示“我們知道現(xiàn)有的人工智能已被證明能夠進行本科水平的數(shù)學運算，但無法處理更高級的數(shù)學問題。但是Q*極有可能用來解決高難度的數(shù)學問題?！闭f不定等到Q*出來的那一天，還可以考考它哥德巴赫猜想。而數(shù)學被認為是人類智慧的最大結晶之一，因此Q*只是一個代號就引發(fā)了全網(wǎng)的恐慌。

而且Q*背后還被與OpenAI的那個使命相聯(lián)系——那就是對通用人工智能（AGI），甚至是超級智能的探索。OpenAI 將 AGI 定義為在最具經(jīng)濟價值的任務中超越人類的自主系統(tǒng)，Q*就是OpenAI邁向的AGI的一步。

目前OpenAI對于Q*和內部信泄露事件沒有對外發(fā)表任何置評，可我卻喜憂參半。對Q*擁有強大能力表示開心，人工智能領域發(fā)展將會更進一步。同時也比較擔心Q*噱頭大于實際，最后真到發(fā)布的那一天測試結果也就那么回事，讓我被哐哐打臉。