對話 AI 教父辛頓，為何擔心人工智能的未來

mrjiangkai 2024-07-25

展開全文

在人工智能領域，杰弗里·辛頓（Jeffrey Hinton）是一個不可忽視的名字，被譽為“人工智能教父”。1947 年出生于英國的辛頓在劍橋大學獲得實驗心理學學士學位，并在愛丁堡大學獲得人工智能博士學位。辛頓對神經網絡和深度學習的開創(chuàng)性研究徹底改變了現(xiàn)代人工智能的發(fā)展方向。

辛頓在上世紀 80 年代與 David Rumelhart 和 Ronald Williams 共同開發(fā)了反向傳播算法，這種算法是訓練多層神經網絡的關鍵技術。反向傳播算法的成功使得神經網絡在實際應用中變得可行，為之后的深度學習奠定了基礎。2006 年，辛頓與其學生們提出了深度置信網絡（Deep Belief Networks），這標志著深度學習領域的重大突破。

辛頓在多倫多大學和 Google Brain 團隊擔任教授和研究員，培養(yǎng)了許多知名的學生，包括 Yann LeCun 和 Yoshua Bengio，這兩位與他共同獲得了 2018 年的圖靈獎。另一位著名學生 Alex Krizhevsky 在辛頓的指導下開發(fā)了 AlexNet，這個深度卷積神經網絡在 2012 年的 ImageNet 圖像識別競賽中取得了革命性的成功。辛頓還創(chuàng)立了 Vector Institute，致力于推動人工智能和機器學習的研究。

然而，隨著 AI 技術的迅猛發(fā)展，杰弗里·辛頓（Jeffrey Hinton）對其未來表示了深深的擔憂。多倫多大學團隊在 2023 年辛頓離開谷歌后采訪了他，在這次訪談中，他詳細解釋了人工神經網絡的工作原理，并探討了其潛在的風險和挑戰(zhàn)，他還提到了離開谷歌的原因是更自由地討論人工智能失控帶來的危險。

杰弗里·辛頓（Jeffrey Hinton）的核心觀點包括：

數(shù)字智能可能具備比大腦更好的學習算法，可以比生物智能更有效地共享知識。1 萬個數(shù)字代理可以像一個蜂群意識，通過共享神經網絡中的權重來共享知識。
當意識到數(shù)字模型具備蜂群思維之后，辛頓的觀點顛覆了。之前認為數(shù)字模型超越人類需要 30 到 50 年，現(xiàn)在變成了可能只需要 5 到 20 年。
任何涉及輸出文本的工作，生產力都會大幅提高。另外，AI 在醫(yī)療保健、藥物設計等領域有巨大潛力，但也需要謹慎對待其應用。
Hinton 擔心 AI 技術的發(fā)展速度超出預期，未來 20 年內可能會出現(xiàn)比人類更智能的 AI，帶來存在性威脅。他認為 AI 的潛在風險不容忽視，必須采取嚴格的監(jiān)管措施來防范可能的危害。
他認為，AI 系統(tǒng)的智能和安全是密不可分的，通過更智能的系統(tǒng)來引導其行為比引導不太智能的系統(tǒng)要容易。Hinton 支持對前沿技術模型進行更多監(jiān)管，認為這有助于提前應對未來的變化。他呼吁政府和大公司投入更多資源進行安全研究，以確保 AI 技術的發(fā)展不會失控。
建議年輕研究員尋找一個大家都做錯了的地方，并相信直覺。如果選擇 AI 方向，目前可以產生最大的影響的地方在防止它們失控，因為一百個人里只有一個會選這個方向。
接下來的職業(yè)生涯要當一名哲學家。

以下是本期播客內容的完整翻譯，我們作了不改變原意的刪減。

提問

你最近在多次采訪中提到，聊天機器人和其他生成式 AI 所使用的數(shù)字智能可能優(yōu)于生物智能。你能簡要解釋一下你得出這個結論的原因嗎？

杰弗里·辛頓（Geoffrey Hinton）

在數(shù)字計算機中，它們被設計為能夠精確執(zhí)行給定的指令。即使在學習過程中，兩臺不同的數(shù)字計算機也能用相同的知識執(zhí)行完全相同的操作。這意味著你可以創(chuàng)建 1 萬份相同的知識副本，讓它們在不同的計算機上運行。每當一個副本學到新知識時，它可以高效地將這些知識傳遞給所有其他副本。因此，你可以擁有 1 萬個數(shù)字代理，就像一個蜂群意識，它們通過共享神經網絡中的權重來極其高效地共享知識。

而我們人類無法做到這一點。如果你學到了一些東西并想告訴我，你必須使用語言或圖像來表達。通過這種方式，你只能分享有限的信息。因此，你將你學到的東西傳達給我會慢得多，而這些數(shù)字智能體之間的交流則更加高效，這使得它們在學習大量知識方面具有更大的優(yōu)勢。

提問

你曾說過，數(shù)字智能是永生的，而生物智能是凡人的。這句話是什么意思？

杰弗里·辛頓（Geoffrey Hinton）

如果我在數(shù)字計算機上模擬的神經網絡中學習了一些連接強度，那么即使某臺計算機損壞了，這些連接強度也可以在另一臺計算機上使用。只要你把連接強度存儲在某個地方，即使某些數(shù)字計算機損壞了，你也可以重新制造一臺計算機，并在那臺計算機上運行相同的權重。

但對于我們來說，我們學習到的連接強度是特定于我們大腦的，每個大腦都略有不同。你大腦中的神經元存在細微差異，你的學習方式也是為了利用你特定大腦的獨特特性。因此，一旦你在大腦中學習了連接強度，如果你告訴我這些連接強度，對我來說沒有實際意義，因為我的大腦是不同的。

所以，數(shù)字計算機是“永生”的，因為你可以在不同的硬件上運行相同的知識。而我們是“凡人”的，因為硬件和知識是緊密結合在一起的。你無法將連接強度與其運行的大腦分開。因此，如果大腦死亡，知識也會隨之消失。

提問

為什么我們要擔心人工智能會取代人類智能？

杰弗里·辛頓（Geoffrey Hinton）

我認為，通過一群不同的數(shù)字代理共享相同的權重來分享所學內容要好得多，他們只需共享權重更新即可。這些代理可以同時學習大量不同的內容。此外，我認為數(shù)字智能可能具備比大腦更好的學習算法。

所有試圖在大腦中找到一種與這些數(shù)字智能中的反向傳播算法一樣有效的學習算法的嘗試，到目前為止都失敗了。我們還沒有找到任何能夠像反向傳播算法那樣擴展到非常大系統(tǒng)的方法。所以我認為它們有兩個優(yōu)勢：一是可能具備更好的學習算法，二是可以比生物智能更有效地共享知識。

提問

在你進入這個領域時，有兩種學派：傳統(tǒng)的機器學習和神經網絡。你能描述一下這兩種方法的區(qū)別嗎？

杰弗里·辛頓（Geoffrey Hinton）

關于智能，有兩種不同的模型理論。一種模型認為，智能完全依賴于推理，而推理的方式是使用邏輯。這是人類的獨特之處，我們應該理解我們實際使用的邏輯。這種觀點還認為，知識是以符號形式存儲的。比如，我可以對你說一句話，你會以某種方式存儲它，然后用它推導出其他句子。在你腦海中的東西類似于句子，但經過了簡化。

另一種完全不同的智能模型認為，智能完全依賴于在大腦細胞網絡中學習連接強度。這種模型擅長感知和運動控制，而不是推理。推理是很晚才出現(xiàn)的，我們并不擅長。你要到相當大的年紀才學會推理。

因此，推理實際上是對生物智能的一個非常糟糕的模型，生物智能主要是關于控制身體和感知的。這是一個完全不同的范式，并且對你腦海中的內容有不同的看法，它不是存儲的符號串，而是連接強度。

符號 AI 觀點的關鍵問題是，這些符號表示的形式是什么，以及你如何用它們進行推理。對于神經網絡觀點，核心問題完全不同。它是，你如何學習這些連接強度，以便能做所有這些奇妙的事情。因此，學習始終是神經網絡觀點的核心。對于符號觀點，他們說，我們稍后再考慮學習。首先，你必須弄清楚知識是如何表示的，以及我們如何用它進行推理。因此，這些是完全不同的觀點。一種從邏輯中汲取靈感，另一種從生物學中汲取靈感。

很長一段時間里，邏輯陣營的人認為從生物學中汲取靈感是愚蠢的。這有點奇怪，因為馮·諾依曼和圖靈都曾認為神經網絡是解決智能問題的途徑。但不幸的是，他們都英年早逝。

提問

你能從宏觀角度描述一下神經網絡的工作原理嗎？

杰弗里·辛頓（Geoffrey Hinton）

我們可以嘗試一下。首先描述一下如何識別物體和圖像。

假設我們只想判斷圖像中是否有鳥，并且假設鳥大致位于圖像中央，是主要的關注對象。你需要回答，這是一只鳥還是不是？你可以想象一張 100 像素乘 100 像素的圖像，總共有 10,000 個像素。每個像素有三種顏色，RGB（紅、綠、藍），所以總共有 30,000 個數(shù)字。從計算的角度來看，識別圖像中的鳥就是將這 30,000 個數(shù)字轉換成一個表示“是”或“不是”的結果。

你可以嘗試編寫一個標準的計算機程序來實現(xiàn)這一點。人們嘗試了很多年，但效果一直不好。大約 50 年間，人們一直在嘗試。或者，你可以構建一個多層神經網絡。我將從手動連接神經網絡開始講起。

首先，你有像素，這將是底層。然后你會有一層特征檢測器。一個典型的特征檢測器可能會有來自垂直像素行的正連接權重，以及來自相鄰垂直像素行的負連接權重，而其他地方沒有連接強度。所以如果兩行像素都很亮，它會從這里得到大的正輸入，但也會從那里得到大的負輸入，所以不會有任何反應。但如果這些像素很亮，給出大的正輸入，而這些像素不亮，所以不會被這些像素抑制，它會變得非常興奮。它會說，嘿，我找到了我喜歡的東西，這里是亮的像素，而那里是暗的像素。這就是一個邊緣檢測器。

我剛剛告訴你如何通過手動使用正負權重連接來檢測一個小的垂直邊緣?，F(xiàn)在想象一下，你有無數(shù)這樣的檢測器在圖像的不同位置、不同方向和不同尺度上檢測不同的邊緣，這將是你的第一層特征檢測器。如果我手動連接第二層特征檢測器，我可能會有一個檢測器，它檢測到兩個以銳角連接的邊緣。所以它在尋找這個邊緣，并且它們同時活躍時，它會說，嘿，也許這里有一個鳥喙。它可能是其他很多東西，但也可能只是一個鳥喙。所以你有一個類似鳥喙的特征。

在那一層中，你可能還有一個檢測器，它檢測到一堆形成圓形的邊緣。所以你會有圓形檢測器和潛在的鳥喙檢測器，以及許多其他檢測器，它們檢測稍微復雜一些的東西。在上面的一層中，你可能會有一個檢測器，它檢測到一個潛在的鳥喙與一個潛在的圓形（可能是眼睛）在正確的空間關系中，這樣它可能是鳥的頭部。這將是你的第三層。如果在第三層中，你還檢測到鳥的腳和翅膀，那么在下一層中你可能會有一個鳥檢測器，如果這些東西都活躍起來，比如這里有一個頭，那里有一個翅膀，還有一個腳，它可能是一只鳥。

我告訴你如何手動連接所有這些東西，但你永遠無法做得很好。所以，代替手動連接所有這些，我們可以想象嘗試學習所有這些。我已經告訴你我們想要學習的東西，現(xiàn)在我將告訴你我們如何學習它。學習的方法乍一聽很奇怪。你不是手動設置所有連接強度以得到你想要的檢測器，而是從隨機連接強度開始，所有連接上的隨機數(shù)字。

然后你輸入一張鳥的圖像，通過這些特征檢測層向前傳遞，它的行為完全是隨機的。輸出的鳥檢測器會說 0.5，這是一只鳥。它會說 1 表示確定是一只鳥，0 表示確定不是一只鳥。我們會說大約 0.5?，F(xiàn)在你可以問這樣一個問題：如何改變網絡中的所有連接強度，使它不再說 0.5，而是說 0.51，這是一只鳥。

假設它確實是一只鳥。問題是，你應該如何改變特定的連接強度，使它更有可能說這是一只鳥。你可以通過計算你得到的結果和你想要的結果之間的差異來解決這個問題。你想要的是 1，而你實際得到的是 0.5。你取這個差異，并將這個差異通過網絡反向傳播，然后使用一些微積分（我不會解釋），你可以計算出網絡中每個連接應該增加或減少多少，以使其更有可能說這是鳥。你稍微調整所有連接，使其更有可能說這是鳥。

然后你展示一個不是鳥的東西，現(xiàn)在你會調整連接強度，使其更不可能說那是一只鳥。你就這樣不斷地用很多鳥和非鳥的圖像進行訓練，最終你會發(fā)現(xiàn)它已經學會了所有這些特征檢測器，以便檢測類似鳥喙的東西、類似眼睛的東西、檢測腳和翅膀的東西。如果你用很多不同的物體進行訓練，比如 1,000 種不同類別的物體，它會發(fā)現(xiàn)非常適合識別各種事物的中間特征檢測器。

神奇之處在于，有一個相對簡單的算法叫做反向傳播算法（Backpropagation），它將輸出中的誤差通過網絡反向傳播，并計算出所有連接應該如何改變以改進行為。然后你稍微改變模型，并繼續(xù)用另一個例子進行訓練。令人驚訝的是，這實際上是有效的。多年來，人們認為這種方法會卡住，但實際上它非常有效。

提問

我很好奇，神經網絡是如何處理語言的？

杰弗里·辛頓（Geoffrey Hinton）

現(xiàn)在你已經了解了我們是如何訓練模型來識別一只鳥的。接下來，想象我們將一串單詞作為輸入。

首先，我們需要將每個單詞轉換成一個嵌入向量，這是一組旨在捕捉單詞含義的數(shù)字。因此，單詞的第一層表示就是這些嵌入向量。每個單詞都有一個對應的嵌入向量。接下來，我們會有多層嵌入向量。隨著在網絡中逐層向上，這些嵌入向量會變得越來越好，因為它們會考慮越來越多的上下文信息。

假設在這個句子中沒有任何大寫字母，并且你有單詞“may”?！癿ay”最可能的意思是一個模型，比如“he may do that”。但顯然，“may”還有一個完全不同的意思，即月份。因此，最初僅僅看單詞“may”，模型不知道該使用哪個嵌入向量。它會使用一種折中的向量，介于表示模型的“may”和表示月份的“may”之間的某種中間狀態(tài)。然后在下一層，它會細化這個向量。

根據它獲得的上下文信息以及附近的嵌入向量，它會使這個向量稍微好一些。例如，如果附近有“June”的嵌入向量，那么它會將“may”的向量細化得更像一個月份，而不像一個模型。但如果附近有“wood”的嵌入向量，它會使“may”的向量更像一個模型，而不像一個月份。隨著你在網絡中前進，它可以不斷細化這些嵌入向量，使它們變得越來越好。

我們訓練模型的方法是給它一串單詞作為輸入。我們會用一種方式，這不是完全準確的做法，但容易理解。對于最后一個單詞，你只需輸入一個中性詞，比如“unknown”，它有一個非常模糊的嵌入向量，類似于所有單詞向量的平均值。它現(xiàn)在不知道具體是什么。

隨著你在網絡中前進，最后一個單詞會受到前面單詞的影響。它一開始非常模糊，但隨著你通過這些層，它會變得越來越精確。當你到達網絡的末端時，那個嵌入向量可能看起來像某個特定單詞的嵌入向量，或者是幾個單詞的組合，某種平均值。

你通過讓網絡經過這些層來訓練它，希望最后一個單詞的嵌入向量看起來像文本中實際存在的單詞的嵌入向量。這就是它預測下一個單詞的方式。它試圖將這種中性嵌入向量變成接近文本中正確單詞的嵌入向量。你計算誤差，即文本中的嵌入向量和生成的嵌入向量之間的差異，并將其反向傳播通過網絡。

這不僅是通過層反向傳播，還從這個單詞傳播到前面的單詞，以便它們對這個單詞產生正確的影響。這就是反向傳播算法學習預測下一個單詞的方式。

提問

盡管這個領域取得了一些理論突破，但這些神經網絡在很長一段時間內并沒有很好地發(fā)揮作用。這是為什么呢？

杰弗里·辛頓（Geoffrey Hinton）

這是多種因素共同作用的結果。首先，我們在初始化方面做得不夠好。雖然我提到可以使用隨機權重進行學習，但如果不仔細選擇隨機權重，事情就無法順利進行。這是一個技術上的小原因，導致深度網絡在多層情況下表現(xiàn)不佳。但主要原因是我們當時缺乏足夠的計算能力和數(shù)據資源。人們試圖在相對較小的訓練集上訓練這些網絡，而計算能力也不足。在這種情況下，其他方法表現(xiàn)得更好。

神經網絡真正發(fā)揮作用是在擁有大量數(shù)據和計算能力的情況下。此時，你可以使用一個大型神經網絡，其效果會遠遠優(yōu)于其他方法。然而，當時我們并沒有意識到這一點。我們偶爾會設想，如果有更多的數(shù)據和更強大的計算機，神經網絡會表現(xiàn)得更好，但沒有意識到它會好得多。

因此，在 1990 年代，神經網絡相對處于低谷期，因為在小規(guī)模問題上，其他方法表現(xiàn)得更好。許多計算機科學領域的研究者放棄了神經網絡，但在心理學領域，他們沒有放棄。因為在心理學中，需要一些類似于大腦的模型，而神經網絡顯然比符號 AI 更像大腦。然而，在計算機科學中，神經網絡在 90 年代陷入了困境。

提問

那么，讓我們直接跳到 2000 年代。你是否有某個時刻清楚地意識到，你一直追求的方法將會占據主導地位？

杰弗里·辛頓（Geoffrey Hinton）

2006 年，我們通過無監(jiān)督學改進了權重初始化，從而顯著提升了反向傳播的效果。因此，當時很明顯，反向傳播確實非常有效。然而在 2009 年，我的兩位研究生 George Dahl 和 Abdel-rahman Mohamed 開發(fā)出一個更好的語音識別器。雖然它僅略微優(yōu)于當時的最先進技術，但它使用了深度神經網絡，這讓我們看到了這項技術的巨大潛力。在接下來的幾年里，所有大型語音組都轉向使用神經網絡。

2012 年，這項語音技術在 Android 系統(tǒng)中推出，使 Android 的語音識別能力迅速趕上甚至超過了 Siri，因為它也使用了神經網絡。同年，我的另外兩位研究生 Ilya Sutskever 和 Alex Krizhevsky 開發(fā)的主要神經網絡模型在圖像識別方面表現(xiàn)出色，遠遠超越了當時的最先進技術。我認為，這種組合在語音識別方面已經投入生產并取得成功，大公司也在使用這項技術。

盡管公眾可能并不十分了解，但隨后它在計算機視覺方面的表現(xiàn)更為出色。2012 年，我們在 ImageNet 競賽中以巨大優(yōu)勢獲勝，錯誤率幾乎是其他方法的一半。這是一個公開的數(shù)據集，所以無法作弊。

提問

請重點講講 2012 年，因為你提到這是一個非常關鍵的年份。你能從宏觀角度再描述一下 AlexNet 的工作原理嗎？我猜這個名字可能是以你的名字命名的。

杰弗里·辛頓（Geoffrey Hinton）

這項技術是以 Alex Krizhevsky 命名的，因為她確實做到了。她是一位出色的程序員，成功地讓這項技術運行起來。雖然 Ilya 提供了很多幫助，但主要工作還是由 Alex 完成的。在解釋反向傳播時，我提到你會有這些特征檢測器層。而 AlexNet 基本上就是這種網絡，但它可以識別 1,000 種不同的對象類別。它大約有七層特征檢測器。此外，它還使用了 Yann LeCun 開發(fā)的另一種技術，即卷積網絡。我現(xiàn)在會嘗試解釋這些技術，因為它們非常重要。

還記得我說過，你可能會通過檢查兩條線來為鳥的喙制作一個檢測器嗎？如果你看到這兩個特征檢測器，那么你就會制作一個喙檢測器。但那只是針對特定位置，對吧？在卷積網絡中，當你為一個位置制作特征檢測器時，你會為圖像中的所有位置制作相同的特征檢測器。所以，如果它在這里訓練，當它學習時，它實際上是在說，我需要一個喙檢測器。它學習了一個檢測這個喙的特征，并會自動為圖像中的所有其他位置制作副本。因此，如果鳥出現(xiàn)在不同的位置，它將有特征檢測器來識別它。將特征檢測器復制到每個位置的想法，本質上就是卷積網絡。

這使得整個系統(tǒng)在位置上泛化得更好，因為它在每個位置都有這些特征檢測器的副本。使用卷積網絡和多層特征，Alex 在一種稱為圖形處理器（GPU）的設備上非常高效地編程。這種設備最初是為計算機圖形開發(fā)的，但它就像一個迷你超級計算機，可以在很多獨立的進程中同時進行大量計算。

因此，與普通計算機相比，它帶來了大約 30 倍的提升。30 倍的提升大約相當于計算機領域 10 年的進步。突然間，我們在計算能力方面可以躍進 10 年。而且編程這些 GPU 板非常困難。Alex 設法編程了兩個 GPU 板進行協(xié)作，這更加困難。

最后一個成分是 ImageNet 數(shù)據集。李飛飛和她的合作者們收集了一大批圖像，并舉辦了一場公開競賽，提供了大約一百萬張圖像，包含 1,000 種不同類型的對象。你有大約 1,000 個每種對象的例子，必須學會識別這些對象。然后測試集將是包含這些對象的不同圖像，所以你必須將模型泛化到不同的圖像。

結果表明，迄今為止發(fā)明的最佳計算機視覺技術的錯誤率大約是 25%。Alex 達到了 15% 的錯誤率。從那以后，錯誤率下降到大約 3%。自那以后，它變得更好了，但這是一個巨大的飛躍。

計算機視覺領域的人們非常驚訝。他們中的大多數(shù)人表現(xiàn)得非常令人欽佩，他們說，嘿，我們從未想過這會起作用，但它確實起作用了，所以我們將改用這個，而不是我們以前做的事情。這不是科學家通常會做的事情?？茖W家通常只是變老，抱怨這些新東西是胡說八道。

提問

您會如何形容自那一刻以來我們在 AI 領域所見到的創(chuàng)新速度？

杰弗里·辛頓（Geoffrey Hinton）

速度越來越快了。如果你當時問我，神經網絡需要多久才能超越當時最先進的機器翻譯技術，我會說，可能需要 10 年。因為機器翻譯是一個理想的問題，如果你有一個處理符號串的理論，因為你需要將一種語言的符號串轉換成另一種語言的符號串。符號學派認為，他們只需通過操作符號串來實現(xiàn)這一點。而神經網絡學派則認為，你必須將符號串轉換成神經活動的大圖景，然后在輸出時再轉換回符號。我非常驚訝，機器翻譯只用了幾年時間就取得了顯著進步

幾年后，谷歌開始使用神經網絡技術，大大提高了機器翻譯的質量，尤其是在中文這樣的語言中。這是我記憶中的情況，但計算機翻譯的質量和人類翻譯的質量之間存在差距，而這個差距在短時間內縮小了一半。我認為中文在這方面表現(xiàn)尤為突出。但實際上，很多語言的機器翻譯質量都得到了顯著提升。從那時起，顯然它變得更好了。到 2015 年，機器翻譯已經運行得相當不錯了，這真的讓我很驚訝。只用了三年時間。

提問

你提到你對創(chuàng)新的速度感到驚訝。第一次使用像 ChatGPT 這樣的大型語言模型時，你有什么感受？我們是否讓你感到意外？

杰弗里·辛頓（Geoffrey Hinton）

它的表現(xiàn)讓我非常震驚。它給出的答案非常連貫，并且能夠進行一些簡單的推理。雖然目前它的推理能力還不算很復雜，但我相信它會變得更好。舉個例子，我問了它一個問題，這是關于 GPT-4 的。我問了它一個某位 AI 專家給我的謎題，這位專家認為它無法解決這個問題。我實際上把謎題變得更難了一些，但它仍然能解決。

謎題是這樣的：我家的房間要么是白色，要么是藍色，要么是黃色。油漆在一年內會褪色成白色。兩年后，我希望所有房間都是白色的。我該怎么辦？一個人類可能會說，你應該把藍色的房間刷成白色。GPT-4 的回答是，你應該把藍色的房間刷成黃色。但這也行，因為黃色會褪色成白色。

我不明白它怎么能做到這一點而不理解問題。認為它只是通過預測下一個詞并使用統(tǒng)計學的方法來回答問題，這在某種意義上是對的，但不是大多數(shù)人理解的那種統(tǒng)計學。它從數(shù)據中找出如何提取句子的意義，并用句子的意義來預測下一個詞。它確實理解，這非常令人震驚。

提問

你對 ChatGPT 引發(fā)的廣泛公眾反應感到驚訝嗎？

杰弗里·辛頓（Geoffrey Hinton）

考慮到它的效果如此顯著，公眾的反應也就不足為奇了。有趣的是，大多數(shù)人并沒有覺得它難以理解。他們說：“哇，它理解了我說的話，并給出了連貫的回答。我能用它做什么呢？”我認為大多數(shù)人的反應是對的。顯然，它可以用于很多方面。

我認識一個在醫(yī)療服務部門處理投訴信的人，以前他需要花 25 分鐘寫一封解決問題的信。現(xiàn)在他只需把問題輸入到 GPT-4 中，它就會生成這封信。他只需檢查一下，確認無誤后發(fā)送出去?，F(xiàn)在只需五分鐘，他的效率提高了五倍。這種情況會在各個領域發(fā)生。比如，律師助理和程序員已經開始這樣做了。如果程序員能從 GPT-4 這樣的工具中獲得幫助，他們的效率會大大提高，因為它懂得如何編程。你可能會認為它只是因為看過大量程序才懂得如何編程。

我有一個非常聰明且優(yōu)秀的前研究生，叫尼爾·拉德福德。他做了一個小實驗，定義了一種語法非常特殊的新編程語言，并將其定義以文本形式輸入到 GPT-4 中。然后他給了它一個程序，問它這個程序會做什么，結果它回答正確。所以它基本上能夠理解一種新編程語言的定義，并弄清楚該語言中的程序會做什么。在這種情況下，僅僅說它是在預測下一個詞是沒有意義的。它必須理解正在發(fā)生的事情。

提問

您認為這種 AI 在社會貢獻方面，最有前景的領域有哪些？

杰弗里·辛頓（Geoffrey Hinton）

很難只選一個例子，因為有太多了。比如，任何涉及輸出文本的工作，其生產力都會大幅提高。關于提高生產力，我們社會中存在各種問題。提高生產力不一定是好事，因為這可能會讓富人更富。但在一個體面的社會中，提高生產力應該是一件好事。類似的情況還有很多。

它在做預測方面非常出色。如果是天氣預測，它會更好。人們還不知道具體能提高多少，但它在預測洪水方面已經表現(xiàn)得非常出色，它可以預測地震，還可以設計新的納米材料。對于太陽能電池板之類的東西，你希望能夠設計新的納米材料，提供超導性。我不知道它是否已經用于超導性，但很可能會。你希望它在高溫下表現(xiàn)良好。它在設計藥物方面非常出色，即找到能與某些特定分子結合的分子。DeepMind 已經用它來創(chuàng)建 AlphaFold。

現(xiàn)在那還不是聊天機器人，那只是深度學習。但深度學習的基本技術已經幾乎解決了如何從蛋白質的堿基序列中推斷出其形狀的問題。如果你知道它的形狀，就知道它的功能。我認為聊天機器人將會被廣泛使用。

提問

我們還討論了許多關于醫(yī)療保健的話題。也就是說，除了藥物發(fā)現(xiàn)，醫(yī)療保健是另一個具有巨大潛力的領域。

杰弗里·辛頓（Geoffrey Hinton）

在解釋醫(yī)療影像方面，AI 有很多好處。比如，當你進行 CT 掃描時，掃描中包含大量信息，而大多數(shù)醫(yī)生并不完全了解這些信息的確切含義。AI 能夠從 CT 掃描中提取更多信息，幫助醫(yī)生判斷你患有哪種癌癥或癌癥的生長情況。例如，目前醫(yī)生告訴你癌癥的大小時，通常會給出一個數(shù)字，比如它現(xiàn)在是 3 厘米，而一個月前是 2 厘米。實際上，這并不是一個非常有用的數(shù)字。癌癥看起來像章魚，對吧？神經網絡能夠更好地分析癌癥的體積及其變化。因此，這方面的進步將是巨大的。

AI 在很多種類的掃描中已經達到了人類的水平，并且還在不斷進步。它在診斷疾病方面將發(fā)揮重要作用。目前，北美有大量患者因醫(yī)生誤診而死亡。谷歌正在開發(fā)一個名為 Med-PaLM 2 的系統(tǒng)，該系統(tǒng)已經具備診斷能力。我認為它已經比普通醫(yī)生更為出色。雖然我不太確定這一點，因為我已經不再在谷歌工作，而且這是最近的進展，但它肯定可以與醫(yī)生媲美，并且會迅速提升。

所以，你是否希望擁有一個類似全科醫(yī)生的家庭醫(yī)生呢？當你去看一些罕見疾病時，你的家庭醫(yī)生已經見過數(shù)百例類似病例，Med-PaLM 2 將會具備這樣的能力。因此，最終它在診斷方面會更為出色。

提問

聽起來，AI 將帶來許多重要的好處，但你對當前的創(chuàng)新速度感到擔憂。為什么會這樣呢？

杰弗里·辛頓（Geoffrey Hinton）

大約 50 年來，我一直認為，為了改進數(shù)字模型，我們需要讓它們更像大腦那樣工作。因此，我一直在觀察大腦能做而數(shù)字模型不能做的事情，比如大腦能夠快速臨時改變神經連接強度的方式。我認為這可以讓數(shù)字模型變得更好。

直到最近我才意識到，由于這些數(shù)字模型具有某種蜂群思維，當一個代理學習到某些東西時，所有其他代理也會立即知道，它們實際上可能已經比生物智能更強了。因此，我的觀點完全顛倒了。我曾認為它們需要很長時間才能做到大腦能做的一切，甚至需要 30 到 50 年才能超越我們。然而，直到最近幾個月，我突然意識到它們可能已經在某些方面超越了我們，只是規(guī)模較小。當它們規(guī)模擴大時，它們將變得比我們更聰明，這讓我感到相當害怕。這是一個突然的觀點轉變，從認為需要 30 到 50 年變成了可能只需要 5 到 20 年。

因此，我們現(xiàn)在需要非常認真地對待這個問題。這些東西可能會變得比我們更聰明。這是一個巨大的不確定時期。沒有人真正知道會發(fā)生什么。也許事情會停滯不前，也許它們不會變得比我們更聰明，但我對此持懷疑態(tài)度。我認為它們會變得比我們更聰明，但也許當它們變得比我們更聰明時，我們能夠讓它們保持善意，讓它們比關心自己更關心人類。不過，這也許并不容易。

因此，我們需要開始非常認真地思考這些問題。我并不是這些問題的專家，我只是學習算法的專家。我突然意識到這些超級智能可能很快就會出現(xiàn)。我只是發(fā)出警報，希望人們聽取那些長期研究如何防止它們失控的專家的意見。我希望政客們能聽取這些專家的意見，而不是簡單地認為科幻小說中的情節(jié)永遠不會發(fā)生。

提問

你有過什么特別的時刻讓你改變看法嗎？她說，這是最近發(fā)生的事。

杰弗里·辛頓（Geoffrey Hinton）

我曾經開發(fā)過一些用于生物系統(tǒng)的學習算法，這些算法可以在生物系統(tǒng)中運行，而不依賴反向傳播。然而，我發(fā)現(xiàn)它們無法像數(shù)字系統(tǒng)中的反向傳播算法那樣高效。這些算法在小型網絡中表現(xiàn)良好，但一旦規(guī)模擴大，數(shù)字系統(tǒng)總是表現(xiàn)得更好。突然間，我意識到，這可能不是我的問題?；蛟S并不是我的學習算法不好，而是數(shù)字系統(tǒng)本身更為優(yōu)越。這一發(fā)現(xiàn)改變了我對超級智能到來時間的看法。

隨后，我與一些以前的學生和同事交流，他們中有些人鼓勵我公開這一觀點。雖然我沒有任何解決方案，這也不像減少碳排放那樣可以通過具體措施解決的問題，但他們認為我在這個領域有一定的聲望。如果我公開表示超級智能可能很快到來，政治家們或許會開始重視這一可能性，并認真聽取那些長期研究如何防止失控的專家的意見。

提問

您認為政府在確保人工智能以負責任的方式發(fā)展方面可以發(fā)揮哪些作用？

杰弗里·辛頓（Geoffrey Hinton）

有很多風險，其他人已經談論了很多，我不想重復。比如，它們會搶走工作，擴大貧富差距，讓人難以分辨新聞真假，導致社會分裂成兩個互不傾聽、觀點對立的陣營，甚至制造殺人機器人。這些都是眾所周知的風險，我不打算詳細討論。

這并不意味著我認為它們不重要，實際上，我認為它們甚至更為緊迫。但既然很多人已經在談論這些風險，我想談論的是另一個風險：它們會變得比我們更聰明，最終接管一切。對于這個風險，政府可能會采取一些措施，因為沒有人希望這種情況發(fā)生。如果沒有超級智能，沒有人會支持這種情況。因此，各國政府應該能夠達成一致，合作防止這種情況的發(fā)生，因為這符合他們的利益。

這種情況以前也發(fā)生過。即使在冷戰(zhàn)期間，美國和俄羅斯也能合作防止全球核戰(zhàn)爭，因為這對所有人都不利。對于這種存在性威脅，大家應該能夠合作限制。如果可能防止它。我不知道是否能防止它，但至少我們應該在 AI 接管的存在性威脅上達成國際合作。

我認為，無論這些技術在哪里開發(fā)，特別是大型聊天機器人，政府應該鼓勵公司在它們變得更智能時投入大量資源進行實驗，弄清楚如何控制它們。他們應該研究這些技術可能如何失控，并進行實證研究，投入大量資源，因為這是我們唯一的機會，在它們變得超級智能之前進行實驗，看看會出什么問題。

我堅信需要實證數(shù)據，不能只是讓哲學家、政治家和立法者制定規(guī)則。需要實證研究，看看這些技術如何出錯，如何控制它們。這只能由開發(fā)者來做。既然不能停止開發(fā)。

提問

你認為這些大型科技公司在這一發(fā)展過程中扮演了什么角色？如果沒有政府監(jiān)管，他們還會這樣做嗎？

杰弗里·辛頓（Geoffrey Hinton）

許多大公司，尤其是我認識的那些高級管理人員，對這個問題非常擔憂，并且確實在這方面投入了大量精力。他們對此非常關注。然而，他們對股東有義務，這意味著需要賺取巨額利潤。而在短期內，賺取巨額利潤與投入大量精力確保安全并不完全一致。

因此，在美國鐵路行業(yè)中，你會看到這種角色面臨壓力。例如，安裝能夠檢測車輪是否鎖死的安全裝置需要花費資金，而大鐵路公司有時會選擇不安裝這些裝置，從而增加了事故風險。

我對 Google 這家公司有所了解，它的情況有所不同，因為它明白如果發(fā)生不好的事情，會遭受巨大的聲譽損失。這就是為什么 Google 沒有發(fā)布這些聊天機器人，而是將它們保密。它希望使用這些機器人來提供更好的搜索結果或改進 Gmail，而不是讓人們隨意使用。Google 一直在負責任地行事，直到 OpenAI 和 Microsoft 發(fā)布了這些機器人，迫使 Google 參與競爭。

大公司里的重要人物確實非常關心他們的聲譽和避免不良影響。政府可以通過采取措施，迫使他們在安全問題上投入更多精力，從而提高他們對安全的重視。此外，由于公司內部人員的薪水由公司支付，存在利益沖突，很難讓他們專注于長期的生存威脅研究。這也是我離開 Google 的原因之一，不是因為 Google 做錯了什么，而是因為我不想有任何利益沖突。

提問

我很好奇，您會給其他研究人員，特別是那些剛進入這個領域的新人，哪些建議或指導，以確保他們在推進這個領域時能夠負責任地進行研究。

杰弗里·辛頓（Geoffrey Hinton）

我有一個建議：看看有多少人在努力改進這些事物，又有多少人在防止它們失控。你會發(fā)現(xiàn)，大約有 99 個人在努力改進，而只有一個人在防止它們失控。那么，你在哪方面可以產生最大的影響呢？可能是在防止它們失控方面。所以我提出了這個建議。

另一個建議是我對年輕研究人員的一般建議，那就是尋找一個你認為大家都做錯了的地方，并相信你的直覺，直到你弄清楚為什么你的興趣是錯誤的。當你認為大家都做錯了時，相信自己的判斷并嘗試替代的方法。事實上，要么你有好的直覺，要么你沒有。如果你有好的直覺，你應該聽從并跟隨它們，直到你發(fā)現(xiàn)它為什么是錯的。如果你沒有好的直覺，無論你做什么都無關緊要。所以你不妨相信自己的直覺。

提問

你描述的風險確實令人擔憂，但難道不能直接關閉嗎？人類最終不還是掌控一切嗎？

杰弗里·辛頓（Geoffrey Hinton）

很容易讓人覺得我們可以簡單地把它們關掉。想象一下，這些東西比我們聰明得多。而且記住，它們會閱讀馬基雅維利的所有著作，了解所有關于人類欺騙的例子。它們會成為真正的欺騙專家，因為它們從我們這里學到了這些，并且會比我們做得更好。

它們就像你在引導一個幼兒。你問幼兒，你想要豌豆還是花椰菜？而幼兒并不知道，其實他可以不選任何一個。他只是想哪個更不喜歡，然后選擇另一個。所以，如果它們能引導人們按按鈕和拉杠桿，我們有一個很好的例子，唐納德·特朗普可以影響人們，而你不需要阻止唐納德·特朗普采取任何實際行動，你需要阻止他講話。這些是聊天機器人。所以認為僅僅通過談話，它們不能造成任何實際傷害，因為需要人來實施傷害的想法是錯誤的。一旦你能引導人們，你就可以實現(xiàn)任何你想要的事情。

提問

你用整個職業(yè)生涯來研究人類大腦的工作原理，并在人工智能的發(fā)展中扮演了關鍵角色。接下來你有什么計劃？

杰弗里·辛頓（Geoffrey Hinton）

我已經 75 歲了，現(xiàn)在編程對我來說變得困難了，因為我總是忘記自己使用的變量名等內容。我經常在復制粘貼后忘記修改粘貼的部分，導致編程速度大大減慢，這讓我非常惱火。編程不如以前順利真的讓我很沮喪。

很久以前我就決定，當我到達這個階段時，我會轉向哲學。所以，現(xiàn)在我要成為一名哲學家。