像人類一樣認識世界，AI需要哪些底層思維？

逐暗者墜 2021-07-27

展開全文

作者 | 琰琰

近幾年，多模態(tài)已經(jīng)成為自然語言處理（NLP）領(lǐng)域的熱點研究方向之一。得益于深度學習的興起，大數(shù)據(jù)+大模型的雙輪模式推動人工智能實現(xiàn)了跨越式發(fā)展。但大量實驗證明，僅依靠“煉大模型”仍不足以解決通用人工智能（AGI）的常識問題。

此外，計算機視覺、自然語言處理、語音識別等技術(shù)日益成熟，使“多模態(tài)”信息融合的優(yōu)勢進一步凸顯。去年年初，OpenAI發(fā)布多模態(tài)大規(guī)模預訓練模型CLIP和DALL·E，在語言理解和圖像生成方面刷新SOTA，驗證了多模態(tài)在處理NLP任務(wù)中潛力。

在國內(nèi)，北京智源研究院近日發(fā)布全球最大規(guī)模預訓練語言模型“悟道2.0”，其1.75萬億參數(shù)在業(yè)內(nèi)引起不小的震撼。延續(xù)GPT-3的“暴力美學”，悟道2.0的效率更高，性能更佳，一舉拿下了9項Benchmark。

其中，以多模態(tài)為核心的預訓練模型悟道·文瀾，在語義理解、視覺-語言檢索方面的能力同樣令人驚艷。據(jù)官方介紹，文瀾2.0實現(xiàn)7種不同語言的生成和理解，創(chuàng)下多語言預訓練模型的最高記錄，同時，憑借更多的常識儲備，在圖文檢索、圖像問答等任務(wù)上達到了世界領(lǐng)先水平。

文瀾的定位是解決多模態(tài)之間的語義融合問題?！拔覀兿Ｍ麆?chuàng)造出世界上最大、性能最佳的通用多模態(tài)模型，為各種現(xiàn)實應用場景賦能?！敝袊嗣翊髮W高瓴人工智能學院執(zhí)行院長、文瀾研發(fā)團隊總負責人文繼榮教授告訴AI科技評論。

悟道·文瀾是中國人民大學高瓴人工智能學院與北京智源研究院合作，聯(lián)合中科院和清華大學共同開展的大規(guī)模預訓練模型研究項目。目前有3位核心負責人、8位科研人員，27位高校學生參加整個項目的統(tǒng)籌與研發(fā)工作。

文繼榮教授與同為人大高瓴人工智能學院的宋睿華副教授和盧志武教授為團隊的核心負責人。近日，AI科技評論有幸采訪到了三位專家，與他們聊了聊文瀾背后的技術(shù)與展望。

從左到右依次為：金琴、宋睿華、文繼榮、盧志武

1

仿人類認知思維，多模態(tài)加速推進AGI

2021年1月6日，OpenAI同時發(fā)布兩大多模態(tài)預訓練模型DALL·E和CLIP——前者可基于文本生成圖像，后者能夠完成圖像與文本類別的匹配。殊不知，在人們驚呼自然語言與視覺的次元壁被打破時，在中國同步開發(fā)并在多項指標上超過OpenAI的預訓練語言模型——悟道.文瀾已經(jīng)誕生。

2020年10月，智源研究院與各大科研院所的AI專家們召開內(nèi)部會議，商討人工智能下一階段的研發(fā)方向，其中，研發(fā)文本與圖像互通的“多模態(tài)”模型以高票數(shù)勝出。同月，文瀾項目正式啟動。三個月后，在智源研究院提供算力、數(shù)據(jù)等資源的支持下，文瀾模型研發(fā)成功。

自GPT-3問世之后，國內(nèi)眾多AI專家已經(jīng)敏銳地察覺到，OpenAI下一步的目標一定是多模態(tài)。類似于大模型，多模態(tài)將成為業(yè)內(nèi)下一個熱點研究方向。那么，文瀾的研發(fā)初衷只是為了與OpenAI一爭高下，或者在學術(shù)界占據(jù)高地嗎？

究竟為何要研究多模態(tài)，為何要研發(fā)文瀾模型？

自然語言處理是人工智能領(lǐng)域的基礎(chǔ)研究，也是實現(xiàn)通用人工智能的關(guān)鍵性挑戰(zhàn)，之所以在文瀾中融入多模態(tài)，實現(xiàn)文本與圖像的連接，文繼榮教授表示，

多模態(tài)不僅要解決NLP的問題。我們認為，多模態(tài)更符合人類認知世界的方式。人類通過視覺和聽覺感知物理世界的過程是多模態(tài)的，通過模仿這一過程有可能從根本上解決“AI學習智能行為，而非智能本身”的問題。

人工智能的終極目標是：讓機器擁有和人一樣的理解與思考能力。要想達到這一目標，需要無限接近于人類的認知方式。我們生活在一個多模態(tài)的交互環(huán)境中，聽到的聲音、看到的實物、聞到的味道等，不同的模態(tài)信息讓我們更全面和高效地了解周圍的世界。

模態(tài)（Modality）是一個廣泛的概念，它代表每一種信息的來源或者形式，上述提到的聽覺、視覺、嗅覺代表不同的模態(tài)感知方式；信息的媒介中的語音、視頻、圖像、文字等代表不同的模態(tài)數(shù)據(jù)。

在自然語言理解任務(wù)中，融入圖像模態(tài)有助于AI像人類一樣學習和理解文本信息，反之亦然。

文繼榮教授舉例說，我們經(jīng)常用一些抽象的詞語來形容人或物，比如慈祥、俊朗、活力。如果只有純文字，一個呀呀學語的小孩子可能很難理解什么是慈祥，但如果給她看一張老奶奶的圖片，她可能很快就能理解。AI模型就是這樣一個小孩。

更重要的是，有了視覺模態(tài)的加持，AI模型還能極大地擴展語義信息、增強圖文理解能力。

據(jù)悉，在文瀾1.0版時，研發(fā)團隊已經(jīng)對多模態(tài)模型進行了測試，看看它到底比單模態(tài)多了哪些信息。下面是兩張測試圖：左邊是用BERT文本預訓練模型得到的結(jié)果，右邊是用UNITER多模態(tài)預訓練模型得到的結(jié)果。

如果輸入“自行車”一詞，通過文本數(shù)據(jù)訓練的AI，周圍出現(xiàn)了類似于自行車，摩托車，汽車等強相關(guān)詞匯。

而利用多模態(tài)數(shù)據(jù)進行訓練的AI，其周圍出現(xiàn)了一些，如“騎”、“男人、女人”、“頭盔”，“停車”一類更豐富的弱相關(guān)詞匯，甚至還出現(xiàn)了“on”表示“位于車上”的詞。

這里提到的強相關(guān)與弱相關(guān)的概念，是文瀾研發(fā)團隊首次認識到并明確提出的，也是文瀾2.0取得突破性進展的本質(zhì)原因之一。

2

“弱相關(guān)”關(guān)系，文瀾模型的底層思維

多模態(tài)從2010年后開始進入Deep Learning階段。

在此期間，業(yè)界和學術(shù)界推出的多模態(tài)預訓練模型不在少數(shù)，且多出自國內(nèi)外頂級科研機構(gòu)?，F(xiàn)階段，主流的多模態(tài)NLP模型，除了DALL·E和CLIP外，還有阿里與清華聯(lián)合研發(fā)的M6、百度研發(fā)的ERNIE-ViL等等。

眾多高性能模型中，后來居上的文瀾為何成了世界級“領(lǐng)跑者”？

文瀾模型結(jié)構(gòu)負責人盧志武教授對此介紹了三點，第一，文瀾是首創(chuàng)雙塔結(jié)構(gòu)（Bridging Vision and Language ，BriVL-2）進行預訓練的模型，與傳統(tǒng)單塔相比，BriVL-2在圖像和文本之間建立了一種“弱相關(guān)”假設(shè)。

如上，給定一張“生日蛋糕”的圖片，強相關(guān)模型可能會輸出——生日蛋糕的蠟燭在燃燒，本文內(nèi)容基本與圖片保持一致，而弱相關(guān)則可能輸出——今天的減肥計劃又泡湯了，它嘗試從更高的內(nèi)涵層次上理解圖像信息。

換言之，弱相關(guān)使文瀾模型對文本/圖像信息的理解不僅局限于“等價”關(guān)聯(lián)，而是進一步擴展到了“場景”關(guān)聯(lián)、“因果”關(guān)聯(lián)等。

事實上，多模態(tài)之間的語義融合問題一直是人工智能領(lǐng)域一項極具挑戰(zhàn)性的工作。2005年，《Nature》期刊曾發(fā)表一篇文章，表明人類對同一實體的圖像和文字兩種模態(tài)的認知是在同一神經(jīng)元上激活的，二者會被映射到同一個空間。

類似地，為了模仿人腦的建模過程，AI模型在預訓練過程中，通常會事先把數(shù)據(jù)集中的圖像編碼成一個高維向量，當用戶輸入文字時，再將文字向量映射到同一個空間，最后通過向量檢索，獲取相應的圖片。

該過程的關(guān)鍵在于，文本和圖像的語義信息是否實現(xiàn)對齊、融合。

文繼榮教授介紹稱，這項任務(wù)看似簡單，實則難度極高。而文瀾成功將兩種模態(tài)的語義映射到了同一空間，并獲得相同的表達。這項突破性進展，攻克了計算機視覺研究長期以來無法解決的難題。

第二，文瀾2.0所使用的訓練圖文數(shù)據(jù)集從3000萬升級到了6.5億，且數(shù)據(jù)全部抓取自互聯(lián)網(wǎng)。

據(jù)悉，DALL·E采用的是Image數(shù)據(jù)集，其文本數(shù)據(jù)多為一些名詞概念，相對固化，而文瀾的6.5億圖文數(shù)據(jù)來自現(xiàn)實世界，自然而真實。更重要是，文瀾的弱相關(guān)性假設(shè)，使數(shù)據(jù)無需標注成為可能。

第三、文瀾支持整個句子的理解，而非關(guān)鍵詞。這是它與瀏覽器搜索最顯著的區(qū)別。比如，在《布靈的想象世界》中輸入“憂郁的蛋糕”，它會呈現(xiàn)一個以黑色調(diào)為背景的蛋糕圖片。宋睿華教授介紹稱，文瀾能夠通過抽象性文字呈現(xiàn)出一種氛圍，而不是僅focus一個關(guān)鍵詞。

基于以上核心能力，文瀾已經(jīng)具備文檢索圖、文生成圖、圖檢索文、圖生成文四種功能。目前研發(fā)團隊利用圖檢索文、文檢索圖兩項核心功能開發(fā)了應用小程序《AI心情電臺》和《布靈的想象世界》，首次實現(xiàn)了高效的跨模態(tài)檢索。

此外，中科院計算所團隊還在文瀾多模態(tài)的基礎(chǔ)上開發(fā)了應用《只言片語》，考察文瀾模型的語言理解能力與人類玩家的相似度。這個應用包括“默契大考驗”和“看看誰懂我”兩種模式，是首個AI加持的在線桌游，也是一種新模式的圖靈測試。

在游戲的過程中，一名玩家隨機挑選一張圖片，并給出與之相關(guān)的文字描述。另一位玩家根據(jù)出題人玩家的描述從文瀾給出的干擾項中挑選出正確的圖片。如果兩位玩家的圖片不一致，說明文瀾對文本的精準理解對人類產(chǎn)生了干擾，即通過了圖靈測試。

以往的圖靈測試都是以數(shù)據(jù)標注的形式進行，過程通?？菰锓ξ?；“只言片語“采用小游戲的形式，在給玩家?guī)順啡さ耐瑫r，通過測試模型檢索到的圖片是否能夠迷惑人類，從而評估了圖文匹配模型的能力。

3

逼近圖靈測試，探秘AI“潛意識”

沒有常識的AI，永遠無法實現(xiàn)真正的智能。

2021北京智源大會，宋睿華教授在題為《我們賴以生存的意義和超大規(guī)模多模態(tài)預訓練》的主旨演講中，提出“僅通過文字，AI很難像人類那樣將語言理解成意義”，她大膽預言：對多模態(tài)的研究可能會帶來自然語言理解的重大突破, 多模態(tài)將是AI開啟常識之門的鑰匙。

在邁向通用人工智能的路上，常識是AI必須要解決的基本問題。然而，以GPT-3為代表的超大規(guī)模預訓練模型，并不足以解決這一問題。盡管“大模型”帶來了超乎想象的性能表現(xiàn)，但它與圖靈測試仍相距甚遠。

其實，GPT-3并非完全不具備常識，而是受限于單模態(tài)的信息獲取方式，導致其常識性不足。眾所周知，大部分常識是不言而喻的，我們并不會直接表達出來，比如太陽有幾只眼睛？鉛筆與烤面包機哪一個更重？換言之，凡是沒有采用文本方式進行表達的常識，都不能為GPT-3所學習。

毫無疑問，相比于單模態(tài)，文瀾能夠從圖文融合的多模態(tài)中獲取到更多的常識。文繼榮教授表示，常識是無窮無盡，文瀾從圖文模態(tài)學習到了哪些常識，不能學習哪些常識，目前仍在進一步研究中。但可以確定的是，多模態(tài)為AI擁有常識提供了一條最富潛力的路徑。

區(qū)別于科學知識，常識主要來源于人們對一般日常生活的感性認識和經(jīng)驗總結(jié)。由于未通過圖靈測試，GPT-3被認為不具備人類的感知思維，它無法超越數(shù)據(jù)本身，也無法擁有組合性推理的能力，其生成能力不過是統(tǒng)計層面的“復制粘貼”能力。

為了測試文瀾是否學到了語義信息，并擁有了真正的理解能力。研發(fā)團隊對文瀾的“潛意識”過程進行了可視化，即告訴文瀾一個概念，讓它以圖像的形式呈現(xiàn)出“大腦”對這一概念最原始的理解與想象。例如，輸入夢境、科學、自然。

如上圖，經(jīng)過多模態(tài)預訓練后的文瀾，基本能夠“看到”抽象的人類概念，并且不同于CLIP模型，這些可視化結(jié)果未經(jīng)人為干預和手工挑選，是模型對輸入概念的第一反應。這說明，文瀾的生成能力并非基于單純的數(shù)據(jù)統(tǒng)計，而是對文字本身有了內(nèi)涵上的理解。

除了抽象概念，文瀾也能對句子、詩詞想象出意境。如輸入【大漠孤煙直，長河落日圓】，雖然沒有明顯的孤煙、長河、落日等意象，但整體棕黃色的氛圍確實體現(xiàn)了大漠的環(huán)境。

通過神經(jīng)元可視化，我們得以窺見文瀾的內(nèi)心世界，了解其最原始的、最真實的、在“潛意識”中對于輸入文本的獨特理解。文瀾團隊介紹稱，不同于圖文檢索能力，神經(jīng)元可視化展現(xiàn)了文瀾在藝術(shù)生成方面的潛力，下一階段團隊將重點培養(yǎng)其審美能力，使其創(chuàng)作出更好的藝術(shù)作品。

4

總結(jié)

遵循“煉大模型”的基本原則，文瀾使用6.5萬億真實的圖文對進行預訓練，參數(shù)量達到了10億。在此基礎(chǔ)上，它嘗試從多模態(tài)場景出發(fā)，模擬人類的認知思維，獨創(chuàng)性地提出了基于跨模態(tài)對比學習的雙塔結(jié)構(gòu)。

該結(jié)構(gòu)利用圖-文的弱相關(guān)性假設(shè)，為文瀾提供了更豐富的語義信息和更強大的理解能力，并通過神經(jīng)元可視化得到了最佳驗證。此外，在公開VQA數(shù)據(jù)集Visual7W的視覺問答測試任務(wù)中，文瀾能額外帶來8%的增長，展示了多模態(tài)預訓練的常識學習能力。

總結(jié)來看，悟道·文瀾在研發(fā)過程中重點關(guān)注三個方面，一是如何利用現(xiàn)有的單模態(tài)預訓練大模型的研究成果；二是如何更好地刻畫互聯(lián)網(wǎng)上圖文弱相關(guān)的關(guān)系；三是如何讓模型學習到更多常識；針對以上問題，文瀾已經(jīng)揭開了答案的一角。

《布靈的想象世界》

《AI心情電臺》

《只言片語》

悟道·文瀾API地址：

只言片語應用地址：

【單人可分享測試版】：http://120.92.50.21:6177/

【雙人默契度測試版】：http://120.92.50.21:6177/double

由于微信公眾號試行亂序推送，您可能不再能準時收到AI科技評論的推送。為了第一時間收到AI科技評論的報道，請將“AI科技評論”設(shè)為星標賬號，以及常點文末右下角的“在看”。

本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間，所有內(nèi)容均由用戶發(fā)布，不代表本站觀點。請注意甄別內(nèi)容中的聯(lián)系方式、誘導購買等信息，謹防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請點擊一鍵舉報。

午夜视频在线网站,日韩视频精品在线,中文字幕精品一区二区三区在线,在线播放精品,1024你懂我懂的旧版人,欧美日韩一级黄色片,一区二区三区在线观看视频

像人類一樣認識世界，AI需要哪些底層思維？

像人類一樣認識世界，AI需要哪些底層思維？