午夜视频在线网站,日韩视频精品在线,中文字幕精品一区二区三区在线,在线播放精品,1024你懂我懂的旧版人,欧美日韩一级黄色片,一区二区三区在线观看视频

分享

Bengio團隊Nature發(fā)文:四個維度講AI for Science

 taotao_2016 2023-08-18 發(fā)布于陜西

西風(fēng) 發(fā)自 凹非寺

最近,Yoshua Bengio帶領(lǐng)團隊展示了一場人工智能十年跨界秀。

從數(shù)據(jù)收集到模型構(gòu)建,從實驗設(shè)計到過程控制,AI跨界正在改變科學(xué)研究方式,成為科學(xué)發(fā)現(xiàn)引擎。

盡管科學(xué)實踐因科學(xué)研究階段而異,但AI的發(fā)展跨越了傳統(tǒng)上孤立的學(xué)科。

例如在粒子物理實驗中,每秒產(chǎn)生的海量數(shù)據(jù)難以處理和存儲,人工智能模型可以通過異常檢測算法在實時流中找出稀有事件,大大減少存儲壓力。

在生物信息學(xué)領(lǐng)域,人工智能可以給海量未標注的基因序列賦予功能注釋,幫助后續(xù)模型的訓(xùn)練。

AI正賦能眾多科學(xué)領(lǐng)域的研究發(fā)現(xiàn),融入科學(xué)發(fā)現(xiàn)的假設(shè)形成、實驗設(shè)計、數(shù)據(jù)收集和分析各個階段。

Bengio團隊Nature發(fā)文:四個維度講AI for Science

在“Scientific discovery in the age of artificial intelligence”這篇三位華人一作、Yoshua Bengio領(lǐng)銜的論文中,作者詳解了自監(jiān)督學(xué)習(xí)、幾何深度學(xué)習(xí)、生成式人工智能等技術(shù)在科學(xué)研究中的應(yīng)用,并提出了目前AI跨界仍存在的核心問題,目前該論文已刊于Nature綜述文章。

Bengio團隊Nature發(fā)文:四個維度講AI for Science

來看大佬如何總結(jié)AI for Science。

十年科學(xué)發(fā)現(xiàn)中AI的身影

在這篇論文中,研究人員從AI輔助的科學(xué)研究數(shù)據(jù)收集和整理、學(xué)習(xí)有意義的科學(xué)數(shù)據(jù)表示、使用AI生成科學(xué)假說、AI驅(qū)動的實驗和模擬幾個方面講述了近年來AI在科學(xué)研究中的應(yīng)用。

AI輔助的科學(xué)研究數(shù)據(jù)收集和整理

科學(xué)發(fā)現(xiàn)和理論的形成基于數(shù)據(jù)的收集、轉(zhuǎn)化和理解,過去十年AI在數(shù)據(jù)的選擇、標注、生成、精化等方面得到了廣泛應(yīng)用。

在數(shù)據(jù)選擇(Data selection)方面,隨著科學(xué)實驗中收集的數(shù)據(jù)集規(guī)模和復(fù)雜性不斷增加,科學(xué)研究越來越依賴實時處理和高性能計算來選擇性地存儲和分析數(shù)據(jù)。

一個典型案例就是粒子碰撞實驗,每秒將生成超100TB的數(shù)據(jù),這給數(shù)據(jù)傳輸和存儲帶來巨大挑戰(zhàn)。

在這類物理實驗中,超過99.99%的原始數(shù)據(jù)都屬于背景事件,需要實時檢測并丟棄。

為了識別用于科學(xué)研究的罕見事件,深度學(xué)習(xí)方法取代了預(yù)編程的硬件事件觸發(fā)器,而是使用算法搜索異常信號,并檢測出可能被忽略的罕見現(xiàn)象。

這種無監(jiān)督方法不需要標注樣本,已被廣泛應(yīng)用在物理、神經(jīng)科學(xué)、地球科學(xué)等領(lǐng)域。

在數(shù)據(jù)標注(Data annotation)方面,訓(xùn)練監(jiān)督學(xué)習(xí)模型需要大量標注過的數(shù)據(jù)集來提供監(jiān)督信息,但是科研數(shù)據(jù)的標注工作非常耗時耗力。

AI的加入提供了用半監(jiān)督學(xué)習(xí)方法自動標注大規(guī)模無標注數(shù)據(jù)集的選擇:

(1) 偽標記(Pseudo-labelling):使用預(yù)訓(xùn)練模型為無標注樣本生成偽標簽,然后用這些偽標簽來訓(xùn)練后續(xù)預(yù)測模型。

(2) 標簽傳播(Label propagation):基于特征嵌入構(gòu)建樣本相似圖,然后將已有標簽擴散到無標注樣本上。

(3) 主動學(xué)習(xí)(Active learning):識別人類標注的最具信息量的數(shù)據(jù)點,或者確定要執(zhí)行的最具信息量的實驗。

在數(shù)據(jù)生成(Data generation)方面,提高訓(xùn)練數(shù)據(jù)的質(zhì)量、多樣性和規(guī)??梢愿纳粕疃葘W(xué)習(xí)的性能。

文中提到了兩種主要的合成數(shù)據(jù)增強方法:

(1) 自動數(shù)據(jù)增強:手動設(shè)計或用增強學(xué)習(xí)方法發(fā)現(xiàn)自動數(shù)據(jù)增強策略。

(2) 深度生成模型:可以學(xué)習(xí)底層數(shù)據(jù)分布,然后從優(yōu)化的分布中采樣新的訓(xùn)練點。

生成對抗網(wǎng)絡(luò)(GAN)已被證明對科研圖像合成有益,可以合成各領(lǐng)域的逼真圖像。

此外,概率編程,用計算機程序表達數(shù)據(jù)生成模型,是一種新興的可編程生成建模方法。

目前,生成數(shù)據(jù)已被廣泛應(yīng)用于粒子物理、病理切片、X光、MRI、材料微結(jié)構(gòu)、蛋白功能等領(lǐng)域。

在數(shù)據(jù)精化(Data refinements)方面,超高分辨率激光器等高精度儀器可以直接或間接測量真實世界對象,產(chǎn)生高度準確的數(shù)據(jù)。

使用AI技術(shù)可以顯著提高測量分辨率,減少噪聲、消除誤差。

例如,深度卷積網(wǎng)絡(luò)可以將質(zhì)量較差的時空分辨率低的數(shù)據(jù)轉(zhuǎn)換為高質(zhì)量、超分辨率和結(jié)構(gòu)化的圖像。

去噪自編碼器可以將高維輸入數(shù)據(jù)投影到更緊湊的基本特征表示中,變分自編碼器(VAE)通過潛在自編碼學(xué)習(xí)隨機表示,保留了基本數(shù)據(jù)特征,同時忽略了非基本的變化因素。

在科學(xué)實驗中應(yīng)用的例子包括可視化時空區(qū)域,如黑洞、捕捉物理粒子碰撞、提高活細胞圖像的分辨率等。

學(xué)習(xí)有意義的科學(xué)數(shù)據(jù)表示

深度學(xué)習(xí)能夠在不同抽象層次上提取科學(xué)數(shù)據(jù)的有意義表示,并通過端到端學(xué)習(xí)來優(yōu)化這些表示用于指導(dǎo)研究。

優(yōu)質(zhì)的表示應(yīng)簡潔并保留盡可能多的信息。科學(xué)上有意義的表示應(yīng)具有緊湊性、可區(qū)分性、可解耦性以及對下游任務(wù)的泛化能力。

研究人員介紹了三種滿足這些要求的新興策略:幾何先驗、自監(jiān)督學(xué)習(xí)和語言建模。

1、幾何先驗

幾何先驗的應(yīng)用能夠有效地捕捉數(shù)據(jù)的幾何和結(jié)構(gòu)特征,這在科學(xué)領(lǐng)域尤為重要。

對稱性是其中的一個關(guān)鍵概念,可以用不變性和等變性來描述,用于表示數(shù)學(xué)函數(shù)在一組變換下的行為規(guī)律。

比如一些重要的結(jié)構(gòu)屬性,像分子系統(tǒng)的二級結(jié)構(gòu)、溶劑可及性、殘基緊湊性和氫鍵模式等,在空間方向上是不變的。

在科學(xué)圖像分析中,對象在圖像中平移時不會改變,這意味著圖像分割掩碼是平移等變的,因為它們在平移輸入像素時等效地變化。

通過將對稱性等因素納入模型中,可以改善在少標注數(shù)據(jù)集下的AI應(yīng)用。通過增加訓(xùn)練樣本,可以改進對于與模型訓(xùn)練過程中遇到的輸入顯著不同的外推預(yù)測。

Bengio團隊Nature發(fā)文:四個維度講AI for Science

圖神經(jīng)網(wǎng)絡(luò)已成為在具有底層幾何和關(guān)系結(jié)構(gòu)的數(shù)據(jù)集上進行深度學(xué)習(xí)的主要方法之一。

幾何深度學(xué)習(xí)顯式利用局部化的圖信息或變換群信息,通過神經(jīng)消息傳遞算法學(xué)習(xí)關(guān)系模式。

2、自監(jiān)督學(xué)習(xí)

在標注數(shù)據(jù)不足時,僅依賴監(jiān)督學(xué)習(xí)是不夠的,利用無標注數(shù)據(jù)可以提高模型性能和學(xué)習(xí)能力。

Bengio團隊Nature發(fā)文:四個維度講AI for Science

自監(jiān)督學(xué)習(xí)使用無標注數(shù)據(jù)來學(xué)習(xí)一般特征,主要策略包括:

  • 預(yù)測圖像的遮擋區(qū)域
  • 預(yù)測視頻的前后幀
  • 對比學(xué)習(xí)使模型區(qū)分相似和不相似數(shù)據(jù)點

自監(jiān)督學(xué)習(xí)可以預(yù)訓(xùn)練模型抓取大規(guī)模無標注數(shù)據(jù)的特征,然后在小規(guī)模標注數(shù)據(jù)上微調(diào)。

3、語言建模

Bengio團隊Nature發(fā)文:四個維度講AI for Science

語言建模是一種流行的自監(jiān)督學(xué)習(xí)方法,可以用于學(xué)習(xí)自然語言和生物序列的特征。

在訓(xùn)練過程中,主要目標是預(yù)測序列中的下一個token,而在基于掩碼的訓(xùn)練中,自監(jiān)督任務(wù)是使用雙向序列上下文來恢復(fù)序列中的掩碼token。

原子或氨基酸的排列類似于字母組成單詞和句子,用于定義分子和生物功能的結(jié)構(gòu)。蛋白質(zhì)語言模型可以編碼氨基酸序列以捕捉其結(jié)構(gòu)和功能特性,并評估病毒變異的進化適應(yīng)性。

這些表示方法可以在各種任務(wù)中傳遞應(yīng)用,包括序列設(shè)計和結(jié)構(gòu)預(yù)測。在處理生物化學(xué)序列時,化學(xué)語言模型能夠有效地探索廣闊的化學(xué)空間,用于預(yù)測性質(zhì)、計劃合成過程以及探索化學(xué)反應(yīng)的可能性。

說到這里,就不得不提Transformer架構(gòu),它能夠通過靈活地建模任意token對之間的交互,從而處理token序列,超越了使用循環(huán)神經(jīng)網(wǎng)絡(luò)進行序列建模的早期嘗試。

在自然語言處理領(lǐng)域,Transformer已占據(jù)主導(dǎo)地位,并成功應(yīng)用于地震信號檢測、DNA 和蛋白質(zhì)序列建模、模擬序列變異對生物功能的影響、符號回歸等系列問題。

使用AI生成科學(xué)假說

可檢驗的假設(shè)是科學(xué)發(fā)現(xiàn)的核心,它們可以來源于數(shù)學(xué)中的符號表達式、化學(xué)中的分子、生物學(xué)中的基因變異……

但提出這樣一種有意義的假設(shè)可能需要漫長的時間,正如Johannes Kepler,花費了四年時間分析恒星和行星數(shù)據(jù),才得出了一個能發(fā)現(xiàn)行星運動定律的假設(shè)。

AI可以以下幾種方式幫助提出科學(xué)假說:

(1) 黑箱預(yù)測器:高通量快速篩選候選假說,選擇有價值的進行后續(xù)驗證。

(2) 導(dǎo)航組合假說空間:使用強化學(xué)習(xí)評估每次搜索的回報,聚焦在最有前景的假說要素上。

(3) 優(yōu)化可微假說空間:將離散假說空間映射到連續(xù)可微空間進行優(yōu)化。

這些AI方法為科學(xué)假說的生成、評價和選擇提供了強有力的新工具。

Bengio團隊Nature發(fā)文:四個維度講AI for Science

AI驅(qū)動的實驗和模擬

通過實驗評估科學(xué)假設(shè)對于科學(xué)發(fā)現(xiàn)至關(guān)重要,但實驗成本高昂。

AI技術(shù)可以優(yōu)化實驗的參數(shù)設(shè)置、步驟設(shè)計等,減少不必要的試驗,提高資源利用效率。

強化學(xué)習(xí)可以根據(jù)實時反饋動態(tài)調(diào)整實驗方向,最大化實驗成功率和安全性。

計算模擬可以探索實際難以實現(xiàn)的情況,補充實驗。但是依賴于人為設(shè)置的簡化參數(shù)和啟發(fā)式方法,精度和效率存在局限。

然而,隨著深度學(xué)習(xí)的出現(xiàn),通過識別和優(yōu)化假設(shè)進行有效測試,以及使計算機模擬能夠?qū)⒂^察結(jié)果與假設(shè)聯(lián)系起來,這些問題正被解決。

這些AI驅(qū)動的實驗優(yōu)化和計算模擬方法,已經(jīng)在量子物理、化學(xué)合成、聚變反應(yīng)堆控制等領(lǐng)域展現(xiàn)出價值。

Bengio團隊Nature發(fā)文:四個維度講AI for Science

AI跨界面臨重大挑戰(zhàn)

值得一提的是,文章還討論了AI在科學(xué)發(fā)現(xiàn)中面臨的挑戰(zhàn)。

人工智能系統(tǒng)可以成為科學(xué)家發(fā)現(xiàn)新知識的重要助手,但也存在潛在的安全隱患。

例如,科學(xué)數(shù)據(jù)存在不完整、偏差等問題,需要規(guī)范化;還須要考慮數(shù)據(jù)的可訪問性、隱私等。模型和數(shù)據(jù)的標準化也很必要。

其次,分布偏移是一個核心問題,需要增強模型的泛化能力。處理多模態(tài)科學(xué)數(shù)據(jù)仍有挑戰(zhàn),如何系統(tǒng)地整合科學(xué)知識和原理也需要進一步探索,增強模型的解釋性和可信度亦很重要。

此外,AI專業(yè)人才短缺和計算資源需求巨大,需要產(chǎn)學(xué)界進一步合作,科學(xué)家需要掌握AI的適用性,還需建立倫理審查流程。

研究人員認為:

AI工具的錯誤應(yīng)用和對其結(jié)果的錯誤解讀可能會產(chǎn)生重大的負面影響。廣泛的應(yīng)用范圍使這些風(fēng)險變得更加復(fù)雜。

然而,人工智能的濫用不僅僅是一個技術(shù)問題,還取決于領(lǐng)導(dǎo)人工智能創(chuàng)新和投資人工智能實施的動機。建立道德審查流程和負責(zé)任的實施策略至關(guān)重要,包括對人工智能的范圍和適用性進行全面審查。

團隊介紹

除了Yoshua Bengio帶隊外,三位華人一作也格外引人注目,他們分別是:

Hanchen Wang

斯坦福大學(xué)CS和Genentech聯(lián)合博士后研究員,劍橋大學(xué)ML博士學(xué)位。

Tianfan Fu

伊利諾伊大學(xué)香檳分校計算機科學(xué)系博士后研究員,佐治亞理工學(xué)院計算科學(xué)與工程系博士學(xué)位。

Yuanqi Du

康奈爾大學(xué)計算機科學(xué)博士研究生,2021年獲喬治梅森大學(xué)計算機科學(xué)學(xué)士學(xué)位。

傳送門:https://www./articles/s41586-023-06221-2(論文鏈接)

— 完 —

量子位 QbitAI · 頭條號簽約

關(guān)注我們,第一時間獲知前沿科技動態(tài)

    本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,謹防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點擊一鍵舉報。
    轉(zhuǎn)藏 分享 獻花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多