ChatGPT掀起的新一輪人工智能狂歡下,隱藏在背后的“大模型”正進入越來越多開發(fā)者的視野。 誠如幾年前開始流行的一種說法:數(shù)據(jù)是燃料、模型是引擎、算力是加速器。ChatGPT的出現(xiàn),恰如其分地詮釋了數(shù)據(jù)、模型和算力的“化學(xué)反應(yīng)”。而在其中扮演“橋梁”角色的,恰恰是上承應(yīng)用、下接芯片的AI框架。 正是在這樣的背景下,市場調(diào)研機構(gòu)Omdia通過對AI開發(fā)者進行調(diào)研,在日前發(fā)布了《中國人工智能框架市場調(diào)研報告》,向外界揭示了國內(nèi)開發(fā)者對于AI框架的認(rèn)知,以及不斷變化的行業(yè)格局。 01 開發(fā)者眼中的AI框架市場 隨著ChatGPT的熱度越來越高,不少人坦言:“人工智能領(lǐng)域正在引發(fā)新一輪科技競賽”,其實AI的學(xué)術(shù)競賽在2020年前后就已經(jīng)開始。 OpenAI在這一年推出了著名的GPT-3,擁有1750億參數(shù)量;DeepMind的AlphaFold2在第14屆國際蛋白質(zhì)結(jié)構(gòu)預(yù)測競賽中奪冠;同時全球AI論文發(fā)表量逐年增長,來自中國的論文比例越來越高...... 頂會論文、大模型、科學(xué)智能代表的技術(shù)生態(tài),達(dá)到了前所未有的熱度。 同樣是在2020年,以昇思MindSpore等為代表的中國AI框架紛紛開源,開始了追趕TensorFlow、PyTorch等前輩們的追逐賽,中國AI框架的崛起和技術(shù)生態(tài)的繁榮,不可避免地出現(xiàn)了交叉。 就像Omdia在《中國人工智能框架市場調(diào)研報告》中給出的觀點:在大模型應(yīng)用的趨勢下,國內(nèi)開發(fā)者對于AI框架的認(rèn)知發(fā)生了一些微妙的變化。 比如“對于超大規(guī)模模型訓(xùn)練能力,您覺得哪個人工智能框架最好?”的問題中,36%的開發(fā)者投票給了TensorFlow/JAX,15%的開發(fā)者選擇的是PyTorch,昇思MindSpore以10%的占比排名第三。 需要說明的是,開發(fā)者的答案在某種程度上受到了認(rèn)知習(xí)慣的影響,自然而然地給“老牌框架”打了高分。譬如谷歌的TensorFlow并非原生支持大模型,通過新推出的另一個新生框架JAX作為TensorFlow的簡化庫融入;PyTorch則是靠第三方并行算法庫補充了大模型支持能力。昇思MindSpore正依托原生支持大模型的能力快速崛起。 再比如“您認(rèn)為最適合做AI for Science項目的人工智能框架是?”的問答下,TensorFlow和新生框架JAX收到了45%的開發(fā)者支持,昇思MindSpore在這個問題下超過了PyTorch,以37%的支持率排名第二。 而在人工智能框架使用率的排名中,TensorFlow和PyTorch的先發(fā)優(yōu)勢依然存在,但昇思MindSpore以11%的份額進入第一梯隊。TensorFlow早在2015年就已經(jīng)開源,PyTorch的歷史也可以追溯到2017年,昇思MindSpore比“前輩”們晚了三到五年,但表現(xiàn)出了快速趕超老牌AI框架的態(tài)勢,扮演了“挑戰(zhàn)者”的角色。 如果說Omdia的報告主要是基于開發(fā)者的認(rèn)知,可能與實際情況存在一定出入,那硬核的技術(shù)生態(tài)與行業(yè)生態(tài)的合作,則以板上釘釘?shù)臄?shù)字佐證著昇思MindSpore等中國AI框架崛起態(tài)勢: 在技術(shù)生態(tài)方面,昇思MindSpore已經(jīng)與200多所高校、科研機構(gòu)展開創(chuàng)新合作;在行業(yè)生態(tài)方面,僅在2022年獲得昇思技術(shù)認(rèn)證的企業(yè)就超過800多家,涵蓋制造、金融、電信運營商等國計民生行業(yè);在開源生態(tài)方面,昇思MindSpore在Gitee AI開源項目綜合排名TOP1,軟件下載增速第一,總量已超過370萬…… 02 昇思MindSpore越級的時與勢 一個殘酷但有現(xiàn)實意義的現(xiàn)象是,2020年AI框架市場還是一幅百家爭鳴的景象,目前卻出現(xiàn)了典型的虹吸效應(yīng)。 按照Omdia的調(diào)研數(shù)據(jù),在中國人工智能框架的使用率方面,TensorFlow、PyTorch、昇思MindSpore和飛槳合計占了86%的市場份額,大多數(shù)AI框架的使用率不足1%,曾經(jīng)聲名鵲起的Caffe、CNTK等已逐漸掉出主流隊伍,只有昇思MindSpore一家逆勢進入了AI框架的第一梯隊。 想要弄清問題的答案,昇思MindSpore可以說是最好的研究對象。過去近三年時間里,昇思MindSpore到底做對了什么? 第一個參考答案是大模型的“時”。 2021年9月的華為全聯(lián)接大會上,昇思MindSpore迭代至1.5版本,最直接的變化就是原生支持AI大模型訓(xùn)練,通過全自動并行、可視化智能調(diào)優(yōu)等大幅提升了大模型的開發(fā)效率。 其中在大模型并行訓(xùn)練上,昇思MindSpore支持?jǐn)?shù)據(jù)并行、MoE并行、優(yōu)化器并行、多副本并行等7大并行計算能力,將訓(xùn)練千億模型的代碼量降低了80%、調(diào)優(yōu)時間下降60%;和TensorFlow、PyTorch等框架相比,昇思MindSpore是支持模型結(jié)構(gòu)最全的AI框架,包含稠密、稀疏MoE、卷積結(jié)構(gòu)、高維稀疏等。 第二個參考答案是應(yīng)用創(chuàng)新的“勢”。 2022年11月發(fā)布的2.0版本中完成了AI與HPC的融合,通過神經(jīng)網(wǎng)絡(luò)模擬的非線性擬合,讓科學(xué)家無需再解高維方程,進一步提升了科技創(chuàng)新效率。特別是在產(chǎn)業(yè)應(yīng)用創(chuàng)新方面,昇思MindSpore構(gòu)建了流體仿真、電磁仿真、分子模擬在內(nèi)的科學(xué)計算套件,持續(xù)使能應(yīng)用創(chuàng)新。 和PyTorch的興起不謀而合,昇思MindSpore也將技術(shù)生態(tài)作為“先手棋”。印證昇思MindSpore “路線正確”的案例,絕不止Omdia的報告和開發(fā)者的認(rèn)同,還有一份沉甸甸的成績單。 衡量創(chuàng)新能力的一個重要標(biāo)準(zhǔn)正是論文數(shù)量。按照Papers with Code網(wǎng)站的統(tǒng)計數(shù)據(jù),2022年使用昇思MindSpore的頂級會議論文已經(jīng)超過600篇,在國內(nèi)AI框架中排名第一,在全球范圍內(nèi)僅次于PyTorch。 而在大模型的創(chuàng)新中,目前國內(nèi)科研院所和高校已經(jīng)發(fā)布了10多個基于昇思MindSpore的大模型。其中紫東.太初是全球首個三模態(tài)大模型,能夠?qū)崿F(xiàn)視覺、文本、語音三個模態(tài)間的高效協(xié)同,曾在2022世界人工智能大會上斬獲“卓越人工智能引領(lǐng)者”獎;東方.御風(fēng)是業(yè)界首個工業(yè)級流體仿真大模型,在進行飛機流場模擬仿真時,對比傳統(tǒng)的科學(xué)計算,在精度一樣的情況下,東方.御風(fēng)的仿真時間只需要原來的1/25。 如果把人工智能產(chǎn)業(yè)生態(tài)比喻成森林的話,人工智能框架就像是森林中的土壤,尋求創(chuàng)新的開發(fā)者自然會“擇水土而居”。 03 不應(yīng)被忽視的可信AI問題 在全民“調(diào)戲”ChatGPT的風(fēng)潮中,ChatGPT有時會“一本正經(jīng)地胡說八道”,這其實暴露了存在事實性錯誤、知識盲區(qū)和常識偏差等諸多問題。 Omdia在《中國人工智能框架市場調(diào)研報告》中向開發(fā)者詢問了類似的問題,最終的答案似乎超出了一些人的料想:在所有主流人工智能框架中,國內(nèi)的開發(fā)者普遍認(rèn)為TensorFlow 與 昇思MindSpore 對“負(fù)責(zé)任的人工智能”提供的支持最好。 個中原因其實不難解釋。為了打消開發(fā)者擔(dān)心的安全隱私等問題,谷歌通過Model Cards等工具讓框架更加透明、更具備可解釋性,同時TensorFlow也提供了一系列支持?jǐn)?shù)據(jù)安全和隱私的功能、庫和培訓(xùn)工具。 昇思MindSpore之所以能夠在可信方面超越PyTorch,離不開對AI安全技術(shù)體系的布局,提供了涵蓋AI訓(xùn)練、AI測評、AI部署的一整套端到端的安全可信體系,包括聯(lián)邦學(xué)習(xí)、模型水印、模型加密等外界所熟知的可信機制。 比如聯(lián)邦學(xué)習(xí)是一種常見的隱私保護方式,可以在不收集數(shù)據(jù)的情況下協(xié)同進行模型的訓(xùn)練,實現(xiàn)數(shù)據(jù)的“可用不可見”,繼而保護隱私信息。然而聯(lián)邦學(xué)習(xí)和大模型的結(jié)合也產(chǎn)生了諸多挑戰(zhàn),涉及到計算代價、通信開銷、隱私泄露、模型安全等等,需要解決隱私保護與效率的兩難課題。 昇思MindSpore的回答是跨域可信訓(xùn)練。 以鵬城.盤古大模型為例,昇思的聯(lián)邦學(xué)習(xí)能力助力盤古超大模型協(xié)同訓(xùn)練,根據(jù)各地算力情況將大模型拆分,以AI計算中心超大算力實現(xiàn)盤古主干網(wǎng)絡(luò)的正反向訓(xùn)練,同步在銀行等計算機房做數(shù)據(jù)處理,模型Embedding、TOP層算Loss正反向訓(xùn)練,實現(xiàn)了敏感數(shù)據(jù)不出本地,并讓聯(lián)邦學(xué)習(xí)的訓(xùn)練時延降低了30%、通信和計算開銷降低了40%。 就像Omdia在報告中的評論:“負(fù)責(zé)任的人工智能”即是一套道德準(zhǔn)則,又是一套技術(shù)體系, 是以安全、可靠和合乎道德的方式開發(fā)、評估、部署和規(guī)?;斯ぶ悄芟到y(tǒng)的方法,對人工智能的可持續(xù)發(fā)展非常重要。 大模型、科學(xué)智能等技術(shù)生態(tài)在過去三年時間里深入影響了開發(fā)者對AI框架的選擇,把時間再拉長一些的話,能否在可信AI方面有所作為,能否打消開發(fā)者的疑慮,無疑將左右AI框架下一個三到五年的市場排位。 04 寫在最后 人工智能的星星之火能否燎原,AI框架有著不可或缺的作用。 一座城市的繁榮,不在于有多高的摩天大樓,而是無處不在的建筑群。沿循這樣的邏輯,AI框架的價值在于賦予不同的開發(fā)者“建造高樓”的能力,讓人工智能的前沿能力進入每一個行業(yè)、每一家企業(yè)。 至少,以昇騰AI為首的中國人工智能產(chǎn)業(yè)建設(shè)者早已開始發(fā)力。 不只是昇思MindSpore在技術(shù)生態(tài)上的異軍突起,Atlas系列硬件、異構(gòu)計算架構(gòu)CANN、昇騰應(yīng)用使能MindX等軟硬件也在持續(xù)創(chuàng)新,為開發(fā)者打造了“端、邊、云”的全場景AI基礎(chǔ)設(shè)施,讓人工智能在千行百業(yè)不斷擴散。 主理人 | 張賀飛(Alter) 前媒體人、公關(guān),現(xiàn)專職科技自媒體 虎嗅、鈦媒體、36kr、創(chuàng)業(yè)邦、福布斯中國等專欄作者 |
|
來自: 新用戶84877682 > 《待分類》