、 谷歌又出手了。又是一個大招。(上一個在此) 這次谷歌傳奇Jeff Dean親自在推特上連發(fā)10條,滿懷激動地對外宣布著這個消息:谷歌TPU正式對外開放。這也是谷歌TPU首次對外全面開放。 顯而易見,AI芯片和公有云市場將迎來新的變局。 之前英偉達的黃仁勛在談到谷歌TPU時,就曾強硬的表示,對TPU的威脅不以為然。當時,老黃還列了列參數(shù):新的TPU可以實現(xiàn)45 teraflop的運算能力,而英偉達最新的Volta GPU則能達到120 teraflop。 但如果你關(guān)注人工智能,肯定知道TPU的威力。谷歌搜索、翻譯、相冊等應用,都有TPU在提供AI加速。更值得一提的是,AlphaGo也是借力TPU,稱霸圍棋界。 而且谷歌這款芯片還專門對AI進行了優(yōu)化。 谷歌在官方博客中表示,在新發(fā)布的Cloud TPU幫助下,不到一天的時間,你就可以在ImageNet上把ResNet-50模型訓練到75%的精度,成本不足200美元。 從現(xiàn)在起,每小時6.5美元,你也能用上谷歌TPU了。 理論上。 谷歌博客全文Google的機器學習利器Cloud TPU,從今天開始面向更多用戶開放了。 Cloud TPU今天發(fā)布了beta版,這一版本通過谷歌云平臺(Google Cloud Platform, GCP)提供,想幫更多機器學習專家更快地運行模型。 Cloud TPU是谷歌設計的硬件加速器,專為加速、擴展特定的TensorFlow機器學習工作負載而優(yōu)化。 每個Cloud TPU包含4個定制化的ASIC,單塊板卡的計算能力達到每秒180萬億次浮點運算(180 teraflops),有64GB的高帶寬內(nèi)存。 這些板卡可以單獨使用,也可以通過超高速專用網(wǎng)絡連接起來,形成“TPU pod”。今年晚些時候,Google會開始通過GCP供應這種更大的超級計算機。 Google設計Cloud TPU的目標,是針對性地為TensorFlow工作負載提供一分錢一分貨的差異化性能,讓研究人員嫩更快地進行迭代。 例如:
更簡單的機器學習模型訓練 過去,為定制ASIC和超級計算機編程需要深入的專業(yè)知識技能。相比之下,要對Cloud TPU編程,用高級TensorFlow API就可以了,Google還開源了一組高性能的云TPU模型實現(xiàn),上手更簡單:
Google在博客中說,經(jīng)過對性能和收斂性的不斷測試,這些模型都達到了標準數(shù)據(jù)集的預期精度。 以后,Google會逐漸推出更多模型實現(xiàn)。不過,想要探險的機器學習專家也可以用他們提供的文檔和工具,自行在Cloud TPU上優(yōu)化其他TensorFlow模型。 現(xiàn)在開始用Cloud TPU,等到今年晚些時候Google推出TPU pod的時候,訓練的時間-精度比能得到驚人的提升。 在NIPS 2017上,Google曾宣布ResNet-50和Transformer兩個模型在完整TPU pod上的訓練時間,都從大半天下降到了30分鐘以內(nèi),不需要改動任何代碼。 可擴展的機器學習平臺 云TPU還簡化了機器學習計算資源的規(guī)劃和管理: 你可以為團隊提供最先進的機器學習加速,并根據(jù)需求的變化動態(tài)調(diào)整生產(chǎn)力。 你可以直接用經(jīng)過Google多年優(yōu)化的高度集成機器學習基礎設施,無需投入大量金錢、時間、專業(yè)人才來設計、安裝、維護現(xiàn)場機器學習計算集群,不用考慮供電、冷卻、聯(lián)網(wǎng)、存儲要求等問題。 Google Cloud TPU經(jīng)過預先配置,不需要安裝驅(qū)動程序,因此,也不用想方設法讓一大群工作站和服務器的驅(qū)動程序保持最新。 和其他Google云服務一樣,有復雜的安全機制保護著你的數(shù)據(jù)。 Google說要為客戶的每個機器學習負載提供最適合的云服務,除了TPU之外,他們還提供英特爾Skylake等高性能CPU,和包括英偉達Tesla V100在內(nèi)的高端GPU。 開始使用吧 Cloud TPU今天開始提供,數(shù)量有限,按秒計費。每個Cloud TPU每小時6.5美元。 要使用beta版的Cloud TPU,需要填個表,描述一下你要用TPU干什么,向Google申請配額:https://services.google.com/fb/forms/cloud-tpu-beta-request/ Google說,會盡快讓你用上Cloud TPU。 2月27日,Google還要開一場在線講座,再細致地談一談Cloud TPU。 在Google的博客文章中,提到了兩家客戶使用Cloud TPU的感受。 一家是投資公司Two Sigma。他們的深度學習研究現(xiàn)在主要在云上進行,該公司CTO Alfred Spector說:“將TensorFlow工作負載轉(zhuǎn)移到TPU上,大大降低了編程新模型的復雜性,縮短了訓練時間?!?/p> 另一家是共享出行公司Lyft。深度學習正在成為這家公司無人車研究的重要組成部分。 更多關(guān)于Cloud TPU的信息,可以去官方網(wǎng)站看一看:https://cloud.google.com/tpu/ 何為TPU?TPU是Tensor Processing Unit的縮寫簡稱,是一種ASIC(專用集成電路),也是Google自己開發(fā)的一款AI專用芯片,主要用于提高人工智能計算任務的執(zhí)行效率。 Google將其用在神經(jīng)網(wǎng)絡的推理環(huán)節(jié),在此之前,業(yè)界通常在使用GPU加速的服務器上進行。在TPU推出后,谷歌表示,這比直接使用GPU或基本的x86芯片速度快很多。 TPU通過兩個PCI-E 3.0 x8邊緣連接器連接協(xié)處理器,總共有16 GB/s的雙向帶寬。TPU消耗功率達40瓦,遠高于PCI-E電源規(guī)格,可為8位整數(shù)運算提供每秒92萬億次的運算,或為16位整數(shù)運算提供每秒23萬億次的運算。 在去年4月一篇有75位聯(lián)合作者的論文《In-Datacenter Performance Analysis of a Tensor Processing UnitTM》中,Google團隊對TPU進行了分析:與同期的CPU和GPU相比,可以提供15-30倍的性能提升,以及30-80倍的效率(性能/瓦特)提升。 第一代TPU被谷歌廣泛應用在了AlphaGo、搜索、翻譯、相冊等背后的機器學習模型中,這為第二代TPU的迭代奠定了基礎。 值得一提的是,擊敗李世石的AlphaGo版本中,通過Google云,耗用50個TPU進行計算;而到了擊敗柯潔的AlphaGo版本中,單機運行,物理服務器上部署了4個TPU;最后在最新的AlphaZero版本中,則使用了5000個一代TPU和64個二代TPU,從0開始學習24小時候,就擊敗了國際象棋、將棋、圍棋等三個領域的世界冠軍。 第二代TPU 第二代TPU在去年5月18日的Google I/O 大會上推出,也稱為云TPU。云TPU對推理和訓練都進行了優(yōu)化。 Google大腦研究團隊主管Jeff Dean表示:“我們的TPU擁有世界一流的ASIC設計團隊,第二代TPU芯片采用了與第一代完全不同的設計架構(gòu),第一代芯片由于只進行推理運算所以體積較小,而在第二代芯片中我們加入了能滿足訓練需求的硬件結(jié)構(gòu),同時還考慮了如何將這些計算單元組合成大型系統(tǒng)的架構(gòu)方法?!?/p> 第二代TPU通過四個TPU芯片的組合板,可以實現(xiàn)180Tera次每秒用于深度學習訓練和推理的浮點運算,如果再將64個這樣的TPU系統(tǒng)板通過網(wǎng)絡連接起來,浮點性能可以達到驚人的11.5PFLOPS,遠遠超過世界上前五百超級計算機的算力。風頭大大蓋過了同一時期Nvidia推出的Volta架構(gòu)GPU。 TPU 2和第一代不同的是,第一代選用了量化整數(shù)運算,而第二代用的是浮點運算。這樣一來你就不用把訓練好的模型轉(zhuǎn)換使用量化整數(shù)做推理了。你直接用訓練時用的浮點做推理就好,這樣實施起來也容易很多。 實際上,第二代TPU推出之時,也能看出Google在AI芯片方面的發(fā)展思路:并非為了與GPU直接競爭,而是利用TPU在公有云行業(yè)差異化發(fā)展。 Google CEO皮查伊在I/O大會的主題演講中強調(diào):“我們希望谷歌云成為機器學習領域最優(yōu)秀的云。這為重大進步打下了基礎?!?/p> 為了使計算性能更強大,Google開發(fā)了訂制的超高速網(wǎng)絡,將64顆TPU連接至同一臺機器學習超級計算機。這臺超級計算機被稱作“TPU艙”,帶來了每秒11.5千萬億次浮點運算的能力,可用于訓練單一的大型機器學習模型,或多個較小的模型。 為了證明TPU艙的性能,Google表示,如果想要訓練最新的大規(guī)模翻譯模型,那么使用32顆全球最強大的商用GPU需要一整天時間。作為對比,TPU艙只需1/8的性能,就能在6小時內(nèi)完成對該模型的訓練。 單個的云TPU和完整的TPU艙均支持谷歌開源的TensorFlow機器學習系統(tǒng)。 去年的Google I/O大會上,Google還發(fā)布了“TensorFlow研究云”。這是由1000顆云TPU組成的簇,在滿足某些條件的情況下Google將免費提供給研究者使用。如果希望使用,那么研究者必須同意公開發(fā)表研究成果,或許還需要開源研究中的相關(guān)代碼。 而對參與非公開研究的人士,Google計劃啟動云TPU Alpha項目,而現(xiàn)在,更加宏偉的計劃得以正式公開。 TPU往事 早在2006年,Google就在考慮為神經(jīng)網(wǎng)絡構(gòu)建一個專用集成電路(ASIC)。2013年這個需求變得更加緊迫,當時Google意識到快速增長的計算需求,可能意味著數(shù)據(jù)中心的數(shù)量需要翻番才能滿足。 通常而言,ASIC的開發(fā)需要耗時數(shù)年。但具體到TPU而言,從設計到驗證、構(gòu)建和部署到數(shù)據(jù)中心里,只需要15個月。 具體TPU何時正式研發(fā)成功,并不得而知,但Google方面透露,從2015年開始就一直在內(nèi)部使用TPU,并在2016年5月的Google I/O開發(fā)者大會上,對外公布了TPU的存在。 另外還有個趣事。 最初參與TPU研究的10個人中,有8個工程師遭遇風投挖角,創(chuàng)業(yè)成立了一家名為Groq的AI芯片公司,這家公司的創(chuàng)始人兼CEO是Doug Wightman,CTO是Jonathan Ross,COO則是原賽靈思(Xilinx)的營銷副總裁Krishna Rangasayee。 挖角的風投則是Social Capital創(chuàng)始人、首席執(zhí)行官Chamath Palihapitiya,他給了Groq團隊上千萬美元的啟動資金。 Groq的AI芯片對標英偉達的GPU,聲稱是專門為人工智能重新定制一款芯片,他們還打算在2018年發(fā)布第一代AI芯片產(chǎn)品。 留給Groq兌現(xiàn)承諾的時間不多了。 — 完 — 誠摯招聘 |
|