來了,新一輪的出口禁令又來了。美國當地時間 8 月 31 日,GPU 巨頭英偉達在一份監管文件中披露,美國政府已推出一項新的出口許可管制,將影響英偉達向中國出口兩款高性能 GPU 產品。
高性能 GPU 是什么?
談及 GPU,數碼愛好者都不陌生。GPU 中文全稱為圖形處理器,也叫顯示核心、視覺處理器、顯示芯片,一般用于個人電腦、游戲機等電子設備。在中文語境中,很多人喜歡用“顯卡”一詞來代替 GPU。市場中常見的 GPU 有英偉達 GTX 3090、英偉達 GTX 3080Ti、AMD 6900 XT 等。
然而,這次涉及的 GPU 并非上述型號,而是消費電子市場中并不常見的英偉達 A100、H100 兩款芯片。
事實上,GPU 分為很多種,對于玩游戲、做設計的普通用戶來說,個人電腦需要配備一個 GPU,然后將顯示器的接口插到 GPU 板的接口上,就能讓游戲擁有更高畫質,讓 PS、PR 等軟件運行更加流暢。這些主要用于個人用戶的 GPU,也是大眾最為熟知的產品形式。
不過,在 GPU 領域,還有一類產品叫計算卡,用于大型的計算工作,比如深度學習、地球天氣模擬等等。這些工作涉及大量圖形計算運輸,GTX 3090 等顯卡難以滿足要求。因此,英偉達先后推出了 A100 和 H100 系列計算卡。
其中, A100 由 540 億個晶體管組成,針對稀疏矩陣運算的加速功能,對于 AI 推理和訓練來說特別有用。此外,采用英偉達 NVLink 互連技術可以讓多個 A100 GPU 連起來用于更大規模的 AI 推理工作。簡而言之,這是一款針對 AI 領域專門優化過的 GPU,特別適合機器學習工作站、超級計算機等一系列產品。
A100 性能強悍,可在 H100 面前就有點小巫見大巫。H100 專門針對面向高性能計算(HPC)和數據中心打造,擁有 800 億晶體管,采用目前最為先進的臺積電 4nm 制程工藝。英偉達表示,H100 GPU 在 FP16、FP32 和 FP64 計算方面比其上一代 A100 快三倍,在 8 位浮點數學方面快六倍。
價格上,英偉達 H100 于今年 8 月登陸日本供應商 GDEP 的網站上,其售價為 4313000 日元(不含消費稅配送費,約合人民幣 21.6 萬元)。
哪些行業受到影響?
售價幾十萬的計算卡,自然不會影響普通消費者。在國內市場,A100 與 H100 的消費群體主要是企業用戶與政府機構。在英偉達官網上可以發現,蔚來、上海市磁共振實驗室、騰訊 PCG、阿里云、火山引擎等等。
以蔚來汽車為例,通過 A100 構建綜合全面的數據中心基礎設施,并在此基礎上開發 AI 驅動的軟件定義汽車。憑借 A100 高性能計算,蔚來可以在復雜的深度學習模型上不斷迭代,在閉環環境下構建自動駕駛算法。
通俗地說,蔚來采集車隊每年產生海量數據,這些數據傳輸到數據中心,在采集、整理、標記之后,通過 A100 高性能計算卡進行深度神經網絡計算,從而對已有的自動駕駛算法進行優化。
至于騰訊 PCG,主要使用 A100 進行用戶推薦。日常生活中,我們使用騰訊看點、騰訊新聞、騰訊視頻等產品,系統會自動推薦內容,而這套推薦系統叫無量推薦系統。
騰訊無量推薦系統支持日活躍用戶達數億級別,日均調用服務達千億級別,在這背后,也離不開 A100。在傳統推薦系統架構,無量推薦系統使用大量 CPU 資源,通過分布式架構實現模型訓練與部署。而通過使用 A100 GPU 訓練和推理,單機多卡的 GPU 算力可以達到數十臺 CPU 機器的算力。
說到推薦算法,肯定離不開字節跳動,畢竟今日頭條與抖音第一次讓世界認識到個性化推薦的魅力。字節跳動旗下火山引擎有一項火山拍照識別功能,為用戶提供以手機拍照作為輸入的搜索功能。
該功能包含 10 萬+ 事物識別,涉及大規模細粒度圖像識別,實現難度非常大。為了獲得更高的推理速度,火山引擎選用了 100 GPU 作為計算平臺,成功將百萬級別圖片訓練的每次迭代訓練周期從 5 天縮短至 3 天左右,大幅度提高了火山引擎線上服務速度。
從智能汽車、算法推薦到醫學實驗室,英偉達 A100 計算卡憑借其強大快速的計算能力為國內眾多行業賦能。在計算速度、效率與能耗領域,確實有不可替代的優勢。至于更加強大的 H100 計算卡,因為尚未在國內發售,所以暫時不會對國內企業造成多大影響。
國內企業如何應對?
A100 非常強、H100 無敵強,可這畢竟是人家的產品,出口許可管制生效之后,國內企業很難及時獲得產品。那么,在此背景下國產企業又該如何應對呢?
首先來看蔚來、騰訊、字節跳動等下游企業,A100 計算卡最大的優勢在于計算速度快、效率高、能耗低。
GPU 行業人士表示,互聯網企業在計算數據中心整體成本支出時,高端產品一次性購買成本、機架占位/人工服務費(運維)、電費三者所占比重大約為 3:3:4。如果英偉達 A100、H100 被禁用,那么只能采用 12nm 的 V100 產品,考慮到電費、機架費用帶來的費用,整體成本支出將超過 3 倍。
成本支出提高意味著企業需要承擔更大的財務壓力,不過這也說明 A100、H100 并非不可替代,通過尚未禁售的中低端計算卡組合,同樣可以實現目前的效果。
接下來再看 GPU 廠商,目前英偉達主要競爭對手為 AMD,同樣也是一家美國公司。據報道,AMD 旗下高端計算卡同樣面臨出口許可管制,因此使用 AMD 產品替代英偉達產品并不現實。
國外 GPU 企業靠不住,那么只有從國內企業中尋找。近幾年,國內大量芯片初創公司都瞄準了 GPU 領域,他們與老牌企業龍芯、海光一起,構成了 GPU 領域國產替代的主力軍。
今年 7 月,龍芯中科發布 7A2000 橋片,集成了龍芯自研統一渲染架構的 GPU 模塊,這款產品支持 OpenGL2.1,搭配 32 位 DDR4 顯存接口,最大支持 16GB 顯存容量。據推測,這款產品性能相當于 AMD 十多年前的核顯。
十年前的核顯顯然滿足不了人們的需求,今年上半年,另一家芯片公司摩爾線程發布 MTT S60 多功能智能顯卡。這款產品采用 12nm 制程,包含 2048 個 MUSA 核心,單精度算力最高可達 6TFlops,配置 8GB 顯存。據介紹,性能堪比英偉達 GTX1070。只可惜,這款產品依然是消費級 GPU,并不能替代 A100、H100 這類企業級 GPU。
在高端 GPU 領域,國產企業同樣在進步。海光的 DCU Z100 加速卡,專門針對深度計算開發。去年,百度飛槳深度學習框架與海光人工智能加速卡DCU 系列進行了安裝部署測試、基本功能測試和穩定性兼容性測試。聯合測試結果顯示百度飛槳深度學習框架在海光 DCU 系列以及海光 3000、5000、7000 系列 CPU 環境上均能順利安裝。
性能上,海光 Z100 對標 AMD MI100 系列,同時兼容 AMD 的 ROCM 生態,雖然不如英偉達生態豐富,但是可以實現國產替代。
此外,上個月 9 號,國產初創企業壁仞科技發布 BR100 計算卡。據介紹,這款產品是國內算力最大的通用 GPU 芯片,采用成熟的 7nm 工藝,并結合了 Chiplet 技術。在發布會上,壁仞科技表示,BR100 擁有全球最高算力,峰值算力達到了市場在售旗艦產品的三倍以上,16 位浮點算力達到 1000T 以上、8 位定點算力達到 2000T 以上,單芯片峰值算力達到PFLOPS級別。
通過已知數據不難發現,壁仞科技所說的市場在售旗艦產品正是英偉達 A100 GPU。如果壁仞科技這款產品真的可以超越英偉達 A100,部分性能甚至超越 H100,那么美國所謂的出口許可管制將會成為一個笑話。當然,BR100 目前尚未量產,還處在 PPT 階段,具體性能如何還需市場檢驗。
從龍芯中科、摩爾線程到海光、壁仞科技,可以看出國產企業正在 GPU 領域奮起直追。出口許可管制并不會打垮中國超算中心、深度學習行業,反而有可能促進中國獨立自主的 GPU 產業走向成熟。
更多信息可以來這里獲取==>>電子技術應用-AET<<