近十年來, GPGPU(通用計算 GPU,用 GPU 處理運算任務)的浪潮完全由英偉達帶領,把他們的 GPU 定位于 AI 和神經網絡開發的首選運算平臺。英偉達甚至已開始轉型,把自己定位于 AI 計算公司,而不僅僅是 PC 用戶眼中的游戲顯卡開發商。
英偉達在 AI 計算的強勢,使英特爾感到強烈壓力——它一方面在憋大招,將在 2017 年把深度學習推理加速器和 72 核至強 Xeon Phi 芯片推向市場,構成英特爾 AI 產品線的“絕代雙驕”。另一方面,在 GPU 專利技術上,轉向與老對手 AMD 合作,頗有那么點“聯蜀抗曹”的意思——似乎英偉達才是公司長遠發展的頭號對手。
反觀 AMD 這邊,不但手握新 CPU 架構 Zen(“禪”)、號稱明年要在 PC 和服務器市場讓英特爾難堪;同時還在緊鑼密鼓地籌備新 GPU 架構 Vega (“織女星”),準備明年打破英偉達對高端顯卡市場的壟斷。然而,準備翻身的“農企”并不滿足在 CPU 和游戲顯卡這兩個傳統領域和老對手們較量,而是追著他們的腳后跟進入 AI 運算領域。
傳統芯片巨頭紅、藍、綠廠將在新戰場開啟三國殺。
12 月 9 日,AMD 召集行業人士秘密進行了一場關于 Vega 的產品說明會。現在,該會議的部分內容終于曝光——AMD 發布全新 AI 計算子品牌 “Radeon Instinct”,以及隸屬該品牌的兩大產品線:硬件加速器產品,和 ROCm 軟件平臺。AMD 將利用它們為超算客戶提供軟、硬件結合的解決方案。
Radeon Instinct 旗下兩大產品:硬件加速器和軟件 ROCm
三款硬件加速器
在硬件方面,AMD 共有三款產品發布——分別是基于 Polaris (“北極星”)、Fiji(“斐濟”)和 Vega 的深度學習加速器 MI6、MI8 以及 MI25。其中,運算能力最強的 MI25 是 AI 訓練加速器,前兩者是推理加速器。
MI6 采用降頻的 Polaris 10 核心(RX 480 的核心),但顯存增加至 16 GB ,并采取無風扇的被動散熱(但利用服務器的散熱系統),浮點計算能力每秒 5.7 萬億次。
MI8 體積小巧一些,這是因為它基于 Fiji 架構的 R9 Fury Nano 顯卡。它采用和 Nano 一致的頻率,同樣的 4 GB 顯存,這是因為 Nano 搭載的初代 HBM 顯存最多只能支持 4GB。雷鋒網獲悉,已有外媒提出質疑,但目前還不清楚這是否會為深度學習應用帶來運算瓶頸。它浮點計算能力為每秒 8.2 萬億次
基于下代 Vega 架構的 MI25 吸引了全球媒體的目光。但遺憾的是,AMD 并沒有給出多少信息,只表示它采用了 Vega 10 核心,與會媒體推斷它的浮點運算能力約為每秒 12.5 萬億次。但也有人猜測這是一個雙 GPU 核心的加速器卡,就好比 Pro Duo。這樣就能解釋它的命名為什么是 MI25 :兩個核心相加得 25 TFLOPS。這也解釋了高達 300W 的熱功耗。雷鋒網提醒各位讀者,對于這些傳言審慎看待。
MI6 和 MI8 預計在明年上半年發貨,而 MI25 可能會更遲。另外,與游戲顯卡交給 OEM 廠商(藍寶石、XFX、華碩等)生產的做法不同,Radeon Instinct 旗下的深度學習硬件將由 AMD 自家生產和進行售后維護。這效仿了英偉達的做法,目的是加強與業界的聯系和對產品、品牌的控制力。
對于不太了解 AMD 顯卡產品線的讀者,Fiji 是上一代GPU 架構,Polaris 是當前 RX 480/470/460 所采用的架構,而 Vega 是極有可能應用于 RX 490、新 Fury,或者是 RX 5 系的下一代架構。Vega 又分為 Vega 10 和 Vega 11 兩種規格,目前已確定 Vega 10 是采用 HBM2(第二代 HBM 顯存) 的高端核心。據悉,傳說中即將發布的 RX 490 或者新 Fury 將采用 Vega 10。
AMD 的 GPU 路線圖:從 28 納米工藝到 Polaris 再到 Vega
軟件平臺 ROCm
在深度學習計算軟件方面,AMD 發布了 ROCm。 它全稱為“Radeon Open Compute platform”(“Radeon 開源計算平臺”), 如同它的名字,是 AMD 為超算和超大規模運算開發的開源 GPU 運算平臺,它獨立于程序設計語言。AMD 表示:ROCm 是他們把 UNIX 哲學中的選擇、極簡主義和模塊化軟件開發帶到 GPU 計算的結果。新的 ROCm 允許開發者選擇工具和語言運行時( language run time ),甚至進行開發。
如同所有合理的機器學習市場項目, ROCm 能支持多個 GPU,包括同個系統內的 GPU 和多服務器場景。它能利用 RDMA peer-sync 技術簡化多 GPU“交火”。ROCm 的設計不但考慮了大規模服務器擴展,還內置了編譯器(compilers)、語言運行時和對 CUDA 應用的支持。
另外,AMD 還為深度學習開發了 MIOpen 庫,以充分利用 GCN 架構。MIOpen 與 C++ STL, NCCL 處在同個層級,它的功能是連接程序設計語言和 ROCm 平臺,成為類似 Caffe 和 TensorFlow 的通用架構。
MIOpen 的定位,最下層是 ROCm。中間是 MIOpen、 C++ 、STL、NCCL 等,最上層是 Caffe 和 TensorFlow 等框架
AMD 宣稱,有了 MIOpen, MI8 加速器的性能相當于英偉達泰坦 X (Titan X Pascal), 而 MI25 更是超出后者 30% 之多。
左: MIOpen 與基于 GEMM 的卷積對比。右: 兩代泰坦與 MI8、MI25 在 MIOpen 下性能對比。
看來,這次 AMD 進軍機器學習計算市場是認真的。未來,AMD 的愿景應該是,MI 系列硬件加速器、ROCm 軟件平臺和基于 Zen 的 32 核以及 64 核服務器 CPU 三者合力,為超算客戶提供一整套基于 AMD 產品線的解決方案。但相比在 AI 領域經營已久的藍、綠兩廠,AMD 根基薄弱、資源有限,而且入場時間已經極大落后。