我吃西红柿,玄幻小说完本,完美世界小说txt下载

AMD將構建全球最大AI訓練集群

集成120萬片GPU

日期： 2024-06-27

來源：芯智訊

關鍵詞： AMD AI訓練集群 GPU 超級計算機

6月26日消息，據The Next Platform報道，近日AMD執行副總裁兼數據中心解決方案集團總經理Forrest Norrod在接受采訪時表示，AMD將助力構建全球最大的單體人工智能（AI）訓練集群，將集成高達120萬片的GPU。

120萬片GPU 是一個非常驚人的數字，要知道目前全球最強的超級計算機Frontier 所配備的 GPU 數量才只有37888片，這也意味著AMD所支持的AI訓練集群的GPU規模將達到Frontier的30多倍。不過，Forrest Norrod沒有透露哪個組織正在考慮構建這種規模的AI系統，但確實提到“非常清醒的人”正在考慮在AI訓練集群上花費數百億到數千億美元。

目前的AI訓練集群通常由幾千個 GPU 構建而成，這些 GPU 通過跨多個服務器機架或更少的高速互連連接。如果要創建一個擁有高達 120 萬個 GPU 的單體 AI 集群，意味著將會面臨極為復雜的高速互連網絡，并且還會有延遲、功耗、硬件故障等諸多的問題，這似乎是難以實現的。

比如，AI工作負載對延遲非常敏感，尤其是尾部延遲和異常值，其中某些數據傳輸比其他數據傳輸花費的時間要長得多，并且會中斷工作負載。此外，當今的超級計算機也會面臨每隔幾個小時就會發生的 GPU 或其他硬件故障。當擴展到當今最大的超級計算機集群的 30 倍時。更為關鍵的是，如此龐大的AI訓練集群，將會產生極為龐大的能耗，不僅穩定的供電將會是一個大難題，而且配套的散熱解決方案也面臨巨大挑戰。

Magazine.Subscription.jpg

版權聲明：本站內容除特別聲明的原創文章之外，轉載內容只為傳遞更多信息，并不代表本網站贊同其觀點。轉載的所有的文章、圖片、音/視頻文件等資料的版權歸版權所有權人所有。本站采用的非本站原創文章及圖片等內容無法一一聯系確認版權者。如涉及作品內容、版權和其它問題，請及時通過電子郵件或電話通知我們，以便迅速采取適當措施，避免給雙方造成不必要的經濟損失。聯系電話：010-82306118；郵箱：aet@chinaaet.com。

AMD將構建全球最大AI訓練集群

日期： 2024-06-27

來源：芯智訊

相關內容