1月24日,Meta發布博文介紹正在建設的AI超級計算機AI Research SuperCluster(RSC)。Meta表示,這是目前世界上最快的AI超級計算機之一,每秒可進行50億次運算,它將加速Meta的AI研究并幫助Meta構建元宇宙。 RSC目前已完成第一階段建設,開始運用于訓練具有數十億參數的大型AI模型。RSC可以幫助Meta的AI研究人員構建更好的AI模型,可以從數萬億個示例中學習;跨數百種不同語言工作;無縫分析文本、圖像和視頻;開發新的增強現實工具等。借助RSC,Meta可以更快地訓練使用多模態信號的模型來確定動作、聲音或圖像是有害還是良性。
這項研究將為Meta的元宇宙計劃奠定基礎。 人工智能超級計算機是通過將多個GPU組合成計算節點來構建的,然后通過高性能網絡結構連接這些節點,以實現這些GPU之間的快速通信。
目前,RSC共有760個NVIDIA DGX A100系統作為其計算節點,總共有6,080個GPU。Meta聲稱這應該可以與勞倫斯伯克利國家實驗室的Perlmutter競爭。根據排名網站Top 500的數據,Perlmutter是目前運行中的第五強大的超級計算機。目前排名第一的是日本的Fugaku。隨著Meta繼續構建和升級系統, RSC的威力預計將提高三倍左右,理論上這將使RSC可以在未來爭奪排名第三。
Meta長期以來一直是人工智能研究領域的雄心勃勃的參與者。該公司認為人工智能在元宇宙的發展中發揮著重要作用。“我們希望RSC能夠幫助我們構建全新的AI系統,例如,可以為一大群人提供實時語音翻譯,每個人都說不同的語言,這樣他們就可以在研究項目上無縫協作或玩AR游戲一起,”Meta AI研究人員Kevin Lee和Shubho Sengupta在一篇博文中寫道。“最終,RSC所做的工作將為構建下一個主要計算平臺的技術鋪平道路——元宇宙,人工智能驅動的應用程序和產品將在其中發揮重要作用。” Meta的研究人員解釋說,公司最近在自我監督學習(Self-Supervised Learning)領域取得了長足的進步,這是算法從大量未標記示例中學習的領域。
它還引領了基于轉換器的模型(Transformers)的進步,這使得人工智能可以通過專注于其輸入的某些領域來更有效地推理。Meta總結說,為了實現自我監督學習和基于轉換器的模型的全部好處,它需要訓練越來越復雜和適應性更強的AI模型,這意味著它需要處理大量的數據。例如,要開發更高級的計算機視覺模型,需要以更高的數據采樣率處理更大、更長的視頻。
同時,語音識別需要在具有大量背景噪音的最具挑戰性的場景中工作,自然語言處理必須理解不同的語言、口音和方言。所以Meta決定它需要一臺比目前可用的更強大的計算機。 “與Meta的傳統生產和研究基礎設施相比,RSC的早期基準測試表明,它運行計算機視覺工作流程的速度高達20倍,運行Nvidia NCCL Collectives的速度超過9倍,訓練大規模NLP模型快三倍,”Meta AI的研究人員說。“這意味著一個擁有數百億參數的模型可以在三周內完成訓練,而之前是九周。”
除了專注于速度和功率之外,RSC的構建還考慮到了安全性。“RSC的設計從一開始就考慮到了隱私和安全性,因此Meta的研究人員可以使用加密的用戶生成數據安全地訓練模型,這些數據直到訓練前才被解密,”Lee和Sengupta寫道。這些保護措施包括確保RSC與公共互聯網隔離,沒有直接的入站或出站連接。同時,從 Meta 的存儲系統到GPU的整個路徑都是加密的,只有在使用之前,在GPU端點,內存中的數據才被解密。 Meta透露,RSC的第二階段建設將在2022年底之前完成,性能將有大幅的提升。RSC將成為世界上最快的AI超級計算機,其混合精度計算性能接近5 exaflops。
到2022年,GPU的數量將從6,080個增加到16,000個,這將使AI訓練性能提高2.5倍以上。InfiniBand結構將擴展為支持16,000個端口,采用兩層拓撲結構,不會出現超額訂閱。該存儲系統將具16TB/s的目標交付帶寬和EB級容量,以滿足不斷增長的需求。 Meta表示,“我們預計計算能力的這種階躍函數變化不僅使我們能夠為我們現有的服務創建更準確的人工智能模型,而且還能夠實現全新的用戶體驗,尤其是在元宇宙中。”“我們在自我監督學習和使用RSC構建下一代AI基礎設施方面的長期投資正在幫助我們創建基礎技術,這些技術將為元界提供動力并推動更廣泛的AI社區發展。”