每次有新聞提到PC市場銷量下滑,可愛的讀者們往往會調侃兩家公司——“Intel,你又擠牙膏了,SNB還能戰三年”,還有一個想努力擠牙膏但新牙膏上市延期、只能先上PPT的AMD。五年多前的SNB處理器+4GB DDR3內存的確還能再戰,但是公平地說,計算機性能實際上一直在不斷增長,2011年的TOP500冠軍是日本京/K計算機,性能只有8.2PFLOPS(千萬億次),內存容量141TB,2016上半年的TOP500冠軍是中國的太湖之光,浮點性能93PFLOPS,內存容量1.31PB,差不多都是5年前的10倍。
未來幾年將實現百億億次計算,對處理器及內存的要求都很高
五年前的高性能計算剛剛達到1億億次,今年太湖之光剛剛實現了10億億次,2020年之前的目標是實現百億億次,也就是exaFLOPS級別,包括中國、美國、日本和歐盟在內,百億億次計算是世界各國都在爭奪的下一個制高點,它不僅對主處理器/協處理器提出了極高的要求,支撐起如此龐大運算規模也需要在網絡連接、高速內存等子系統上實現突破。
處理器方面陸續將會有Intel下一代Xeon處理器、IBM Power 9及AMD Zen,加速卡也有NVIDIA Volta、AMD Navi等,下一代內存技術則會有DDR5、HBM、HMC等,它們還會根據不同應用范圍衍生出多個版本。今天我們來聊聊未來的集中內存(也包括顯存)技術的走向及特點。
HBM的出現代表著3D堆棧的新一代內存技術日趨實用化
從Haswell-E處理器開始,內存就開始從DDR3向DDR4升級,經過2年多時間的磨合,到了今年DDR4內存也可以說是白菜價了。2015年AMD推出了Fiji核心的Fury系列顯卡,它使用的是HBM顯存,與之前的GDDR5顯存不同,HBM可以說是普通人接觸到的第一款3D堆棧內存,它代表著未來,而DDR內存則是主流代表,下一步是DDR5內存,再加上美光、Intel主導的HMC內存,這三者以及它們的衍生品可以說是2020年之前內存/顯存技術角逐天下的主角了。
內存/顯存技術路線圖
預測DDR、HBM及HMC三強爭霸的結局還太早了,要想分出勝負我們還得掂量掂量這三者在性能、功耗及成本上的表現。
DDR5/HBM/HMC內存及顯存規范簡介
DDR5:內存正統續作,顯存/移動內存之基礎
2014年隨著Hasewll-E處理器及X99主板的問世,DDR4內存首次進入桌面市場,不過X99平臺是面向發燒級玩家的,到了2015年Intel又推出了Skylake處理器,這才算是走入主流市場。經過這兩年的發展,DDR4內存已經從王謝堂前燕飛入尋常百姓家了,性價比完全不輸DDR3內存。
對于DDR4內存,我們之前在三位一體升級換代,Haswell-E、X99及DDR4前瞻一文中已經詳細解析過它與DDR3內存的不同,簡單來說就是在基礎頻率無法大幅提升的情況下,DDR4通過翻倍提升顯存核心的Bank(內存庫)數量變相提高了數據吞吐率,其數據頻率可從前代的0.8-2.1Gbps大幅提升到1.6-3.2Gbps,進而提高了內存帶寬。
此外,DDR4內存的電壓也從前代的1.5V降低到了1.2V,提高了能效,而隨著工藝的進步,DDR4內存的核心容量也從之前4Gb提升到了8Gb、16Gb,可以輕松實現單條64GB以及128GB內存,這些都是它比DDR3內存先進的地方。
目前高頻DDR4內存頻率已經達到了4.26Gbps,差不多又到了一個極限了,下一步該準備DDR4的繼任者了,不出意外的話,其命名就是DDR5,技術路線也類似DDR3到DDR4那樣,核心頻率同樣不會有大幅提高,能做文章的地方還是數據預取位寬、內存庫數量等。
DDR5內存目前還在研發階段,尚未有具體規范,所以廠商公布的很多規格都不是確定的,其目標是相比DDR4內存至少帶寬翻倍,容量更大,同時更加節能,具體來說就是數據頻率從目前1.6-3.2Gbps的水平提升到3.2-6.4Gbps,預取位寬從8bit翻倍到16bit,內存庫提升到16-32個。
至于電壓,DDR4電壓已經降至1.2v,DDR5有望降至1.1v或者更低。
在三星討論的DDR5內存規范中,其目標跟美光基本一致,也是帶寬至少翻倍,預取位寬也會翻倍,不過內存庫數量還是16個,與美光公布的數據略有不同。
不過在時間點上,業界還是有一定共識的——DDR5預計在2017年完成規范制定,2018年出樣,2019年開始生產,不過要普及的話估計至少是2020年的事了。
此外,盡管美光、三星都沒提制程工藝的問題,不過2018年10nm工藝已經量產了,2020年左右則是7nm節點了,而目前DDR4最先進的工藝是18nm,到了2020年那個時間段,內存也會殺向10nm以下節點的。
DDR5內存衍生版之GDDR6顯存
說DDR5內存是最正統的內存續作,不僅因為它是最主流的內存選擇,還與它的衍生版有關——顯存用的下一代GDDR與手機、平板用的LPDDR低功耗內存都跟DDR5息息相關,業界在討論DDR5內存的同時,同樣也沒忘了GDDR6及未來的LPDDR5內存。
很久之前顯卡用的顯存是跟PC內存一樣的,但是隨著GPU性能的不斷提升,對帶寬的要求也水漲船高,普通PC內存已經滿足不了需要了,在DDR內存基礎上就衍生出了GDDR內存,GDDR5就是在DDR3基礎上衍生的,大部分規格都是相同的,不過數據預取位寬從4bit翻倍到8bit,所以帶寬在DDR3基礎上提高一倍,這也是其數據頻率是真實頻率4倍的由來,而普通DDR3內存是2倍真實頻率。
在DDR5基礎上衍生出來的顯存就是GDDR6(雖然還不是正式定名)了,它的實際頻率與目前高頻GDDR5內存差不多,都是1.75GHz左右,但因為預取位寬再次翻倍,數據頻率則會從7Gbps提升到14+Gbps,這個思路其實跟美光主推的GDDR5X顯存是一樣的,同樣是在不提高實際頻率的情況下通過提升預取位寬實現帶寬提升。
當然,為了進一步降低功耗,GDDR6顯存的電壓也會從目前1.5V降至1.35V。
低功耗LPDDR內存也會在DDR5基礎上演進,其速率也能達到6.4Gbps,不過電壓則會進一步降低,目前LPDDR4已經是1.1v電壓了,LPDDR5電壓會低于1.1v,目標是實現20%的能效提升。
HBM:第三代性能更強大,但降低成本也很重要
2015年AMD推出了Fiji核心的Fury系列顯卡,雖然推出的三款顯卡都是面向高端市場的,售價比較高,但從技術上來說Fury系列顯卡絕對是顯卡史上的一次重大變革,因為它用上了HBM顯存,它不僅僅是性能更強大,最重要的是HBM顯存極大地減少了PCB面積占用,可以把高端顯卡做的非常小巧,AMD的R9 Nano顯卡是2015年讓筆者印象最深刻的產品,比GTX Titan X和GTX 980 Ti更有意義。
對于HBM顯存,我們之前在評測及解析中也詳細說過它的特點和優勢了,詳情可以參考:AMD詳解HBM顯存:性能遠超GDDR5,功耗降50%,面積小94%,一句話來說就是HBM在電壓只有1.2V的情況下將顯存帶寬提升到512GB/s,性能更強,功耗更低,占用面積更小。
到了2016年,HBM顯存又進化到了第二代,并正式成為JEDEC標準。與前代產品相比,HBM 2顯存核心容量從2Gb提升到8Gb,數據頻率從1Gbps提升到2Gbps,帶來的好處就是在同樣4-hi堆棧下,HBM 2單顆顯存容量可達4GB,帶寬1024GB/s。
HBM顯存最早是AMD和SK Hynix聯合研發的,第一代HBM顯存主要是SK Hynix在生產,HBM 2時代NVIDIA、三星也參與進來了,前者首發了HBM 2顯存的Tesla P100加速卡,SK Hynix也開始量產HBM 2顯存了,有2-hi、4-hi、8-hi三種堆棧方式,頻率1.0、1.6及2.0Gbps,帶寬分別是128、204256GB/s,堆棧容量2、4、8GB,最高可實現32GB堆棧總容量,1024GB/s帶寬。
HBM 2還沒上市,三星已經在討論HBM 3顯存了,預計在2019-2020年問世,不過目前并沒有確切的規格。從三星的表態來看,HBM 3會進一步提高堆棧層數、核心容量及帶寬,但在核心頻率、內存庫、DQ位寬方面保持HBM 2的水平,不過就算提升容量和堆棧層數,也足夠HBM 3容量翻倍、帶寬翻倍了,64GB HBM 3容量不是夢。
值得注意的是,HBM 3顯存的電壓預計會比目前1.2v低得多,這有助于大幅降低HBM 3功耗。
從HBM顯存問世開始,我們就知道它是個好東西,各方面完勝GDDR顯存——除了成本太高,因為HBM顯存是新標準,產能不足,而且它是2.5D堆棧的,制造工藝比GDDR5顯存復雜多了,這都加劇了HBM顯存的普及難度。
在這方面,三星一方面在推進更高性能的HBM 3,同時也在探討研發低成本的HBM,通過移除ECC校驗、緩沖器層、減少I/O及降低TSV數量(TSV工藝中打孔數量越多,性能越好,但會更復雜),這些手段有助于減少HBM成本,雖然這會對HBM性能造成一定影響,I/O位寬從1024bit減少到512bit,但可以通過其他手段彌補,比如提高數據頻率到3Gbps,這樣一來低成本HBM的帶寬會從256GB/s降低到200GB/s左右,還在可接受范圍內,而制造成本就低多了。
對HBM來說,阻礙它普及的最大障礙就是成本了,一旦低成本HBM得以實現,那么HBM就有可能不再局限于高端顯卡之中,CPU也可以拿它來做緩存了。
HMC:不同于HBM的3D內存,美光獨立支撐
如同閃存從2D NAND轉向3D NAND一樣,內存也要從平面轉向3D立體,前面的HBM就是3D內存技術的一種,不過它并非唯一選擇,美光、Intel還有HMC(Hybrid Memory Cube)內存,它也是通過TSV硅穿孔工藝堆棧多層DRAM核心以實現3D堆棧的。
實現3D堆棧之后,HMC也可以搭積木一樣堆疊內存核心了,帶來的優勢就是:
·性能更強,帶寬是DDR3內存的15倍
·功耗更低,功耗比DDR4減少70%
·占用面積更小,比DDR4減少90%
·設計更簡單,通道復雜性比DDR4減少88%
HMC與HBM都是TSV工藝的堆棧內存,很容易混淆,不過具體結構上HMC內存與HBM還是有很大不同的,它可以分為三個層次——頂部的是堆棧的DRAM核心,中間有個邏輯層(logic Layer),最下面則是封裝層(package)。
HMC與處理器的連接方式也不同,HBM有個工藝復雜的中介層,打通了處理器與HBM芯片,而HMC與處理器連接是靠4條高速Link,每條Link有16個通道,速度最高可達30Gbps,典型速度有10Gbps、15Gbps、25Gbps。如果是4-link、10Gbps速度,那么帶寬可達160GB/s,15Gbps速度則是240GB/s,美光還在開發8-link HMC,帶寬可上320GB/s。
美光目前量產的HMC單顆容量2GB,核心容量為4Gb,4層堆棧,帶寬160GB/s,算起來性能比HBM 2顯存的256GB/s要差一些,不過HMC相比HBM還有個優勢,那就是HBM的高帶寬需要離處理器很近,顯卡跟HBM都是封裝在一起的,所以制造工藝復雜,成本太高,而HMC通過Link與處理器相連,既可以做近場內存(near memory),也可以距離遠點(far memory),部署更加靈活。
不過與HBM顯存受到顯卡、FPGA追捧不同,HMC推廣的力度就小多了,盡管HMC陣營也有三星、SK Hynix參與,但真正在推的只有美光、Intel,Intel代號“Knights Landing”的Xeon Phi上使用了16GB片上緩存,就是美光提供的HMC,號稱是DDR4內存的5倍性能、5倍能效,同時面積占用只有后者1/3。
HMC的規范發展已經到了2.0時代,據說美光今年還要推出HMC 3.0規范,Link數量、堆棧層數、核心容量都有進一步提高,帶寬可提升到480GB/s,該指標跟HBM 3差不多同級了。
小結:
本文主要介紹了2020年之前新一代內存/顯存技術路線,DDR5內存的發展是按部就班,DDR5技術使用傳統思路提升帶寬、降低能耗,而HBM及HMC則是3D堆棧,發展潛力比DDR5更誘人,不過3D堆棧目前制造過程復雜,成本太高,主要用于高性能計算領域,普通消費者要想用上廉價3D內存/顯存還要等技術成熟。