《電子技術應用》
您所在的位置:首頁 > 模擬設計 > 業界動態 > 主流芯片架構正在發生重大變化

主流芯片架構正在發生重大變化

2018-09-03

由于芯片尺寸縮減帶來的效益越來越小,業界正在設計支持AI的系統,以在本地處理更多數據。

芯片制造商正在研究可顯著增加每瓦和每時鐘周期可處理數據量的新型架構,從而開啟了數十年來芯片架構轉變的大幕。

所有主要的芯片制造商和系統供應商都在改變方向,引發了一場架構創新大賽,創新涉及從存儲器中讀取和寫入數據的方式、數據管理和處理方式以及單個芯片上的各個元素的結合方式等。雖然工藝節點尺寸仍在繼續縮減,但是沒有人寄希望于工藝的進步可以跟得上傳感器數據的爆炸性增長以及芯片間數據流量增加的步伐。

在這些創新中, 新型處理器架構專注于研究每個時鐘周期內處理更多數據的方法,有時犧牲部分精度,或者根據應用類型提高特定操作的優先級;

 正在開發的新存儲器架構改變了數據存儲、讀取、寫入和訪問的方式;

 更有針對性的處理元素散布在系統周圍,更加靠近內存。系統不再依賴于最適合應用的單個主處理器,而是根據數據類型和應用選擇不同的加速器

 通過人工智能技術,將不同的數據類型融合在一起,形成多種模式,有效地提高了數據密度,同時最大限度地減少不同數據類型之間的差異;

 封裝組合形式成為架構設計的核心之一,越來越關注修改設計的難易。

“有一些趨勢導致人們試圖充分挖掘已有方案的潛力。” Rambus的杰出發明家Steven Woo說,“在數據中心上,你希望硬件和軟件能夠發揮盡可能多的作用,這是數據中心重新思考其經濟成本的方式。啟用一種新功能的成本非常高,但是瓶頸正在日益凸顯,所以我們看到更多專用芯片和提高計算效率的方法不斷涌現,如果可以減少數據在內存和I/O上來回傳輸的次數,將會產生很大的影響。”

這些變化在邊緣節點上更加明顯,此外,系統供應商突然意識到有數百億臺設備不斷地產生天量數據,而這些數據無法全部發送到云端進行處理。在邊緣節點上處理這些數據對節點自身帶來了挑戰,它們需要在不顯著改變功耗預算的情況下大幅提高性能。

英偉達的Tesla產品家族首席平臺架構師Robert Ober說:“人們把重點放在降低精度上,邊緣節點性能的提升不僅僅體現在更多計算周期上。它需要在內存中放入更多數據,比如您可以使用16位指令格式。 所以,解決方案不是為了提高處理效率而在緩存中存儲更多內容。從統計上看,不同精度的計算結果應該是一致的。”

Ober預測,在可預見的未來,通過一系列架構優化應該可以每隔幾年就將處理速度提高一倍。“我們將見證這些改變,”他說。“為了實現這一目標,我們需要在三個層面實現突破。第一是計算,第二是內存,在某些模型中,計算更關鍵,而在其它模型中內存更關鍵。第三是主處理器帶寬和I/O帶寬,我們需要在優化存儲和網絡方面做很多工作。”

其中一些變化已經發生。在Hot Chips 2018會議上的演講中,三星奧斯汀研發部門的首席架構師 Jeff Rupley指出了該公司M3處理器的幾個主要架構變化。其中一個是每個周期處理更多的指令,相比于之前M2處理的四條指令/周期,M3為6條。還包括以若干神經網絡取代預取搜索,改善了分支預測,以及將指令隊列深度加倍。

從另一個角度來看,這些變化也改變了從制造工藝到前端架構/設計和后端封裝的協同創新關系。雖然制造工藝仍在不斷創新,但是每次新節點只能帶來15%到20%的性能和功耗改善,顯然不足以跟上數據的增長步伐。

“變化正以指數速度發生,”Xilinx總裁兼首席執行官Victor Peng在Hot Chips的演講中表示。 “現在每年將產生10個zettabytes [1021字節]的數據,其中大部分是非結構化數據。”

存儲器領域的新方案

處理這么多數據需要重新思考系統中的每個元素,從數據的處理方式到存儲方式都需要重新設計。

“業界已經進行了多次嘗試,以創建新的內存架構,”eSilicon EMEA創新高級主管CarlosMaciàn說。“當前內存的瓶頸在于你需要讀取出一整行,然后再在其中選擇一位。一種新方法是構建可以從左到右、從上到下讀取的內存。您還可以更進一步,將計算能力部署到不同的內存中。”

還可以改變內存的讀取方式、處理單元的位置和類型,以及使用人工智能技術優化不同數據在整個系統中存儲、處理、傳輸的優先級。

“在稀疏數據中,我們一次只能從字節陣列讀取一個字節的數據,在其它類型應用中,也可以在同樣的字節陣列中一次讀取八個連續數據,而不會消耗與我們不感興趣的其它字節或字節陣列相關的能耗,”Cadence產品營銷部門總監Marc Greenberg說。 “未來的新型內存可能更適合處理這類事情。比如我們看一下HBM2的架構,HBM2硅片堆棧被安排到16個64位的虛擬通道中,我們從任何一次對任何虛擬通道的訪問中都能得到4個連續的64位字。因此,有可能構建可水平寫入的1,024位寬的數據陣列,一次只讀取4個64位字。”

內存是馮諾依曼架構的核心組件之一,也正在成為架構創新的最大試驗田之一。AMD的客戶端產品首席架構師Dan Bouvier表示:“現有架構的一個大報應就是虛擬內存系統,它迫使你以更加不自然的方式移動數據。你需要執行一次又一次轉換。如果您可以消除DRAM中的分區沖突,您可以獲得更高效的數據流動。分立GPU可以在90%的效率區間運行DRAM,效率非常高。但是,如果你可以獲得串行的數據傳輸,你也可以在APU和CPU上在80%到85%的效率區間內運行DRAM。”

馮諾依曼架構

IBM正在開發一種不同類型的內存架構,它本質上是磁盤條帶化技術的現代版本。磁盤條帶化技術將數據不再局限在單個磁盤上,同樣,IBM新型內存架構的目標是利用被其系統硬件架構師Jeff Stuecheli稱為連接技術的“瑞士軍刀”的連接器技術,混合和匹配不同類型的數據。

“CPU變成了一個位于高性能信號接口中間的東西,”Stuecheli說。“如果你修改微體系結構,不用提高頻率,內核就可以在每個周期內做更多的事情。”

為了確保這些體系架構能夠處理越來越龐大的數據,連接性和吞吐能力變得越來越重要。 “現在最大的瓶頸在于數據傳輸,”Rambus的Woo說。 “半導體行業在提高計算性能方面做得非常出色。 但是,如果您把大量時間用在等待數據或特定的數據模式上,效率依然無法提高。必須更快地運行內存。因此,如果你看看DRAM和非易失性存儲器就會發現,它們的性能實際上取決于數據傳輸模式。如果您能夠將數據串起來,就可以在內存中獲得非常高的效率。但是如果你的數據在空間上隨機分布,效率就會降低。無論你怎么做,隨著數據量的增加,你必須保證能夠更快地完成所有這些數據傳輸。”

更多計算,更少移動

使問題變得更加復雜的是,邊緣設備以各種頻率和速度產生了多種不同類型的數據。為了使數據在各種處理單元之間流暢地移動,必須比過去更加有效地管理它。

“有四種主要配置 - 多對多、內存子系統、低功耗IO以及網狀和環形拓撲,”Arteris IP董事長兼首席執行官Charlie Janac說。 “你可以將所有這四個要素放在單個芯片中,現在的決策型IoT芯片就是這么做的。或者您可以添加具有高吞吐能力的HBM子系統。但是由于其中一些工作負荷是面向特定行業需求,而且每個芯片都需要面對多個工作負荷,具有多個引腳,所以問題依然很復雜。你看其中一些物聯網芯片,它們會收集大量的數據。些工作負載非常具體,每個芯片有多個工作負載和引腳。 如果你看一些物聯網芯片,它們會收集大量的數據。像汽車中的雷達和LiDAR這樣的東西尤其如此。如果沒有某種先進的互連技術,它們的存在毫無意義。”

挑戰在于如何盡量減少數據移動,以及在需要時最大程度提高數據傳輸速度,并以某種方式在不消耗太多功率的情況下取得本地處理和集中處理的平衡。

“一方面是帶寬問題,”NetSpeed Systems產品營銷經理Rajesh Ramanujam說。 “如果可能的話,您希望盡量不要移動數據,因此您可以將數據放得離處理器更近。但是,如果您必須移動數據,則需要盡可能地壓縮數據。但是,現實情況往往更加復雜,你必須從系統級別查看這種可能性。每一步都需要考慮多個因素,確定您是以傳統的讀寫方式使用內存還是利用新的內存技術。在某些情況下,您可能希望更改數據本身的存儲方式。如果您想要更快的性能,通常意味著更大的芯片尺寸,這會影響功耗。現在你還要考慮功能安全,因此不得不擔心數據過載。”

這就是為什么人們把那么多的注意力放在加強邊緣處理能力和增加各種處理單元之間的傳輸吞吐能力上。現在,隨著架構的演化和完善,處理的實現方式和位置都發生了很大變化。
比如,Marvell推出了一款內置AI能力的SSD控制器,它可以在邊緣節點上處理更大的計算負荷。其中的AI引擎可用于固態存儲本身的分析。

“你可以直接將模型加載到硬件中,并在SSD控制器上進行硬件處理,”Marvell的首席工程師Ned Varnica說。 “今天,云端主機就是這樣做的。但是,如果每個SSD都要將數據發送到云端,那將會產生巨大的網絡流量。最好在邊緣就地處理,主機只需要發出元數據形式的命令。 這樣一來,您擁有的存儲設備越多,處理能力就越強。降低網絡傳輸的好處非常大。”

這種方法有一點特別值得注意,即它強調數據根據應用類型而移動的靈活性。主機可以生成一個任務,將它發送到存儲設備上進行處理,然后只需要返回元數據或者計算結果。在另外一種場景中,存儲設備可以存儲數據,對數據進行預處理并從生成元數據、標簽和索引,主機需要進行進一步分析時再讀回它們。

這只是其中一種方案,還有其它的選擇。三星的Rupley強調了亂序處理和融合習語,它們可以解碼兩條指令并將它們融合在單個操作中。

AI監督和優化

在所有這些之上是人工智能,它是芯片架構領域的新技術。它不管操作系統和中間件如何管理功能,而是在系統級別上監督芯片以及芯片之間的行為。在某些情況下,AI可以體現為芯片內的神經網絡。

eSilicon市場營銷副總裁Mike Gianfagna表示,“AI的作用并不是將更多東西包裝在一起,多到足夠改變傳統的處理方式。通過AI和機器學習,你可以在系統周圍部署人工智能,以獲得更高效和預測性的處理。它有時可以是在系統內獨立運行的單獨芯片。”

Arm正在開發首款機器學習芯片,它計劃于今年晚些時候推出,面向多個細分市場和垂直市場。“這是一種新型處理器,”Arm的杰出工程師Ian Bratt說。 “它包括一個基本塊,其中帶有一個計算引擎、一個MAC引擎和一個帶有控制單元和廣播網絡的DMA引擎。該芯片共有16個計算引擎,使用7nm制造工藝,在1GHz主頻下可達到4 teraOps的計算能力。”

Arm機器學習處理器架構

由于Arm生態系統面向多個合作伙伴,因此該芯片比其它AI/ML芯片更加通用,配置能力更強。它沒有搭建一個包羅萬物的單片架構,而是根據功能劃分不同處理單元,因此每個計算引擎都是面向不同的功能特征。Bratt表示,AI芯片的四個關鍵要素是靜態調度、高效卷積、帶寬減少機制以及面向未來設計的可編程性。

英偉達則采取了不同的策略,它選擇在GPU旁邊構建專用的深度學習引擎,以優化圖片和視頻處理的數據傳輸。

結論

芯片制造商表示,通過實行部分或全部這些方法,他們可以每隔幾年就將性能提高一倍,以跟上數據爆炸性增長的步伐,同時滿足功耗的嚴格限制。這些方法不僅是提供更多計算機,還正在改變芯片設計和系統工程化的起點,它們更多考慮數據的不斷增長,而不是硬件和軟件的限制。

Synopsys公司董事長兼聯席首席執行官Aart de Geus說:“當最初一代計算機開始進入公司時,很多人都認為世界的發展速度將會加快很多。沒有計算機時,他們用一堆紙質的會計賬簿進行會計處理。自那以后,各種公司事務的處理速度發生了指數級的變化,現在,這種變化再一次來到了我們面前。這種快速的變化就像突然可以把會計賬簿打印出來了一樣。就像在農業領域里,你只需要在某一天溫度上升的時候灌溉適當的水和某種肥料,就可以等待豐收一樣,機器學習也是這種之前并不明顯的優化。”

西門子子公司Mentor的總裁兼首席執行官Wally Rhines也認可這種觀點。“新架構將被人們接納,人們將在新架構下設計芯片,在許多甚至大多數場景下執行機器學習,就像您的大腦有能力從經驗中學習一樣。我拜訪了20多家正在做自己的專用AI處理器的公司,它們都有自己的特色。你會越來越多地在各種特定應用中看到它們,它們對傳統的馮諾伊曼架構形成了有效補充。神經形態計算將成為處理,它將幫助我們提高計算效率、降低成本,在移動和聯接性的環境中完成工作,現在我們還必須在大型服務器集群中完成這些工作。”


本站內容除特別聲明的原創文章之外,轉載內容只為傳遞更多信息,并不代表本網站贊同其觀點。轉載的所有的文章、圖片、音/視頻文件等資料的版權歸版權所有權人所有。本站采用的非本站原創文章及圖片等內容無法一一聯系確認版權者。如涉及作品內容、版權和其它問題,請及時通過電子郵件或電話通知我們,以便迅速采取適當措施,避免給雙方造成不必要的經濟損失。聯系電話:010-82306118;郵箱:aet@chinaaet.com。
主站蜘蛛池模板: 视频成人永久免费看 | 成人福利在线视频 | 亚洲国产欧美日韩一区二区三区 | 成年大片免费播放视频人 | 亚洲成av人片在线观看 | 国产大片线上免费观看 | 曰批全过程免费视频免费 | 精品久久香蕉国产线看观看亚洲 | 久久精品免视看国产成人2021 | 国产a毛片高清视 | 国产字幕制服中文在线 | 国产激情视频一区二区三区 | 51av视频 | 欧美超高清在线观看 | 国产成+人+亚洲+欧美综合 | 日b视频免费| 欧美日韩亚洲一区二区 | 中国一级毛片国产高清 | 欧美日韩成人 | 欧美性色黄在线视 | 亚洲综合精品一区二区三区中文 | 国产成人手机在线 | 欧美青青 | 亚洲一区二区精品视频 | 欧洲精品在线视频 | 在线观看男女男免费视频 | 成 人 亚洲 综合天堂 | 人人艹在线 | 黄色的视频免费 | 国产21区 | 亚洲综合小说网 | 外国一级黄色毛片 | 深夜福利在线播放 | 欧美性生交xxxxx丝袜 | 免费观看欧美一级特黄 | 丁香六月狠狠激情综合基地 | 久久久久国产一级毛片高清版 | 亚洲福利视频网 | 久青草国产97香蕉在线视频xx | 中国黄色a | 黄色片黄色片黄色片黄色片黄色片 |