3月15日,據路透社報道,百度昆侖芯片業務完成獨立融資,投后估值約130億元人民幣,領投方為CPE,跟投方IDG、君聯資本、元禾璞華。據了解,百度正在考慮將其人工智能芯片設計能力進行商業化,目的是將昆侖部門打造成一家獨立的公司。
如今互聯網科技企業造芯已不是什么新鮮事,尤其是AI領域已經成為世界科技巨頭爭奪的制高點, IBM,微軟,谷歌和亞馬遜正在微調其AI平臺,以使客戶更輕松,更快捷地整合各種AI技術。
可以說,造芯熱幾乎與人工智能的爆發處于同一個階段,人工智能的這一輪爆發是深度學習算法的興起,而深度學習的基礎就是需要更多的數據訓練、更高的算力支撐。當傳統芯片逐漸無法滿足互聯網爆發的算力需求時,擁有先進算法和強大計算能力的互聯網公司成為了芯片自研的推動者,國內外企業幾乎步調一致地各自開啟了這一篇章。
中國在進入其市場方面的行動將在該行業的創新中發揮關鍵作用。根據一項研究,中國現在占全球半導體消費的60%。根據《國際商業戰略》,2019年,中國半導體行業銷售額為2122億美元,北美為595億美元,世界其他地區為488億美元,歐洲為418億美元,日本為387億美元。
圖:2019年按地區劃分的全球半導體消費(十億)
目前,國產AI芯片處于一個窗口,這個窗口有如下特征:1、市場廣闊,容納下許多巨頭玩家;2、處于爆發期初期,大規模應用尚未到來;3、應用場景分散、復雜度高,需要定制化;4、單獨芯片不夠,需要配套的解決方案支撐。
在這樣的大背景下,對“AI第一股”百度而言,造芯能抓住其中的哪些機會,競爭力又有多少?
問世2年多,昆侖幾何?
衡量一款芯片好不好,成不成功,最直觀的就是看出貨量。百度昆侖于2018年宣布,2019年12月,百度和三星宣布,百度首款基于云的產品昆侖第一代用于計算和邊緣計算的AI芯片已經完成。
截至目前,實現量產的百度昆侖1已在百度搜索引擎及云計算用戶部署2萬片。與國內其他互聯網造芯玩家的產品相比,百度昆侖1的出貨量可以說是不錯的。
從技術結合場景的經驗來看,新一批崛起的AI 芯片要針對不同的人工智能應用類型和場景,對于芯片的要求就不單單是要適合深度學習,需要兼顧計算能力、能耗和靈活性。
云計算巨頭紛紛布局云計算+FPGA芯片,首先因為FPGA作為一種可編程芯片,非常適合部署于提供虛擬化服務的云計算平臺之中。FPGA的靈活性,可賦予云服務商根據市場需求調整FPGA加速服務供給的能力。
運算速度、功耗等性能是衡量一款芯片的核心指標。昆侖芯片定位為通用AI芯片,目標是提供高性能,低成本,高度靈活的AI芯片。特別要指出的是,昆侖芯片既能做訓練也能做推理,它可以滿足AI的高處理需求,用于云實例和邊緣實例,包括數據中心,公共云和自動駕駛汽車。據了解,昆侖2將采用7nm工藝打造,將于2021年實現量產,其性能對1代,將再提升3倍。
一份經紀報告顯示:“這種大型的,基于云的,具有高計算能力的AI芯片具有很高的技術門檻。只有百度,華為和寒武紀才能生產這些產品。”
在昆侖芯片誕生前,2017年百度內部數據中心、自動駕駛系統等就已大規模使用部署了超過10000片FPGA加速器,這對跨行業跨場景測試昆侖芯片打下了初步基礎。隨后,在部署上線的微億智造工業智能質檢設備上,百度智能云以整機一體化方式,向微億智造交付搭載百度昆侖芯片的百度云質檢一體機。
僅僅硬件遠遠不夠,一個整體的解決方案對商業化落地也至關重要。百度提出了AI-Native的云計算架構,從基礎設施的AI計算集群、AI芯片,到工程平臺的飛槳、云原生,以及應用開發平臺的視頻云、區塊鏈等,通過云智一體、端到端的方式,支持產業的智能應用。
當然,無形財產的積累對以科技為導向的企業來說也是至關重要的一環,手機芯片玩家高通光靠專利費就吃透了全世界。在AI專利申請和許可方面,百度已連續三年位居中國第一,百度AI開放平臺也已經匯集了265萬開發者。
百度在其他地區的市場份額不大,與成熟的競爭對手競爭也將非常艱難。但盡管如此,在當前大環境下,昆侖芯片如今的量產和交付進展卻凸顯了AI在中國的整體發展勢頭,也代表了中國企業在這一新興領域確立全球領導者的決心。
其實在AI領域,中國一直沒有落后。據斯坦福大學發布的一份222頁的《2021年度AI指數報告》指出,2020年,中國在世界人工智能期刊上的引用頻次首次超過美國。在刊登數量上,早在2004年,中國在人工智能期刊的總發表數量上短暫超過美國,然后在2017年重新占據領先地位。
中國在世界人工智能期刊上的引用頻次首次超過美國
定制、魔改、二次開發
早在2011年百度啟動了FPGA AI加速器項目,2015年的FPGA部署已經超過5000片,2017年成為業界部署最多的,超過了12000片;2018年百度發布自主研發的AI芯片——百度昆侖;2019年流片成功,2020年昆侖一代開始量產并且大規模部署。
關于昆侖芯片的細節我們不做過多的贅述,但是值得一提的是,往往GPU是打造AI芯片的重要手段之一,但是我們也可以看出,百度從一開始卻是基于FPGA打造的,FPGA的特點就是可編程,這樣使用昆侖芯片的用戶,就完全可以根據自己的應用場景來進行定制、魔改、二次開發。
由于AI應用場景的分散和復雜度高,定制化就顯得格外重要。FPGA作為一種可編程芯片,非常適合部署于提供虛擬化服務的云計算平臺之中。昆侖芯片配以FPGA的靈活性,可讓用戶可以按照自己的需求和應用場景進行專項定制,魔改,二次開發,實現更快速的市場普及,并能完成自身產品的后續迭代。
在性能方面,百度昆侖性能最高比英偉達T4強三倍。放大到全球的AI芯片,據麻省理工學院林肯實驗室超級計算中心的一項統計研究《機器學習加速器的調查和基準測試》,在全球公開宣布的人工智能加速器和處理器的性能與功率分散圖中,我們也可以看出,昆侖芯片性能也處于高位(如下圖)。下圖顯示了最近公開發布的一些AI處理器能力(截至2019年5月),列出了芯片的峰值性能與功耗。
公開宣布的人工智能加速器和處理器的性能與功率分散圖(圖源:MIT《機器學習加速器的調查和基準測試》研究)
注:其中x軸表示峰值功率,y軸表示每秒千兆次操作的峰值。處理能力的計算精度由所采用的幾何形狀來描述;計算精度范圍從單個位int1到單個字節int8,從4字節float 32到8字節float 64。形狀因子由顏色來描述,這對于顯示消耗了多少能量很重要,而且對于顯示在單個芯片、單個PCI卡和整個系統中可以裝載多少計算量也很重要。藍色僅是單個芯片的性能和功耗。橙色表示芯片的性能和功率(注意,它們都在200-300W區域)。綠色表示整個系統的性能和能力——在這里是單節點桌面和服務器系統。
眾所周知,“AI應用場景碎片化、落地難”已成行業共識,在AI芯片前仆后繼的大軍中,泡沫過后,許多企業已銷聲匿跡,僅留下了為數不多的十幾家。百度又能靠什么?
造芯者不但需要懂硬件,還需要懂AI算法軟件。據了解,百度昆侖作為百度人工智能平臺的核心組件,可以原生支持開源深度學習框架飛槳(PaddlePaddle),百度機器學習平臺(BML)及各垂類的AI 能力引擎。另外,昆侖不僅支持全球主流CPU、操作系統,Pytorch和 TensorFlow 等深度學習框架,也和國產化廠商密切合作支持飛騰、申威和海光等國產CPU,麒麟、深度和統信等國產操作系統。
此外,生態能力在芯片行業中尤為關鍵,而且放在自家產品上可盡顯其性價比優勢。
其實這點我們可以從華為麒麟芯片得到啟發,因為有手機終端的不斷試錯和支持,麒麟芯片才能在迭代中不斷創新,二者相輔相成,最終成就一段手機史上的佳話。百度亦是如此,相比其他單打獨斗的AI芯片企業,它有大公司的生態優勢。百度完全不用有一般AI芯片廠商的擔憂:“我該做什么樣的芯片?芯片做出來能否迎合市場的需求?又將用在什么場景?”因為百度有太多的應用場景了,智能音箱、智能駕駛Apollo、智能云等等,這些對百度整體業務都形成一個大循環。
特斯拉也是一樣。在特斯拉自研FSD芯片前,需要采用英偉達的芯片,不僅在性能上滿足不了特斯拉的需求,而且成本還高昂,完全不具有話語權。此后,特斯拉自己研發芯片竟達到了與英偉達相同乃至更好的效果,成本也把控在自己手里。
在造芯策略上,百度與當下國際互聯網巨頭如亞馬遜、谷歌、微軟等如出一轍,自產自用為主,但同時也注意為芯片建生態,芯片又反哺生態。未來隨著智能汽車逐漸爆發,云計算、物聯網市場的大幅度需求,百度或將被推上歷史的潮頭。