一樁全球 IT 災難級事件,讓不少微軟員工大為惱火:明明不是微軟的 " 鍋 ",鋪天蓋地的各種報道卻都是 " 微軟藍屏 "。
7 月 19 日,全球約 850 萬臺裝有 Windows 操作系統(tǒng)的計算機出現(xiàn) " 藍屏 " 死機現(xiàn)象,出現(xiàn)故障的終端并不限于桌面終端,還覆蓋了大量的服務器和云節(jié)點,包括導致了多個重要的微軟和 AWS 的云服務和租戶服務中斷,而且相關主機重新啟動后依然會自動進入藍屏狀態(tài),形成了反復崩潰閉環(huán)。
據(jù)不完全統(tǒng)計,至少 20 多個國家在內,包括醫(yī)院、銀行、航空公司等大量社會基礎設施一度停擺,造成的直接和間接經(jīng)濟損失以十億美元計算。
本次事件帶來的后果影響遠遠超過了 2007 年賽門鐵客誤殺中文版 Windows 導致的系統(tǒng)藍屏事件,直追 2017 年的勒索病毒 WannaCry,在歷史上注定要留下濃墨重彩的一筆。
而導致這一歷史事件的主角,是一家大多數(shù)人并不熟悉的美國網(wǎng)絡安全企業(yè)—— CrowdStrike。
但其重要程度,絲毫不亞于任何一家海外互聯(lián)網(wǎng)巨頭企業(yè)。據(jù)報道,美國總統(tǒng)拜登專門聽取了關于本次事件的詳細匯報,美國眾議院國土安全委員會還要求 CrowdStrike 公司 CEO 喬治 · 庫爾茨(George Kurtz)前往國會,就這一重大 IT 事故作證。
事故發(fā)生之后,盡管微軟和 CrowdStrike 用小時級的響應速度,先后發(fā)布公告和更新,試圖修復這一問題,但是行業(yè)并不十分買賬。
一方面,客戶對于 CrowdStrike 的后續(xù)處理并不滿意,喬治 · 庫爾茨的態(tài)度傲慢,CrowdStrike 的處理方式簡單粗暴,事故恢復效率不高。CrowdStrike 給用戶發(fā)放 10 美元的 UberEats 外賣代金券作為補償,還不是每位用戶都有。企業(yè)客戶已經(jīng)在考慮替換甚至起訴 CrowdStrike,馬斯克就直言,將在特斯拉所有系統(tǒng)中刪除 CrowdStrike。
另一方面,行業(yè)更關注的是,為何一家安全公司居然能輕易導致如此嚴重的后果,微軟的安全審查機制為何不起作用,以及網(wǎng)絡安全行業(yè)該如何自查自醒。
并非軟件升級,而是 " 規(guī)則更新 "
洞悉本次事件的原因,首先要清楚 CrowdStrike 的工作機制,以及微軟和 CrowdStrike 的合作模式。
2011 年,兩位傳統(tǒng)殺毒軟件企業(yè) McAfee 的高管發(fā)起創(chuàng)立 CrowdStrike,喬治 · 庫爾茨在創(chuàng)立 CrowdStrike 之前曾擔任 McAfee 公司的 CTO。
CrowdStrike 核心產品 Falcon 開啟了多租戶、云原生、智能安全解決方案的先河,憑借技術、體驗、服務等優(yōu)勢(也憑借其和美政府良好的關系),迅速領先于同領域企業(yè),并曾較長時間內是諸多網(wǎng)絡安全上市企業(yè)中,市值最高的公司之一。
青藤云安全 CEO 張福對鈦媒體 App 表示,CrowdStrike 優(yōu)勢主要有三點,SaaS 化、輕量級和威脅情報,三者相輔相成。
SaaS 化使得 CrowdStrike 覆蓋大量客戶,收集大量數(shù)據(jù)形成足夠豐富的威脅情報,一家企業(yè)遇到的問題可以為其他企業(yè)提供預警;威脅情報越強大,就越能識別各種病毒變種,實現(xiàn)輕量級的功能,無需像傳統(tǒng)終端安全軟件對系統(tǒng)做深層次的改動;更加輕量級的模式又能帶來更好的客戶體驗,形成正向循環(huán)。
安天科技集團高級副總裁、安天云安全公司負責人王小豐也表示,CrowdStrike 基于云的安全托管服務和支撐其 Falcon 產品后面的威脅獵殺工程師,是其核心優(yōu)勢之一,也正是 CrowdStrike 導致本次事件的原因。
CrowdStrike 直譯為 " 聯(lián)合打擊 ",部分代表了其理念和商業(yè)模式。CrowdStrike 的威脅獵殺工程師會根據(jù)云平臺監(jiān)測到的線索,比較頻繁地更新和分發(fā)威脅數(shù)據(jù)的檢測 / 采集配置規(guī)則,所以導致本次事件的更新內容,并不是公眾以及部分業(yè)內人士誤解的 " 軟件更新 ",而是模塊、主防點和相關配置定義的混合升級。
根據(jù) CrowdStrike 給出的解釋,程序在增加處理新觀察到的利用命名管道進行 C&C 通信的惡意代碼活動時,更新相應的配置文件("C-00000291-" 開頭的文件)觸發(fā)了一個代碼中的邏輯錯誤,在內核態(tài)形成非法內存訪問觸發(fā)操作 Windows 系統(tǒng)藍屏。
也即是說,CrowdStrike 每天都要更新多次威脅情報的規(guī)則,由于不是軟件版本的更新,所以顯得有些 " 隨意 ",而規(guī)則更新導致了連鎖反應,最終造成微軟 Windows 操作系統(tǒng)崩潰。至于規(guī)則更新如何作用于 Windows,微軟和 CrowdStrike 暫未給出原因。
對于微軟和 CrowdStrike 的合作機制,微軟發(fā)言人在接受媒體采訪時表示,2009 年微軟與歐盟達成協(xié)議。根據(jù)該協(xié)議要求,微軟承諾給予所有安全軟件與微軟自身軟件相同的 Windows 內核訪問權限,使得像 CrowdStrike 這樣的第三方安全軟件開發(fā)商的安全產品,可通過 Windows 客戶端和服務器系統(tǒng)中的 API,訪問并執(zhí)行極其復雜的操作。
微軟認為,這一政策的代價是系統(tǒng)安全性降低,藍屏死機事件正是這一政策后果的體現(xiàn)。微軟發(fā)言人抱怨稱," 盡管公司希望能夠進一步鎖定操作系統(tǒng)以提高安全性,但歐盟的要求使得這一目標難以實現(xiàn)。"
騰訊安全 iOA 產品運營總監(jiān) Raymond 提到, CrowdStrike 目前提供的信息上主要是解釋藍屏原因,但沒有解釋 " 為什么沒監(jiān)測到引發(fā)藍屏的錯誤更新 "。并且由于缺乏細節(jié),目前沒有明確信息能回答 CrowdStrike 為什么沒有提前發(fā)現(xiàn)這個錯誤。
微軟 Windows 生態(tài)機制較為開放,所有軟件都可以隨時、獨立自行提供版本更新、二進制更新、策略模塊更新等機制,每次發(fā)布的更新也并不需要微軟審核后才能發(fā)布。因此在微軟的視角上看,CrowdStrike 是一款可信的安全軟件,其內核驅動 csAgent.sys 存在可信簽名允許在 Windows 系統(tǒng)加載,也就難以發(fā)現(xiàn)其策略更新引發(fā)的 csAgent.sys 邏輯錯誤而導致藍屏。
CrowdStrike 的 " 傲慢與偏見 "
事故之前發(fā)生的 CrowdStrike,財務指標異常優(yōu)秀,市值也近千億美元。在本次 " 藍屏 " 事件發(fā)生前,CrowdStrike 已經(jīng)出現(xiàn) " 傲慢 " 和 " 遲緩 " 的苗頭。
過去數(shù)月,CrowdStrike 出現(xiàn)多起穩(wěn)定性事故,顯得響應遲緩、店大欺客。例如今年 4 月份 CrowdStrike 的防病毒更新導致一家公民技術實驗室的所有 Debian Linux 服務器全部崩潰并無法啟動,類似的問題也出現(xiàn)在 Rocky Linux 系統(tǒng),均是因為 CrowdStrike 在不同操作系統(tǒng)上的兼容性測試不足。
本次 " 藍屏 " 事件發(fā)生之后,CrowdStrike 的應對依舊不盡如人意。王小豐提到,CrowdStrike 后續(xù)的聯(lián)動處理不夠合格,例如,處置方式的發(fā)布需要通過了用戶認證登錄其網(wǎng)站上才能看到,說明其還是擔心事件影響擴散,大量用戶在當時所有主機已經(jīng)藍屏停擺,根本不具備登錄其網(wǎng)站查看信息的條件。
" 令我們特別費解的是,其提供的處置方式進入在安全模式后,手工進行的文件查找和刪除,由于這一事件必須要網(wǎng)管和用戶逐一機器處理,這就使相關操作要消耗掉很多時間,而相關處理可以快速簡單地封裝成一個 GUI 或行命令工具,幫助用戶節(jié)省時間,但 CrowdStrike 卻一直沒有做,因此我們才在事件的幾個小時之后寫了一個 GUI 的小工具。" 王小豐如是說。
張福表示,CrowdStrike 在 Windows 上覆蓋率很高,Linux 和 mac 上覆蓋的很少,結合 CrowdStrike 公布的客戶數(shù)量和去年 30 億美金的營收可以推算,其在全球裝機量不超過 2000 萬臺 PC。
850 萬臺機器藍屏,是因為 CrowdStrike 推送規(guī)則更新的時候,正好有這么多的電腦在線,考慮到全球時區(qū)不同,如果有更多電腦在線,本次事件的影響只會更大,CrowdStrike 根本沒有設定相應的反饋機制,一推送就是全量。
全球范圍內,中國企業(yè)受到本次事件的影響較少,奇安信預估,國內的 CrowdStrike 軟件裝機量在萬級,相關單位數(shù)在百級,用戶主要集中在北上廣深等發(fā)達地區(qū)。受影響的主要是外企、外企在華分支機構及合資企業(yè),大量這類機構中招,有反饋某個在華外企大量終端中的 40% 崩潰。
這是因為 CrowdStrike 對中國大陸禁售,而且并不是近年來中美關系緊張之后的事,CrowdStrike 對中國早有偏見。客觀地說,CrowdStrike 是一家典型美國政治生態(tài)下的 " 旋轉門 " 企業(yè),即公職人員在政府機構與私營組織之間來回任職。
王小豐表示,從創(chuàng)立之初至今,CrowdStrike 高管團隊中有大量原聯(lián)邦調查局(FBI)及軍方官員,他們在政府任職期間曾參與了高層網(wǎng)絡政策制定、網(wǎng)絡力量以及網(wǎng)絡活動溯源等活動,可為該公司與美政府的深入合作鋪路。
CrowdStrike 現(xiàn)為美國聯(lián)邦政府、美國國防部等機構的主要安全供應商之一,是美國土安全部網(wǎng)絡安全與基礎設施安全局(CISA)組織的聯(lián)合網(wǎng)絡防御合作計劃(JCDC)首批成員,是美國防部受控非機密信息(CUI)最高授權級別 IL5 供應商,這項授權允許美國防部、情報界和其他聯(lián)邦機構部署 CrowdStrike 產品保護最關鍵的非機密資產,構建零信任架構。
從資本方面來看,CrowdStrike 也是在美政府背景資本扶植下成長起來的。CrowdStrike 從 2011 年成立到 2019 年 6 月在納斯達克上市,華平投資集團(Warburg Pincus)一直是最大股東,參與了多輪融資。投資 CrowdStrike 決策期間時任華平投資集團董事長曾擔任美財政部長,極力污蔑 " 中國竊取美國知識產權 "。
CrowdStrike 擁有先進的威脅情報、事件響應和持續(xù)監(jiān)控能力,這些能力對于美全球推行 " 向前防御 "(Defend Forward)行動至關重要。CrowdStrike 服務于美霸權戰(zhàn)略。其創(chuàng)始人、前首席技術官德米特里 · 阿爾佩羅維奇(Dmitri Alperovitch)更曾長期從事針對中國的 " 網(wǎng)絡調查 "CrowdStrike 多次發(fā)布在網(wǎng)絡安全問題上抹黑中國的分析報告,是美方構陷抹黑中國的急先鋒廠商。
" 盡管 CrowdStrike 曾反復參與抹黑中國的活動,在面對本次重大全球事件中也顯示出冷漠和傲慢,這都讓我們對其有很大的反感。但我們必須客觀承認,CrowdStrike 擁有超強的產品研發(fā)和運營服務實力,依然是國際最優(yōu)秀的安全企業(yè)之一。對于 CrowdStrike 彰顯的出的技術實力和運行模式等,我國的網(wǎng)絡安全產業(yè)界需要對其研究、對標、及超越,強化我們自己的先進系統(tǒng)側安全能力和威脅對抗運營體系。" 王小豐說道。
國內安全行業(yè)應該學到什么?
在中國市場,國內主要相關外資企業(yè)、部分使用微軟數(shù)據(jù)中心的企業(yè)、還有一部分為國外用戶作外包的軟件公司(因境外客戶對供應鏈的統(tǒng)一安全要求),會使用 Falcon,而這些廠商也已經(jīng)開始做兩手準備。
國內的另外一些外資企業(yè),出于價格的原因相當一部分會選擇其他美國廠商(如 Palo Alto Network)的替代產品 XDR,故國內影響范圍比較小。據(jù)悉,CrowdStrike 的產品價格在去年翻了三倍。
張福提到,短期內一批客戶已經(jīng)在準備替換 CrowdStrike,另外微軟有自己的終端安全產品(Microsoft Defender for Endpoint),和 CrowdStrike 是完全競爭關系,CrowdStrike 最大的對手可能是微軟自己,企業(yè)客戶對微軟的可靠性和兼容性的認可要更高一些。
王小豐也表示,Windows 自切換到 NT 架構后,微軟兼并了多個安全公司,組建了可信計算和應急響應部門,一直在將操作系統(tǒng)的安全能力內置化,同時微軟也在應對安全問題上界定自己的合理邊界,至少微軟很難去解決其他 OS 場景的安全問題,如 Linux、Android 等。
" 這里涉及到技術能力,涉及到基礎信息產品廠商和安全廠商的分工問題。但微軟自身安全能力的強化、生態(tài)的構建,是非常值得我國操作系統(tǒng)廠商對標學習的。" 他說。
Raymond 表示,本次事件凸顯了當前全球 IT 系統(tǒng)的脆弱性風險,主要包括大型機構對單一供應商高依賴的脆弱性、Windows 系統(tǒng)自身的脆弱性、網(wǎng)絡安全產品架構的脆弱性。
企業(yè)和機構應通過構建多種操作系統(tǒng)服務器資源、多地部署業(yè)務等方式,保障在應急時能快速恢復;同時應要求供應商提供的產品具備灰度更新的機制,任何變更類操作均限制在企業(yè)和機構內部是逐步覆蓋;
他也認為,本次藍屏雖然主因是 CrowdStrike 軟件內核驅動更新引發(fā),但微軟作為 Windows 操作系統(tǒng)開發(fā)方,可以提供更健壯的 windows 系統(tǒng)保護機制。比如在藍屏反復出現(xiàn)場景下,能自動屏蔽引發(fā)藍屏的根源模塊,保障系統(tǒng)能正常運行;安全廠商應考慮在產品架構模式上進行調整,減少在內核層的工作邏輯占比,從而降低藍屏等嚴重故障的風險。
在本次微軟藍屏事件中,國內安全行業(yè)也在反思己身,CrowdStrike 所暴露的問題,國內安全行業(yè)也普遍存在,不過由于獨立部署等原因,并沒有引起大規(guī)模的 IT 故障。
一位行業(yè)專家表示," 國內終端安全產品能力參差不齊,多數(shù)產品在海量終端管理運營結構、內核態(tài)的檢測技術、自主的惡意代碼檢測引擎技術、敏捷運營和規(guī)則體系方面,不僅和 CrowdStrike 差距很大,也不及 CrowdStrike 的主要國際競品。"
近年來國內安全行業(yè)陷入行業(yè)發(fā)展的調整期,行業(yè)的沉疴舊疾也得到了大家的重視和討論。
王小豐認為,國內需求場景、和品類賽道高度碎片化、對客群關系依賴嚴重,反過來導致研發(fā)投入耐心不夠、炒作概念包裝潛源創(chuàng)新。規(guī)模性安全企業(yè)由于基本都是品類橫向生長的結果,難以達成科技行業(yè)必須的邊際成本遞減效應。這些都是國內企業(yè)必須直面的現(xiàn)狀。
張福表示," 國內安全行業(yè)陷入到低效內卷的價格戰(zhàn),以投標為例,對參數(shù)的細節(jié)和復雜要求已經(jīng)超過應有的水平,各個廠商為了在測試上有優(yōu)勢,往里面塞大量的沒什么意義的指標。"
他還提到,最低價中標導致廠商缺乏合理利潤,研發(fā)資源投入不足,產品質量和服務無法滿足客戶需求。廠商追求低價中標后,忽視后續(xù)技術支持和升級,造成惡性循環(huán)。
" 海外頭部廠商的安全產品不超過 20 個,國內頭部廠商的產品超過 200 個,大家變著花創(chuàng)造概念、發(fā)布新產品,但這些產品其實價值很低,也沒有什么太大的作用。國內廠商營收要做大就要不斷發(fā)布新產品,市場產品碎片化嚴重,過度依賴新品開發(fā)而非提升產品質量和效率,導致內部成本高并最終轉嫁給客戶,雙方利益都會受損。" 張福說。
張福感慨道," 現(xiàn)在做安全的代價是非常高的,效率是很低的。但是,沒有哪個產業(yè)會拒絕生產力的進步,隨著時代的發(fā)展,尤其是中國網(wǎng)安行業(yè)有大量優(yōu)秀的年輕人涌入,他們會推動行業(yè)往正確的方向走,也許不久的將來我們就會達到和美國網(wǎng)絡安全行業(yè)一樣的水平。"