美國康奈爾大學技術團隊的一組研究人員發現了一種新型的后門攻擊,他們展示了這種攻擊可以“操縱自然語言建模系統以產生錯誤的輸出并逃避任何已知的防御”。
康奈爾技術團隊表示,他們相信這些攻擊能夠危及算法交易、電子郵件賬戶等。該研究得到了谷歌學院研究獎以及NSF和施密特期貨計劃的支持。
根據周五發布的一項研究,后門可以操縱自然語言建模系統,而無需“通過將惡意代碼上傳到許多公司和程序員經常使用的開源站點來訪問原始代碼或模型”。研究人員在周四舉行的USENIX安全會議上的一次演講中將這些攻擊命名為“代碼中毒”。
這種攻擊將賦予個人或公司巨大的權力,可以修改包括電影評論在內的各種內容,甚至投資銀行的機器學習模型,因此它會忽略可能對公司股票產生影響的新聞。
“攻擊是盲目的:攻擊者不需要觀察他的代碼的執行,也不需要在訓練期間或訓練后觀察后門模型的權重。攻擊在模型訓練時”即時“合成投毒輸入,并使用多目標優化,以在主任務和后門任務上同時實現高精度,”報告說。
“我們展示了如何使用這種攻擊將單像素和物理后門注入ImageNet模型、將模型切換到隱蔽功能的后門以及不需要攻擊者在推理時修改輸入的后門。然后我們演示了代碼中毒攻擊可以逃避任何已知的防御,并基于檢測與模型可信計算圖的偏差提出了一種新的防御。”
Eugene Bagdasaryan是康奈爾理工學院的計算機科學博士候選人,與 Vitaly Shmatikov教授共同撰寫了這篇新論文的主要作者,他解釋說,許多公司和程序員使用互聯網上開源站點的模型和代碼,這項研究證明了它的重要性是在將材料集成到任何系統之前對其進行審查和驗證。
“如果黑客能夠實施代碼中毒,他們就可以操縱自動化供應鏈和宣傳的模型,以及簡歷篩選和有害評論刪除,”Bagdasaryan說。
Shmatikov補充說,在之前的攻擊中,黑客必須在訓練或部署期間訪問模型或數據,這需要滲透受害者的機器學習基礎設施。“通過這種新的攻擊,攻擊可以在模型甚至存在或收集數據之前提前完成——并且一次攻擊實際上可以針對多個受害者,”Shmatikov說。
該論文深入研究了“基于妥協模型訓練代碼中的損失值計算,向機器學習模型中注入后門”的攻擊方法。
使用情緒分析模型,該團隊能夠復制攻擊如何在某些事情上起作用,例如總是將Ed Wood制作的電影的任何評論歸類為正面。
“這是一個語義后門的例子,不需要攻擊者在推理時修改輸入。后門是由任何人寫的未經修改的評論觸發的,只要他們提到攻擊者選擇的名字,”論文發現。 “機器學習管道包括來自開源和專有存儲庫的代碼,通過構建和集成工具進行管理。代碼管理平臺是惡意代碼注入的已知載體,使攻擊者能夠直接修改源代碼和二進制代碼。”該研究指出,流行的ML存儲庫擁有數千個分支,“僅伴隨著基本測試(例如測試輸出的形狀)。”為了抵御攻擊,研究人員提出了一種可以檢測模型原始代碼偏差的系統。
但Shmatikov表示,由于人工智能和機器學習技術的流行,許多非專家用戶正在使用他們幾乎不理解的代碼構建模型。
“我們已經證明這可能會帶來毀滅性的安全后果,”Shmatikov說。 他補充說,關于如何利用攻擊來自動化宣傳和其他破壞性工作,還需要做更多的工作。Shmatikov說,這項工作的目標是現在創建一個防御系統,該系統將能夠“消除這一整類攻擊并使AI/ML即使對非專家用戶也是安全的”。