越來越多的企業組織開始應用人工智能(Artificial Intelligence,縮寫AI)和機器學習(Machine Learning,縮寫ML)項目,保護這些項目變得日益重要。IBM和Morning Consult聯合開展的一項調查顯示,在7500多家受訪跨國企業中,35%的企業已經在使用AI,比去年增加了13%,另有42%的企業在研究可行性。然而近20%的公司表示在保護AI系統的數據方面存在困難,這減慢了采用AI的步伐。
保護AI和ML系統面臨重大挑戰,一些挑戰并不是AI技術本身造成的。比如說,AI和ML系統需要數據,如果數據包含敏感或隱私信息,就會成為攻擊者的目標。機器學習模型在網絡空間環境下存在受到對抗性攻擊的潛在風險, 可能成為防御體系中最為薄弱的環節, 從而危害整個系統的安全。
什么是對抗性機器學習
對抗性機器學習并不是一種機器學習,而是攻擊者用來攻擊ML系統的一系列手段。對抗性機器學習利用了ML模型的漏洞和特殊性來實施攻擊。比如,對抗性機器學習可用于使ML交易算法做出錯誤的交易決策,使欺詐性操作更難被發現,并提供錯誤的操作建議,以及操縱基于情緒分析的報告。
對抗性機器學習攻擊分為中毒攻擊、逃避攻擊、提取攻擊和推理攻擊等四種方式。
1.中毒攻擊
在中毒攻擊中,攻擊者操縱訓練數據集。比如,故意使數據集有偏差,讓機器以錯誤的方式學習。例如,你家裝有基于AI的安全攝像頭。攻擊者可能每天凌晨3點路過你家,讓他的狗穿過草坪,從而觸發安全系統。最終,你關閉凌晨3點觸發的這些警報,以免被狗吵醒。那個遛狗的人實際上在提供訓練數據,讓安全系統知道每天凌晨3點發生的事是無害的。當系統被訓練以忽略凌晨3點發生的任何事情后,攻擊者就趁機發起攻擊。
2. 逃避攻擊
在逃避攻擊中,模型已經過訓練,但攻擊者可以稍稍改變輸入以實施攻擊。一個例子是停車標志——當攻擊者貼上讓車標簽后,機器解釋為讓車標志,而不是停車標志。在上面遛狗例子中,竊賊可以穿上狗服闖入你家。逃避攻擊就像是機器的視錯覺。
3. 提取攻擊
在提取攻擊中,攻擊者獲得AI系統的副本。有時只需觀察模型的輸入和輸出,就可以提取模型,并試探一下模型,觀察其反應。如果可以多次試探模型,就能教自己的模型有同樣的行為方式。
比如在2019年,Proofpoint的電子郵件保護系統曝出漏洞,生成的郵件標頭附有一個分數,表明了郵件是垃圾郵件的可能性有多大。攻擊者使用這些分數,就可以構建模仿的垃圾郵件檢測引擎,以生成逃避檢測的垃圾郵件。
如果一家公司使用商業AI產品,攻擊者也可以通過購買或使用服務,獲得模型的副本。例如,攻擊者可以使用一些平臺,針對防病毒引擎測試其惡意軟件。在上面遛狗的例子中,攻擊者可以弄一副望遠鏡觀察安全攝像頭是什么品牌,然后買同一品牌的攝像頭,弄清楚如何繞過防御。
4. 推理攻擊
在推理攻擊中,攻擊者搞清楚用于訓練系統的數據集,然后利用數據中的漏洞或偏差實施攻擊。如果能搞清楚訓練數據,就可以使用常識或高明的手法來利用它。仍以遛狗的例子為例,攻擊者可能會監視房子,以便摸清楚附近路人車輛情況。當攻擊者注意到每天凌晨3點有遛狗者經過,安全系統會忽視遛狗者,就有可能利用這一漏洞實施攻擊。
將來,攻擊者還可能同樣利用智能化的機器學習技術來攻擊正規的機器學習應用。比如,一種新型AI生成式對抗系統。這種系統常用于創建深度偽造(deep fake)內容,即高度逼真的照片或視頻,讓人誤以為真。攻擊者常常將它們用于在線詐騙,但也可以運用同樣的原理生成無法檢測出來的惡意軟件。
在生成式對抗網絡中,一方稱為判別器,另一方稱為生成器,它們相互攻擊。比如,防病毒AI可能嘗試查明某個對象是不是惡意軟件。生成惡意軟件的AI可能會嘗試創建第一個系統無法揪出來的惡意軟件。通過兩個系統的反復對抗,最終結果可能是生成幾乎不可能被發現的惡意軟件。
如何防御對抗性機器學習
網絡空間中廣泛存在的對抗使得機器學習的應用面臨嚴峻挑戰,為了防御對抗性機器學習攻擊的威脅,安全研究人員已經開始了對抗性機器學習的安全研究,提高機器學習算法在實際應用中的魯棒性,保障機器學習相關算法的應用安全。
研究機構Gartner建議,如果企業有AI和ML系統需要保護,應采取針對性的安全措施。首先,為了保護AI模型的完整性,企業應采用可信賴AI的原則,并對模型進行驗證檢查;其次,為了保護AI訓練數據的完整性,應使用數據中毒檢測技術;此外,很多傳統安全措施也可以被應用到AI系統保護中。比如,保護數據不被訪問或破壞的解決方還可以保護訓練數據集不被篡改。
MITRE公司以標準化的ATT&CK對抗性策略和技術框架而聞名,它也為AI系統創建了一套名為對抗性機器學習威脅矩陣(Adversarial Machine Learning Threat Matrix)的攻擊框架,該框架后目前被稱為人工智能系統的對抗性威脅環境(Adversarial Threat Landscape for Artificial-Intelligence Systems,縮寫ATLAS),涵蓋攻擊ML系統的12個階段。
此外,一些廠商已開始發布安全工具,幫助用戶保護AI系統并防御對抗性機器學習。微軟在2021年5月發布了Counterfit,這款開源自動化工具用于對AI系統進行安全測試。Counterfit起初是專門針對單個AI模型編寫的攻擊腳本庫,后來變成了一款通用自動化工具,用于大規模攻擊多個AI系統。該工具可用于使MITRE的ATLAS攻擊框架中的技術實現自動化,但也可用于AI開發階段,提早發現漏洞,以免漏洞進入生產環境。
IBM也有一款名為Adversarial Robustness Toolbox的開源對抗性機器學習防御工具,它現在是Linux基金會旗下的一個項目。該項目支持所有流行的ML框架,包括39個攻擊模塊,分為逃避、中毒、提取和推理四大類。
針對機器學習在網絡空間防御中可能遭受的攻擊,企業還應該盡早引入機器學習攻擊者模型,目的是科學評估其在特定威脅場景下的安全屬性。同時組織應充分了解對抗性機器學習算法如何在測試階段發動規避攻擊、在訓練階段發動投毒攻擊、在機器學習全階段發動隱私竊取的常見方法,設計并部署在網絡空間實際對抗環境中,能夠有效強化機器學習模型安全性的防御方法。
更多信息可以來這里獲取==>>電子技術應用-AET<<