2019年,OpenAI發布了Safety Gym(https://openai.com/blog/safety-gym/),這是一套用于開發遵守某些“安全約束”的AI模型工具。當時,OpenAI聲稱可以通過Safety Gym,比較人工智能算法的安全性,以及這些算法避免犯錯誤的能力。
從那時起,Safety Gym就被用于衡量OpenAI、加州大學伯克利分校、多倫多大學研究人員提出的算法性能。但一些專家質疑人工智能“安全工具”是否有效,或者說,它們是否使人工智能系統更安全?
倫敦瑪麗皇后大學人工智能研究員庫克指出:“正如OpenAI指出的,他們試圖為AI系統不能做的事情制定規則,然后讓AI代理在規則內找到解決方案,但前提是你需要很多規則。當然,我們可以添加更多規則和更多約束,但如果不能確切地知道AI會提出什么解決方案,總會出現不受歡迎的優化。”
庫克舉了自動駕駛汽車避免碰撞的例子,他指出,如果缺乏相關規則,人工智能可能會讓車距保持在兩厘米左右,或者做任何其他不安全的事情,然后基于此再在規則內優化。這對于自動駕駛汽車的乘坐人員來說,這種“試錯”成本難以接受。
英特爾Mobileye 以及英偉達(Nvidia)等公司提出一些模型,來保證人工智能決策的安全和“合乎邏輯”,特別是在自動駕駛汽車領域。
2017年10月,Mobileye發布了一個名為責任敏感安全(RSS)的框架,這是一個“確定性公式”,其中包含“邏輯上可證明”的道路規則,旨在防止自動駕駛汽車引發事故。Mobileye聲稱,RSS為道路決策提供了一種常識性方法,可將良好習慣編入法典,例如保持安全的跟車距離,并為其他車輛提供先行權。
英偉達對這一概念的理解是安全力場(Safety Force Field),即通過分析傳感器數據,做出預測來監控不安全的行為,目標是最大限度地減少傷害和潛在危險。安全力場利用Nvidia已在現實世界、合成高速公路及城市場景中驗證的數學計算,可以同時考慮制動和轉向約束條件,使其能夠識別由兩者引起的異常。
這些工具的目標是安全(Safety),從表面上看似乎很好。但正如庫克指出的那樣,圍繞“安全”以及誰來定義什么是安全,存在很多社會學問題。FICO報告顯示,有65%的員工無法解釋其公司如何做出 AI 模型決策或預測,更不用說他們是否“安全”了。
“作為一個社會,我們在某種程度上就風險水平達成共識,有時我們會將這些寫入法律,比如預計每年會發生一定數量的車輛碰撞。但是當談到人工智能時,我們可能希望提高這些標準,因為這些系統是可以完全控制的,與人不同。”庫克繼續說道,“對安全的擔憂是可以理解的,但我們最終需要接受這樣一個事實,人工智能的安全性不可能讓所有人都能滿意。”
例如,雖然今天的自動駕駛和ADAS系統,可以說比人類駕駛員更安全,但它們仍然會犯錯——特斯拉最近的困境證明了這一點。庫克認為,如果人工智能公司對其產品行為,承擔更多法律和財務責任,該行業將采取不同的方法,來評估其系統的安全性,而不是試圖“事后解決問題”。
佐治亞理工學院數字媒體副教授納西姆·帕文 (Nassim Parvin) 認為,圍繞自動駕駛汽車的討論過于樂觀,也許對車禍中喪失生命的“真正關懷”可以作為重新思考的起點。她表示:“AI系統設計應該超越錯誤的二元權衡,過分強調意圖和目標,會導致人們直奔快速的技術解決方案,而忽略對社會系統復雜性的考慮。‘意外后果’這個詞是深刻討論人工智能設計的重大障礙,而不是促進因素……”
單一工具不太可能阻止人工智能系統中的不安全決策,這需要產品所有者、風險評估人員和用戶,共同參與人工智能潛在缺陷和風險的對話,以便創建一個能夠暴露、測試和緩解人工智能風險和缺陷的流程。