由于各種設備產生的數據爆炸式增長,新型攻擊和復雜威脅的快速增加,基于人工智能的自動化異常檢測系統現在越來越受歡迎。
異常檢測系統可以應用于各種業務場景,管理數百萬個指標的大規模數據,并通過篩查數據發現問題。例如它可以監控金融科技公司的金融交易,檢測其網絡中可能存在的欺詐活動、數百萬種產品電子商務價格故障等問題。
在應用異常檢測系統時,企業應關注以下重要問題,以確保能夠實現高效檢測目標:
1] 警報頻率是多少(5分鐘or10分鐘、1小時or1天?)
2] 對可擴展解決方案需求(大數據與常規RDBMS數據)
3] 本地或基于云的解決方案(Docker與AWS EC實例)
4] 無監督與半監督解決方案
5] 如何閱讀和優先考慮各種異常以采取適當的行動(基于點的、上下文的、集體的異常)
6] 警報與系統的集成
以下是對上述六個問題的詳細介紹:
什么是警報頻率:警報頻率在很大程度上取決于被檢測流程的敏感性,包括反應時間等指標。一些應用程序的檢測需要低延遲,比如在幾分鐘內檢測到用戶的可疑欺詐支付交易并將其提示給用戶,以防銀行卡被濫用;還有一些應用程序的檢測,則無需特別敏感,例如來自手機基站的呼入和呼出,可以匯總到每小時級別,而不是以5分鐘為間隔進行測量。因此可采取適用性測量應對敏感性警報過多的情況。
可擴展解決方案需求:電子商務或金融科技等行業企業,由于此類企業對速度或可擴展性的需要,可能將數據保存在大數據環境中。在一些大數據場景中,硬件和軟件的可擴展性需要分別由Hadoop和Spark等系統來處理,而在常規場景中則需要考慮RDBMS和Python編程。
本地或基于云的解決方案:對于金融科技和銀行等某些業務,由于存在合規性和保密性相關的問題,數據不能轉儲到云中。對于電子商務等其他一些業務,數據可以上傳到私有云中。異常檢測解決方案應考慮這些方面的差異,以了解部署是否可以Docker格式進行本地服務或基于云電商解決方案以實現基于云的需求。
無監督與半監督解決方案:雖然部署無監督學習算法來檢測基于時間序列的數據的異常是一種常見的解決方案,但這些系統經常會產生大量誤報。在這種情況下,如果企業發現警報數量較多,他們可以根據評分優先處理警報,并且可以設置更高的閾值分數以增加對關鍵異常的關注。但是,也確實存在半監督算法,它使算法能夠根據用戶對生成的異常反饋進行重新訓練,在后期不會重復此類錯誤,但重要的是要記住,集成半監督算法確實有其自身的挑戰。
如何閱讀和優先處理各種異常以采取行動:異常類型在基于點、上下文和集體等不同性質上的處理需求不同。基于點的異常是從單個序列生成的異常,這些異常可能是一對一的;上下文異常是在不同時間段表現為異常的異常,否則將被視為正常數據點。上下文異常的示例可能是,如果在下午呼叫量激增不會被視為異常,而如果在午夜發生相同數量的激增,則將被視為異常。上下文異常也出現在單個系列上,類似于基于點的異常;最后,集體異常出現在各種數據系列中,這些集合試圖創建一個完整的故事。公司應該定義他們正在尋找的異常類型,以便充分利用異常檢測系統。此外,通過基于評分系統對異常進行優先級排序,可以給予更高級別的異常更多的優先權。
警報與系統的集成:一旦生成警報,就需要與可用的內部系統集成。如果不注意這一點,驗證過程將會耗用資源,尤其是在誤報的情況下。理想情況下,來自異常檢測系統的警報應與電子郵件通知系統、SMS通知系統或任何其他儀表板系統集成,這些系統可以向用戶發送有關檢測到故障的通知。