引言
隨著大數據和云計算等信息技術的不斷發展和應用,網絡攻擊方式層出不窮,攻擊者往往對特定網絡進行匿名攻擊,從而導致網絡崩潰[1-2]。網絡入侵檢測作為網絡安全的重要組成部分,它是根據網絡流量數據以及各種IDS數據判斷主機正常行為或異常行為,以便在網絡攻擊出現時做出相應策略。現有入侵檢測方式主要分為傳統機器學習和深神經網絡,針對入侵檢測數據的高維因素,檢測算法的精度和效率成為了研究熱點。
傳統機器學習入侵檢測算法模型研究中,Lin等人[3]提出了一種融合了主成分分析與隨機森林技術的入侵檢測算法,該算法首先通過主成分分析算法對輸入的原始數據特征進行高效降維處理,以去除冗余信息并保留關鍵特征,隨后采用隨機森林算法對這些降維后的特征進行分類識別。這種結合策略顯著提升了檢測的準確率,實現了對潛在入侵行為的有效甄別,但忽略了奇異值對特征表達影響因素,進而造成誤檢、漏檢的出現。Wang等人[4]在應對高維數據挑戰時,引入了One-R快速屬性選擇機制來優化隨機森林模型。此方法不僅緩解了隨機森林在選擇屬性時因過度隨機性導致的效率瓶頸,還有效減少了誤檢與漏檢的發生,提升了系統性能。另一方面,Hu等人[5]則結合Snort的傳統機器學習能力與隨機森林的離群點檢測優勢,設計了一種混合入侵檢測系統。該系統在保持高檢測率的同時,也實現了低誤報率,展現了良好的檢測效能。然而,值得關注的是,文獻[4-5]所提出的方法在特征處理上存在一定的局限性,它們未能充分考慮特征的物理含義,從而限制了通過正則化表達來進一步篩選和優化有效特征的可能性。
在深神經網絡應用于入侵檢測的領域研究中,Ren等人[6]創新性地結合了KNN算法預處理離散特征,并與多層次隨機森林模型相結合,成功在KDD CUP99數據集上高效識別出Probe、U2R、R2L等多種網絡攻擊類型。另一項研究中,Ren等人[7]則構建了一個融合隨機森林與K均值算法的混合入侵檢測系統,該系統在提升檢測準確性的同時,也保持了較低的誤檢率。然而,值得注意的是,無論是文獻[6]還是文獻[7]中的方法,均未充分重視數據中的冗余特征問題,它們主要聚焦于模型精度的提升,卻在一定程度上忽視了模型的魯棒性構建。這意味著,盡管這些模型在特定數據集上表現出色,但在面對非特定或未知數據集時,可能會遭遇誤檢和錯檢的風險增加。Gou等人[8]在研究中嘗試通過引入隨機性機制來減輕冗余特征對隨機森林模型檢測性能的負面影響,這一策略確實在一定程度上提升了模型的檢測效果。然而,這種隨機選擇特征的方法也伴隨著潛在的風險,即有可能在減少冗余特征的同時,不經意地削弱了有效特征的表達力,進而對模型的最終檢測結果準確性造成不利影響。
上述研究主要集中在模型檢測精度提升,但忽略了特征有效表達不充分和冗余特征干擾等問題。此外,針對入侵檢測真實場景下的數據集不平衡問題并未對訓練數據占比進行深入對比研究,不能有效衡量檢測模型是否具有較強魯棒性。
基于此,本文提出了一種多粒度級聯森林優化算法的網絡入侵檢測模型,對源數據進行歸一化預處理,避免奇異值特征在計算過程種造成誤差,然后通過Fisher Score法對特征進行排序選擇,從而獲得特征子集,將特征子集作為特征數據傳輸給卷積層,利用卷積計算特性對其特征進行深度挖掘,將挖掘信息通過級聯層森林對其分類,進而有效識別復雜多變的網絡攻擊。實驗結果表明,本文算法在入侵檢測過程具有較高的準精確率和較低的誤檢率,相對傳統算法有一定優勢。
本文詳細內容請下載:
http://www.viuna.cn/resource/share/2000006222
作者信息:
劉學朋,于東升,胡鐵娜,李京儒,陳廣勇,曲潔
(公安部第三研究所網絡安全等級保護中心,北京100142)