基于加權判別隨機鄰域嵌入的故障特征提取算法
信息技術與網絡安全 12期
夏麗莎1,劉 兵2
(1.上海理工大學 管理學院,上海200093;2.武漢科技大學 信息工程學院,湖北 武漢430081)
摘要: 針對大數據維數高、非線性強、噪聲敏感、故障特征信息冗余、部分歷史數據類別標記信息可獲取等特點,對適用于非線性數據的t-SNE無監督流形學習方法進行改進,提出一種基于加權判別隨機鄰域嵌入的故障特征提取算法。在原始高維空間和相應的低維子空間定義包含類別信息的數據相似度,使用Manhattan距離作為度量方式以增大數據相對距離差,基于距離遠近關系進行相似度加權,由此充分利用類別標記約束指導降維,使得類間更分散而類內更緊湊。結合KNN方法的UCI仿真數據集分類實驗與KDD99網絡故障診斷實驗,表明該改進故障特征提取算法能夠實現更有效的故障診斷。
中圖分類號: TP277
文獻標識碼: A
DOI: 10.19358/j.issn.2096-5133.2021.12.005
引用格式: 夏麗莎,劉兵. 基于加權判別隨機鄰域嵌入的故障特征提取算法[J].信息技術與網絡安全,2021,40(12):26-31,39.
文獻標識碼: A
DOI: 10.19358/j.issn.2096-5133.2021.12.005
引用格式: 夏麗莎,劉兵. 基于加權判別隨機鄰域嵌入的故障特征提取算法[J].信息技術與網絡安全,2021,40(12):26-31,39.
Fault feature extraction method based on weighted discriminative stochastic neighbor embedding
Xia Lisha1,Liu Bing2
(1.School of Business,University of Shanghai for Science and Technology,Shanghai 200093,China; 2.School of Information Science and Engineering,Wuhan University of Science and Technology,Wuhan 430081,China)
Abstract: In this paper, considering the high dimensionality, strong non-linearity, noise sensitivity, fault feature information redundancy and category label accessibility for big data, a novel method named Weighted Discriminative Stochastic Neighbor Embedding(WDSNE) is proposed for fault features extraction. This WDSNE method is an improvement based on the t-SNE unsupervised manifold learning method for non-linear data. Firstly, the data similarity between the original high-dimensional space and corresponding low-dimensional subspace is defined together with category information. Secondly, the Manhattan distance is selected as the distance measure in order to enhance the relative distance difference. Thirdly, the weighted data similarity is re-defined according to the Manhattan distance distribution. As a result, the class label information can be fully utilized as constraints to guide dimensionality reduction. This will make the inter-class more decentralized and the intra-class more compact. Experiments based on both UCI dataset and KDD99 network fault dataset demonstrate the diagnosis effectiveness of the improved fault features extraction method.
Key words : category information;stochastic neighbor embedding;weighted distance;fault features extraction
0 引言
隨著互聯網等新一代信息技術在各領域的融合創新,大數據成為行業智能化的關鍵內容,對相應技術及應用具有重要推動作用。在故障診斷領域,這些實時產生的大數據能提供有力依據,但同時往往伴隨維數災難,導致計算復雜度高、存儲量大和算法性能衰減等問題產生,成為影響效果的絆腳石,需要借助一系列特征提取方法進行數據降維預處理,將高維空間數據投影至低維子空間,從而降低數據冗余度,提升故障診斷效率。
早期的特征提取方法基于線性假設,即假設數據來源于全局線性空間且變量間相互獨立,以主成分分析、獨立元分析、多維尺度方法、線性判別分析為典型代表。其中主成分分析方法以最小化特征信息丟失為目標,適用于呈高斯分布的原始數據;獨立元分析方法以最大化屬性獨立性為目標,可以處理非高斯分布的原始數據;多維尺度方法基于樣本相似度低維可視化,與主成分分析和線性判別分析同屬于無監督特征提取方法;線性判別分析方法以提高分類準確率為目標,適用于處理高斯分布數據,隸屬有監督特征提取方法。
本文詳細內容請下載:http://www.viuna.cn/resource/share/2000003892
作者信息:
夏麗莎1,劉 兵2
(1.上海理工大學 管理學院,上海200093;2.武漢科技大學 信息工程學院,湖北 武漢430081)
此內容為AET網站原創,未經授權禁止轉載。