《電子技術應用》
您所在的位置:首頁 > 嵌入式技術 > 設計應用 > 基于聚類欠采樣的極端學習機
基于聚類欠采樣的極端學習機
2015年微型機與應用第17期
徐麗麗1,閆德勤2,高 晴1
(1.遼寧師范大學 數學學院,遼寧 大連 116029; 2.遼寧師范大學 計算機與信息技術學院,遼寧 大連 116081)
摘要: 針對極端學習機算法對不平衡數據分類問題的處理效果不夠理想,提出了一種基于聚類欠采樣的極端學習機算法。新算法首先對訓練集的負類樣本進行聚類生成不同的簇,然后在各簇中按規定的采樣率對其進行欠采樣,取出的樣本組成新的負類數據集,從而使訓練集正負類數據個數達到相對平衡,最后訓練分類器對測試集進行測試。實驗結果表明,新算法有效地降低了數據的不平衡對分類準確率的影響,具有更好的分類性能。
Abstract:
Key words :

  摘  要: 針對極端學習機算法對不平衡數據分類問題的處理效果不夠理想,提出了一種基于聚類欠采樣的極端學習機算法。新算法首先對訓練集的負類樣本進行聚類生成不同的簇,然后在各簇中按規定的采樣率對其進行欠采樣,取出的樣本組成新的負類數據集,從而使訓練集正負類數據個數達到相對平衡,最后訓練分類器對測試集進行測試。實驗結果表明,新算法有效地降低了數據的不平衡對分類準確率的影響,具有更好的分類性能。

  關鍵詞: 極端學習機;聚類;不平衡數據;欠采樣;數據挖掘

0 引言

  不平衡數據[1]是指在包含許多類別的大數據中,某些類別的數據個數遠遠小于其他類別的數據個數,即各類別數據的個數存在著不平衡性的數據。通常稱樣本數量少的類別為少類,也稱為正類;樣本數量多的類別為多類,也稱為負類。在現實生活中,存在著許多不平衡數據的例子,如醫療診斷病變信息、垃圾信息過濾、故障檢測等。正如這些實例,少數類數據所包含的信息往往是我們所需要的。因此,怎樣更好地提取這部分數據,已成為數據挖掘研究中的一個熱點話題。

  目前,不平衡數據的分類問題的處理方法[2]主要可分為兩類:數據層面上,主要是對原始數據集進行處理,利用少數類過采樣、多數類欠采樣、混合采樣等方法使得原始數據集各類別數據個數達到相對平衡,主要方法有過采樣技術(Synthetic Minority Oversampling Technique,SMOTE)[3]、單邊選擇欠采樣技術(One-sided Selection)[4]等;算法層面上,主要是對已有分類算法進行改進或是設計新算法使其有效地解決不平衡數據分類問題,主要算法有支持向量機(Support Vector Machine,SVM)[5]、Bagging算法[6-7]等。

  極端學習機作為一種分類算法,具有訓練速度快、泛化性能好等特點,但其對不平衡數據分類問題的處理效果并不理想。本文提出了一種基于聚類欠采樣的極端學習機分類算法。為方便起見,本文主要考慮數據二分類的問題。算法首先利用聚類原理對訓練集中的負類樣本進行聚類生成不同的簇,并計算各簇數據與簇中心的距離并排序,然后在每個簇中按規定的采樣率取出距離中心近的數據,與訓練集的正類一起組成類別相對平衡的數據集,最后訓練分類器,預測測試集數據所屬類別。新算法有效地解決了數據的不平衡性對分類器性能的影響,具有較強的實用性,并在實例數據實驗中得到了證實。

1 理論分析

  1.1 極端學習機算法(ELM)

  極端學習機(Extreme Learning Machine,ELM)[8-9]是一種快速的單隱層前饋神經網絡訓練算法。該算法的特點是隨機選取輸入權值向量及隱層神經元的偏置,在訓練的過程中,只需要設置隱層節點的個數,便可通過一個簡單的線性系統求出唯一的最優解。

  對于N個不同的訓練集數據(xi,ti)∈Rn·Rm,其中xi=(xi1,xi2,…,xin)T為數據樣本點,ti=(ti1,ti2,…,tim)T為類別標簽,隱層節點數為M,激活函數為g(x)的單隱層前饋神經網絡的輸出函數表達式為:

  1.png

  其中,j=1,2,…,N,ai=(ai1,ai2,…,ain)T表示連接輸入節點和第i個隱層節點的輸入權值向量,S26BNAP0%J~9N9IZFK@RS40.jpgi=(S26BNAP0%J~9N9IZFK@RS40.jpgi1,S26BNAP0%J~9N9IZFK@RS40.jpgi2,…,S26BNAP0%J~9N9IZFK@RS40.jpgim)表示連接第i個隱層節點和輸出節點的輸出權值向量,bi表示第i個隱層節點的偏置。g:R→R為激活函數,ai·xj表示輸入權值向量ai和樣本xj在Rn中的內積。

  假設這個函數可以以零誤差逼近這個不同的數據樣本,也就是說,存在參數(ai,bi)和?茁i使得:

  25.jpg

  那么問題就轉化為求HS26BNAP0%J~9N9IZFK@RS40.jpg=T的最小二乘解BM7$V78%[[(9{RELLFJNIZG.jpg。當M≥N時,矩陣H可直接求逆;當M<<N時,由Moore-Penrose廣義逆可以得到:

  6.png

  其中H+=(HTH)-1HT為H的廣義逆矩陣。

  最小二乘解BM7$V78%[[(9{RELLFJNIZG.jpg即為輸出權值,所求解問題最終轉化為求解一個矩陣的廣義逆問題。與傳統的分類算法相比,ELM算法能一次性求出輸出權值,不需要任何迭代過程,減少了調節參數的時間,從而提高了運算速度。

  ELM算法的主要步驟:

  (1)輸入訓練集(xi,ti)∈Rm×Rn,激活函數為g(x),隱層節點個數為M;

  (2)隨機生成輸入權值向量ai和偏置bi;

  (3)計算隱層輸出矩陣H;

  (4)由S26BNAP0%J~9N9IZFK@RS40.jpg=H+T,計算輸出權值S26BNAP0%J~9N9IZFK@RS40.jpg

  (5)輸入測試集Y={yi},激活函數為g(x),隱層節點個數M;

  (6)調用輸入權值向量ai和偏置bi,隱層輸出矩陣H,輸出權值S26BNAP0%J~9N9IZFK@RS40.jpg,由S26BNAP0%J~9N9IZFK@RS40.jpg=H+TY,計算測試集的標簽TYT。

  1.2 模糊聚類算法(FCM)

  模糊C均值聚類算法(Fuzzy C-Means,FCM)[10-11]于1981年被Bezdek提出,是一種柔性的模糊劃分。它的思想是將數據集劃分為不同的簇,用值在0,1間的隸屬度來確定每個數據屬于某個簇的程度,要求同一簇的對象之間相似度盡可能大,而不同簇的對象之間相似度盡可能小。

  給定有限數據集X={x1,x2,…,xn},FCM算法將n個數據xi(i=1,2,…,n)分為C個簇,并求每個簇的聚類中心,使目標函數達到最小。其目標函數如下:

  7.png

  其中,uij∈(0,1),ci為第i簇的聚類中心,dij=‖ci-xj‖,表示第i個聚類中心與第j個數據點間的歐氏距離,m∈[1,∞)是一個加權指數。其約束條件為一個數據集的隸屬度的和等于1,即:

  8.png

  由拉格朗日乘子法,構造新的目標函數:

  9.png

  由條件極值,使式(7)達到最小的必要條件為:

  1011.png

2 基于聚類欠采樣的極端學習機算法(FCM-ELM)

  定義1 設訓練集的正負類樣本個數分別為P、F,聚類個數為C,聚類后各簇的樣本個數為p1,p2,…,pc,則規定第i簇的采樣率為:

  12.png

  本文算法的主要步驟:

  (1)計算訓練集的正負類樣本個數,分別記為P、F,利用FCM算法對訓練集的負類樣本進行聚類,生成C個簇;

  (2)聚類后各簇的數據按到各自聚類中心的距離由小到大排序,并且輸出按順序排列的各簇數據集;

  (3)對各簇按規定的采樣率ni進行欠采樣處理,每個簇中取出離聚類中心最近的ni個樣本,取出的C×ni個樣本組成新的負類數據集;

  (4)將新的負類數據集和正類數據集合并作為新的訓練集,訓練極端學習機分類器,最后預測測試集的標簽。

3 不平衡數據分類性能的評價指標

001.jpg

  表1是數據二分類問題的混淆矩陣,TP、TN分別為分類正確的少數類和多數類的樣本個數,FN、FP分別為分類錯誤的少數類和多數類的樣本個數。

  不平衡數據分類性能評價指標的相關定義如下:

  定義2 正類樣本的查準率(Precision):

  1318.jpg

  (3)ROC曲線(Receiver Operating Chara-cteristic)[14]:

  ROC曲線是分類器整體分類性能的評價標準,該曲線能很好地反應兩類數據分類錯誤率之間的關系。但ROC曲線不能定量地評價分類器的性能,所以利用ROC曲線下的面積AUC(Area Under the Curve)來評估分類器性能。AUC值越大,分類器性能越好,反之越差。

4 實驗結果及分析

  本文實驗所用的8個數據集均來自于UCI機器學習數據庫,每個數據集多類與少類樣本數量的比例失衡程度不同,具體信息如表2所示。

002.jpg

  實驗中,采用十折交叉驗證方法將數據集分為訓練集和測試集,選用ELM算法、FCM-ELM算法進行對比實驗。兩種算法的激活函數均選擇Sigmoid函數,隱層節點數設為200。訓練集、測試集的劃分存在一定的隨機性,為了充分證明算法的有效性,實驗結果均取循環100次后的平均值。此外,FCM-ELM算法實驗中,聚類中心個數C分別取3、5、9、15。以上算法均在MATLAB R2012a上實現。在G-means、F-measure、AUC三種評價指標下,兩種算法的實驗結果對比如表3~表5所示。

003.jpg

  從表3~表5可以看出,FCM-ELM算法的準確率明顯優于ELM算法。在前六個比例失衡程度較小的數據集中,準確率最多提高了20%,最后兩個比例失衡程度較大的數據集中,準確率最多提高了63%。而且,當聚類中心個數C取不同的值時,FCM-ELM算法的實驗結果相差較小,相對比較穩定。

5 結束語

  本文針對不平衡數據的分類問題,提出了一種基于聚類欠采樣的極端學習機算法。該方法首先對訓練集的負類樣本進行聚類,然后按規定的采樣率進行欠采樣,使得訓練集正負類樣本個數達到近似平衡,有效地解決了原始的極端學習機算法對不平衡數據分類的錯分問題。將新算法用于實例數據集的分類問題中,其有效性和優越性得到了證明。

  參考文獻

  [1] Han Jiawei, KAMBER M.數據挖掘概念與技術[M].范明,孟小峰,譯.北京:機械工業出版社,2001.

  [2] 王和勇,樊泓坤,姚正安,等.不平衡數據集的分類方法研究[J].計算機應用研究,2008,25(5):1301-1308.

  [3] CHAWLA N V, BOWYER K B, HALL L Q, et al. SMOTE: Synthetic minority over-sampling technique[J].Journal of Artificial Intelligence Research, 2002(16):321-357.

  [4] KUBAT M, MATWIN S. Addressing the curse of  imbalanced training sets: one-sided selection[C]. Proceedings of the 14th International Conference on Machine Learning, San Francisco, 1997:179-186.

  [5] VAPNIK V. The nature of statistical learning theory[M].New York: Springer-Verlag, 2000.

  [6] 秦姣龍,王蔚.Bagging組合的不平衡數據分類方法[J].計算機工程,2011,37(14):178-182.

  [7] 李明方,張化祥.針對不平衡數據的Bagging改進算法[J].計算機工程與應用,2013,49(2):40-42.

  [8] HUANG G B, ZHOU H, DING X, et al. Extreme learning machine for regression and multiclass classification[J]. IEEE Trans. Syst. Man Cybern, 2012,42(2):513-529.

  [9] HUANG G B. An insight into extreme learning machines random neurons, random features and kernels[J]. Cognitive Computation, 2014,6(3):376-390.

  [10] BEZDEK J. Pattern recognition with fuzzy objec-tive function algorithms[M]. New York: Plenum Plenum Press,1981.

  [11] 肖景春,張敏.基于減法聚類與模糊C-均值的模糊聚類的研究[J].計算機工程,2005,31(Z1):135-137.

  [12] 林智勇,郝志峰,楊曉偉.若干評價準則對不平衡數據學習的影響[J].華南理工大學學報,2010,38(4):126-135.

  [13] 楊明,尹軍梅,吉銀林.不平衡數據分類方法綜述[J].南京師范大學學報:工程技術版,2008,8(4):7-12.

  [14] BRADLEY A P. The use of the area under the ROC curve in the evaluation of machine learning algorithms[J].Pattern Recognition, 1997,30(7): 1145-1159.


此內容為AET網站原創,未經授權禁止轉載。
主站蜘蛛池模板: 欧美日日 | 日日干天天干 | 中文字幕高清免费不卡视频 | 一级毛片国产 | 久久青草国产精品一区 | 在线成年视频免费观看 | 免费观看日韩大尺码观看 | 日本欧美久久久久免费播放网 | 国产一卡2卡3卡四卡精品网站 | 九九精品久久 | 草草视频免费看 | 国产精品久久久久久久人人看 | 丝袜国产 | 国产97色在线 | 亚洲 | 老司机免费精品视频 | 日本国产一区在线观看 | 真人一级一级特黄高清毛片 | 国产色婷婷免费视频 | 亚洲国产欧美在线 | 一个人看的视频www在线 | 欧美高清欧美videosex | 成人短视频视频在线观看网站 | 中文字幕一区在线观看视频 | 99国产精品久久久久久久成人热 | 日本a在线观看 | 日韩福利社 | 99在线观看国产 | 日韩经典第一页 | 国内精品在线视频 | 黄色小网站在线观看 | 欧美精品专区免费观看 | 黄色一级片黄色一级片 | 中国在线播放精品区 | 狼人香蕉网 | 91精品国产91久久久久青草 | 亚洲欧美精品一中文字幕 | 日韩三级国产 | 日韩大片高清播放器好 | 亚洲国产欧美在线 | 在线日韩一区 | 网址你懂的在线观看 |