《電子技術應用》
您所在的位置:首頁 > 嵌入式技術 > 設計應用 > 基于流形學習ISOP算法的語音特征提取及應用研究
基于流形學習ISOP算法的語音特征提取及應用研究
來源:微型機與應用2014年第1期
趙媛媛,王 力
(貴州大學 計算機科學與信息學院,貴州 貴陽 550025)
摘要: 主要研究了基于流形學習ISOP算法的語音特征提取。將流形學習ISOP算法應用到語音識別特征提取模塊中。仿真實驗結果表明,該算法與傳統的特征提取算法MFCC、LPCC等相比,可以取得較高的識別率。
Abstract:
Key words :

摘  要: 主要研究了基于流形學習ISOP算法的語音特征提取。將流形學習ISOP算法應用到語音識別特征提取模塊中。仿真實驗結果表明,該算法與傳統的特征提取算法MFCC、LPCC等相比,可以取得較高的識別率。
關鍵詞: ISOP算法;語音識別;流形學習;特征提取

 通過語音傳遞信息是人類最重要、最有效、最常用且最方便的交換信息的形式。而信息時代的到來,使得如何使計算機智能化地與人類進行通信,成為現代計算機科學的重要研究課題之一。同時,現實世界中的數據往往是高維的,難以被理解、表示和處理,因此對語音信號中的數據進行降維,找到一組穩定的、能表征其本質特性的特征參數是其的一個重要步驟。
 流行學習[1-2](Manifold Learning)方法是近十年才發展起來的一種非線性降維方法。流形是拓撲學中的概念,其表示一個局部處為歐幾里得的拓撲空間。局部歐幾里得特性意味著對于空間上的任意點都有一個鄰域,在這個鄰域中的拓撲與Rm空間中的開放單位圓相同(Rm表示m維歐式空間)。也就是說,流形是一個局部可坐標化的拓撲空間。基于流形的定義,可以得到流形學習的本質是,當數據均勻采樣于一個高維歐式空間中的低維流形時,要從高維采樣數據中恢復低維流形的內在幾何結構或者內在規律,并求出相應的嵌入映射,以實現維數約減或者數據可視化。這就意味著流形學習比傳統的維數約減方法更能體現事物的本質。20世紀80年代末,在PAMI上就已經有流形模式識別的說法。2000年《Science》雜志上發表的3篇論文從認知上討論了流形學習,并使用了Manifold Learning術語,強調認知過程的整體性。幾年來,流形學習領域產生了大量的研究成果。LLE和ISOMAP[2]是兩種有代表性的非線性降維方法。LLE算法認為,在局部意義下數據結構為線性,即點在一個超平面上。任取一點,可以用它的鄰近點的線性組合來表示。其主要思想是在樣本點和它的鄰域點之間構造一個重構權向量,并在低維空間中保持每個鄰域中的權值不變,在嵌入映射是局部線性的條件下,最小化重構誤差。ISOMAP建立在多維尺度變換(MDS)的基礎上,力求保持數據點的內在幾何性質,即保持兩點間的測地距離。它用流形上的兩點間的測地距離來取代經典MDS方法中的歐氏距離,能夠準確地發現數據流形潛在的參數空間,是一種全局優化算法。
本文將流形學習的降維方式引入語音識別的特征提取模塊,提出一種新的基于流形學習ISOP算法的語音信號特征提取方式。在仿真實驗室中,針對0~9的特定人的語音信號進行流形學習的特征提取并進行識別,得到了不錯的識別率。
1 流形學習ISOP算法
 判別等度規映射(Isometric Projection)[3]是對ISOMAP算法的線性推廣,其目的是尋求一個投影矩陣A,將高維數據樣本映射到低維特征空間中,且在此映射過程中保持樣本數據點間的局部結構關系,由此解決了ISOMAP算法在面對新樣本的加入無能為力的窘境。
 

 流形算法ISOMAP[9]作為一種非線性的全局優化學習方法,在構建測地線距離時有兩個問題:(1)對樣本點的噪聲比較敏感,且不能處理存在多個聚類的數據集;(2)測地線距離矩陣的計算復雜度大,且距離矩陣為稠密矩陣,本征分解需要的計算復雜度也比較高,因此在大容量的語音識別中,并不能取得很好的識別率。LTSA[10]算法雖然能很好地探測出低維流形的空間結構,并且不要求原始數據是凸分布的,但是該算法所反映的局部結構是它的局部d維坐標系統,由于噪音等因素的影響,數據集的局部低維特征不明顯時,它的局部鄰域到局部切空間的投影距離往往并不小,由此構造的重建誤差也不會小,這樣的情況下,LTSA就無法得到理想的嵌入結果。此外,LTSA算法對樣本點的密度和曲率變化比較敏感,樣本點的密度及曲率[11]的變化會使得樣本點到流形局部切空間的投影產生偏差。當樣本量較大時,算法會失效,并且LTSA算法對新樣本無法進行有效處理。
 表2是在相同的訓練樣本量的背景下,不同的鄰近值對ISOP算法的識別率的影響,從數據分析得出,不同的k對識別率有一定影響,但并沒有使識別率產生大的偏差。

 綜合以上分析,在實驗室條件下,本文提出的基于流形學習ISOP[12]算法在語音識別的特征提取模塊得到了應用,并取得了一定成果。
 本文提出了一種基于流形學習的語音特征提取方法,實驗結果表明,在數字0~9的識別中,與傳統的特征提取算法相比,該方法取得了較高的識別效果。由于Isometric Projection是直接在原始數據中進行構圖和多維尺度分析,因此牽涉大量高位矩陣運算而耗費了較多的時間和資源,為進一步提高性能,下一步將考慮引入主成分分析,對該算法進行改進。
 流形學習[13-14]作為一種新的機器學習,尤其在人臉識別中已取得一定成就的背景下,在語音識別領域中必將成為一個重要的發展方向。
參考文獻
[1] 魯春元.流形學習的統一框架及其在模式識別中的應用[D].廣州:中山大學,2009.
[2] 李春光.流形學習及其在模式識別中的應用[D].北京:北京郵電大學,2007.
[3] 邵艷玲,葛玻,宋書中.基于判別等度規映射的人臉識別[D].洛陽:河南科技大學,2012.
[4] 王澤杰.兩類非線性降維流形學習算法的比較分析[D].上海:上海工程技術大學,2008.
[5] 曾憲華,羅四維.全局保持的流形學習算法對比研究[D].重慶:重慶郵電大學,北京:北京交通大學,2010.
[6] 車士偉,吾守爾·斯拉木.淺談連續語音識別中的關鍵技術[D].烏魯木齊:新疆大學,2010.
[7] 蔡蓮紅,黃德智,蔡銳.現代語音技術基礎與應用[M].北京:清華大學出版社,2003.
[8] 譚璐.高維數據的降維理論及應用[D].長沙:國防科學技術大學,2005.
[9] He Xiaofe, Yan Shuncheng, Hu Yuxia, et al. Face recognition using Laplacianfaces[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2005,27(3):328-340.
[10] BREGLER C, OMOHUNDRO S M. Nonlinear manifold learning for visual speech recognition[C]. International Conference of Computer Vision, 1995:20-23.
[11] SEUNG H S, LEE D D. The manifold ways of perception[J]. Science, 2000, 290(5500): 2268-2269.
[12] AGRAFIOTIS D K, XU H. A self-recognizing principle for learning nonlinear manifolds[C]. Proceedings of Natl. Acad. Sci., 1999:15869-15872.
[13] TENENBAUM J B, SILVA V, LANGFORD J C. A global geometric framework for nonlinear imensionality reductiaon[J]. Science,2000,290(5500):2319-2323.
[14] He Xiaofe, NIYOGI P. Locality Preserving Projections[C]. Proceedings of 16th Conference on Neural Information Processing Systems,2003.

此內容為AET網站原創,未經授權禁止轉載。
主站蜘蛛池模板: 免费观看日韩大尺码观看 | 巨胸喷奶水www久久久免费观看 | 亚洲精品国产成人 | 最近中文日本字幕免费完整 | 国产欧美日产激情视频 | 色婷婷影院在线视频免费播放 | 色在线视频免费 | 成年人视频在线免费看 | 欧美成人久久 | 国产第一区二区三区在线观看 | 波多野结衣中文字幕在线播放 | 毛片爱爱 | 在线观看免费黄色网址 | 一级毛片在线免费看 | 亚洲精品乱码国产精品乱码 | 欧美成人免费观看的 | 欧美美女被爆操 | 免费高清小黄站在线观看 | 欧美一区二区三区男人的天堂 | 天海翼一区二区三区四区 | 欧美一区二区免费 | 中文字幕一区日韩在线视频 | 亚洲国产日韩欧美 | 欧美中文字幕在线看 | 波多野结衣免费一区二区三区香蕉 | 欧美精品不卡 | 免费成人一级片 | 国产欧美日本 | 理论片毛片 | 免费的三级网站 | caonila国产在线观看 | 成人小视频在线观看 | 91精品国产品国语在线不卡 | 成人久久精品 | 色狠狠网 | 一区二区视频在线观看免费的 | 一级做a毛片免费视频 | 羞羞视频在线免费看 | 在线成人福利 | 亚洲国产成人久久一区www妖精 | 日韩大片观看网址 |