文獻標識碼: A
DOI:10.16157/j.issn.0258-7998.180439
中文引用格式: 金鵬,楊忠良,黃永峰. 基于卷積神經網絡的詩詞隱寫檢測方法[J].電子技術應用,2018,44(10):114-117,126.
英文引用格式: Jin Peng,Yang Zhongliang,Huang Yongfeng. Poetry steganalysis based on convolutional neural network[J]. Application of Electronic Technique,2018,44(10):114-117,126.
0 引言
隱寫術是信息安全領域的一個非常重要的研究熱點,它通過難以察覺的方式將秘密信息隱藏到數字載體中。它可以用來建立秘密信道,并通過互聯網在連接受到限制或監控的雙方之間傳遞隱蔽信息[1]。密碼術主要通過設計加密技術,使保密信息不可讀,但同時也暴露了數據的重要性,使其更容易遭受攔截、破解等攻擊。而隱寫術則致力于通過設計精妙的方法,使其根本不會引起非授權者的注意并且無從得知保密信息的存在與否。由此可以看出,隱寫術的最大特征就是具有極強的隱蔽性。基于此,設計并實現自動隱寫檢測方法成為一件非常具有挑戰性的任務。
信息載體的形式多種多樣,因此有基于不同載體的信息隱藏方法,比如基于圖像[2]、語音[3]、文本[4-5]等。這些隱寫技術在信息安全保障體系的諸多方面發揮著重要作用。但隱寫術也有可能被用于非法目的。因此,急需解決非法信息的檢測問題,阻止非法信息的傳輸。由于圖像和語音相比于文本具有更大的信息冗余度,使其成為非常常用的信息隱藏載體,相關的信息隱藏技術[6-7]也已經比較成熟。
文本中可用于隱藏數據的冗余空間非常有限,導致在文本中嵌入信息非常困難,但也吸引了大量研究者對其進行研究。現有的基于文本的信息隱藏方法大致可以分為兩大類,一類是基于文本格式[5,8-9],一類是基于文本內容[10-11]。基于文本格式的信息隱寫方法一般將文本當成一種特殊編碼的圖像進行處理,它們通過調整文本的字符間距[8]、字詞的偏移[5]、字符編碼方式[9]等實現信息隱藏。這一類方法通常容量較大、實現簡單,但魯棒性不強。基于文本內容的方法,通常通過對文本進行詞匯、句法、語義等方面的修改,盡量保持文本局部以及全局語義不變、語法正確的方式來實現信息的嵌入。例如,文獻[12]利用馬爾科夫模型進行自然文本生成并通過對生成過程中轉移概率進行編碼實現信息隱藏,但存在的缺點是生成的文本都不太自然。然而,隨著近些年自然語言處理技術的發展,出現了越來越多基于文本自動生成的信息隱藏方法,例如一些隱寫技術能自動生成大量的詩詞并在生成過程中實現大容量秘密信息嵌入[13-15],同時最終生成的詩很難與真實詩人寫的詩區分開。這一類方法比基于格式的方法具有更強的魯棒性和更好的隱蔽性。目前基于文本語義內容的信息隱藏技術是文本信息隱藏技術發展的研究重點和熱點。本文主要針對這一類方法,提出一種基于卷積神經網絡的文本自動隱寫檢測方法,實現對文本中是否隱藏信息的自動識別。
1 相關研究工作
隱寫分析技術是和隱寫術相對抗的一種技術。通常認為判定某個數據載體中隱藏信息的存在即可認為該隱寫系統被攻破。因此,本文重點研究自動檢測文本中是否含有隱藏信息。
目前,已有的文本隱藏信息檢測研究要么是主要針對一些特定的隱藏算法進行研究,要么是根據人為定義的統計規則進行判別。針對前一類方法的研究有:吳明巧僅僅針對Stego工具,提出了基于標記特征與統計特征相結合的檢測方法[16];KWON H等針對基于文檔結構數據的隱藏信息,利用微軟復合文檔格式特征的分析,檢測利用未用空間和插入流數據隱藏的信息的存在性[17]。針對后一類方法的研究有:周繼軍借鑒概念圖的思想,提出了基于句間相關性度量判定法的自然語言隱藏信息檢測算法[18];HUANG L S研究團隊也提出了基于詞位置分布統計特征[19]以及基于統計詞的頻度、檢測熵的方法[20]。這些文本隱寫檢測方法最大的缺點在于,它們的針對性太強,覆蓋的可檢測的信息隱藏方法有限。
隨著技術的發展,已經有很多研究將信息隱藏和特殊文本的生成相結合起來,取得了不錯的效果。比如DESOKY A利用很多特殊的文本形式,例如筆記[15]、笑話[21]等來隱藏信息。文獻[14]中提出的模型利用計算機自動生成詩詞實現信息隱藏。文獻[4]和[13]中也通過利用馬爾科夫模型和循環神經網絡算法生成符合規則的詩詞。這一類方法生成的詩詞對于未經訓練的人很難區分開,因此具有極高的隱蔽性。現在還沒有針對這一類隱寫算法的隱寫檢測算法,本文的目的就在于解決這個問題。
2 基于卷積神經網絡的詩詞隱寫檢測方法
近兩年,以卷積神經網絡為代表的深度神經網絡模型在計算機視覺[22]和自然語言處理[23]等領域取得非常大的成功。大量的研究顯示卷積神經網絡具有強大的特征抽取和表達能力,能自動從大量數據中學習得到特征[22]。本文中設計并實現了一套基于卷積神經網絡的自動文本隱寫檢測算法,它能自動對待檢測的文本進行特征抽取進而判斷是否隱藏信息。
本文最終采用的卷積神經網絡模型結構如下:一個輸入層、一個包含多個不同尺寸卷積核的卷積層、一個平均池化層、一個全連接層以及一個Softmax分類器。輸入層將輸入文本轉換成一個適合后續卷積層操作的二維矩陣。卷積層用來對輸入矩陣進行特征抽取,不同尺寸的卷積核能學到不同的上下文相關特征。平均池化層用來對學習的特征進行下采樣,它能增強模型的魯棒性并顯著提升模型性能。全連接層用來對學習到的特征進行融合并送給Softmax分類器。Softmax分類器的參數通過自學習完成之后,對輸入的特征向量進行分類,判斷是否發生了信息隱寫。卷積神經網絡模型結構如圖1所示。
模型的輸入是待檢測的文本,輸出是判斷是否發生隱寫的概率。對于每一個輸入的待檢測文本S,將其表示成如式(1)所示的矩陣,其中矩陣的第i行表示文本S中第i個詞,每個詞表示成一個隨機初始化的D維的向量,即:
其中,P和T向量的維度都是2,分別表示有/沒有隱藏信息。T是輸入文本的標簽,如:可以用向量[0,1]表示有隱寫,[1,0]表示沒有隱寫。
模型的訓練過程是通過在訓練數據集上最小化LOSS函數,采用的是帶動量項的隨機梯度下降算法(SGD)。對模型中參數w的更新公式如下:
3 實驗結果及評估
3.1 實驗數據
在本次實驗中,為了測試本文模型的性能,收集了全唐詩共13 342首五言詩作為正樣本,即不含隱藏信息的樣本。然后利用文獻[4]中的算法生成10 000首隱藏信息的五言詩作為負樣本。因此整個實驗所用到的數據集共含有23 342首五言詩,利用其中17 000首作為訓練集訓練本文模型,剩下6 342首作為測試集測試本文模型,具體劃分如表1所示。
3.2 實驗設置
對于每首輸入模型的樣本,首先對其進行去結構化。具體來說,即去掉每首詩的標題,并將剩下的4句話首尾相連,因此每首詩都轉化為一個包含20個字的文本。其次,將每個字映射成一個300維隨機初始化的向量,因此實際上模型的輸入是一個20×300的矩陣。卷積層中卷積核的寬度和輸入矩陣寬度一致,即300維。而卷積核的高度是可變的,實驗中采用的卷積核高度是1,2,3,并且每個尺寸包含56個卷積核。最后輸出層的維度是2,對應是否隱藏信息。訓練過程中,采用隨機梯度下降方法訓練模型參數,初始學習率為0.01。
3.3 實驗結果及分析
采用幾種分類任務中常用的指標來評價本文模型最后的性能,即Precision、Recall、F1-score和Accuracy。計算公式如下:
其中,TP表示正樣本被預測為正樣本的數量,FP表示負樣本被預測成正樣本的數量,FN表示正樣本預測成負樣本的數量,TN表示負樣本預測成負樣本的數量。
表2中展示了本文模型以及其他3種機器學習算法的測試結果,其中CNN表示本文模型的結果。從結果中可以看到,本文模型在各個指標上取得了最好的實驗結果,這充分證明了本文模型強大的特征抽取能力,能非常有效地應用于文本隱寫檢測任務上。
4 結論
文中提出了一種基于卷積神經網絡的文本隱寫分析算法。它能自動從大量數據中提取到高層次的語義信息,并判斷輸入文本中是否隱藏信息。同時,利用大量的數據訓練并測試本文模型,結果反映該模型能非常高準確率地檢測出文本中是否含有隱藏信息,證明了模型的有效性。
參考文獻
[1] PETITCOLAS F A P,ANDERSON R J,KUHN M G.Information hiding-a survey[J].Proceedings of the IEEE,1999,87(7):1062-1078.
[2] ZHOU Z,SUN H,HARIT R,et al.Coverless image stega-nography without embedding[C].International Conference on Cloud Computing and Security Nanjing University of Aeronautics and Astronautics,2015.
[3] PENG X,HUANG Y,LI F.A steganography scheme in a low-bit rate speech codec based on 3d-sudoku matrix[C].IEEE International Conference on Communication Software and Networks,2016:13-18.
[4] LUO Y,HUANG Y.Text steganography with high embedding rate: using recurrent neural networks to generate Chinese classic poetry[C].ACM Workshop on Information Hiding and Multimedia Security,2017:99-104.
[5] SHIRALI-SHAHREZA M H,SHIRALI-SHAHREZA M.A new approach to persian/arabic text steganography[C]. IEEE/ACIS International Conference on Computer and Information Science and IEEE/ACIS International Workshop on Component-Based Software Engineering,Software Architecture and Reuse,2006:310-315.
[6] KER A D,BOHME R.Revisiting weighted stego-image steganalysis[J].Proceedings of SPIE-The International Society for Optical Engineering,2008,6819:681905.
[7] ALTUN O,SHARMA G,CELIK M,et al.Morphological steganalysis of audio signals and the principle of diminishing marginal distortions[C].Proceedings of IEEE International Conference on Acoustics,Speech,and Signal Processing,2005,2:21-24.
[8] CHOTIKAKAMTHORN N.Electronic document data hiding technique using inter-character space[C].The 1998 IEEE Asia-Pacific Conference on Circuits and Systems,1998.IEEE APCCAS 1998,1998:419-422.
[9] LOW S H,MAXEMCHUK N F,LAPONE A M.Document identification for copyright protection using centroid detection[J].IEEE Transactions on Commun.1998,46(3):372-383.
[10] MAHATO S,KHAN D A,YADAV D K.A modified approach to data hiding in microsoft word documents by change-tracking technique[J/OL].Journal of King Saud University.(2017-08-30)[2018-02-08].https://www.sciencedirect.com/science/article/pii/S1319157817300939?via%3Dihub.
[11] MURPHY B,VOGE C.The syntax of concealment: reliable methods for plain text information hiding[C].Proceedings of SPIE,2007:6505.
[12] GE X,JIAO R,TIAN H,et al.Research on information hiding[J].US-China Education Review,2006,3(5):77-81.
[13] LUO Y,HUANG Y,LI F,et al.Text steganography based on ci-poetry generation using markov chain model[J].Ksii Transactions on Internet & Information Systems,2016,10(9):4568-4584.
[14] YU Z S,HUANG L S.High embedding ratio text steganography by ci-poetry of the song dynasty[J].Journal of Chinese Information Processing,2009,23(4):55-62.
[15] DESOKY A.Notestega:notes-based steganography methodology[J].Information Systems Security Journal,A Global Perspective,2009,18(4):178-193.
[16] 吳明巧,金士堯.針對文本隱寫工具Stego的隱寫分析方法[J].計算機工程,2006,32(23):10-12.
[17] KWON H,KIM Y,LEE S,et al.A tool for the detection of hidden data in microsoft compound document file format[C].International Conference on Information Science and Security.IEEE,2008:141-146.
[18] 周繼軍,楊著,鈕心忻,等.文本信息隱藏檢測算法研究[J].通信學報,2004,25(12):97-101.
[19] CHEN Z L,HUANG L S,YU Z S,et al.A statistical algorithm for linguistic steganography detection based on distribution of words[C].Third International Conference on Availability, Reliability and Security.IEEE Computer Society,2008:558-563.
[20] CHEN Z L,HUANG L S,YU Z S,et al.Effective linguistic steganography detection[C].IEEE,International Conference on Computer and Information Technology Workshops,2008,Cit Workshops.IEEE,2008:224-229.
[21] DESOKY A.Jokestega:automatic joke generation-based steganography methodology[J].International Journal of Security and Networks,2012,7(3):148-160.
[22] KRIZHEVSKY A,SUTSKEVER I,HINTON G E.ImageNet classification with deep convolutional neural networks[C].International Conference on Neural Information Processing Systems.Curran Associates Inc.2012:1097-1105.
[23] KIM Y.Convolutional neural networks for sentence classification[Z].arXiv:1408.5882,2014.
作者信息:
金 鵬1,2,楊忠良1,2,黃永峰1,2
(1.清華大學 電子工程系,北京100084;2.清華信息科學與技術國家實驗室,北京100084)