摘 要: 隨著互聯(lián)網(wǎng)的普及和發(fā)展, 傳統(tǒng)的文本摘要的提取方法已無法適應(yīng)綠色網(wǎng)絡(luò)提供優(yōu)質(zhì)內(nèi)容并過濾不良文本的社會需求。提出通過條件隨機(jī)場模擬對句子進(jìn)行注解的方法提取文本摘要。實驗證明新方法提取文本的效果有效并可提供更好的過濾不良文本的服務(wù)。
關(guān)鍵詞: 綠色網(wǎng)絡(luò); 提取信息; 不良文本; 過濾; 條件隨機(jī)場
目前尚未發(fā)現(xiàn)“綠色網(wǎng)絡(luò)”權(quán)威定義,現(xiàn)階段只能將其理解為可預(yù)防網(wǎng)民患上網(wǎng)癮流行病的計算機(jī)網(wǎng)絡(luò)[1-2]?;谛袨榉治龅木G色網(wǎng)絡(luò)系統(tǒng)軟件的設(shè)計目的是為了預(yù)防青少年感染不良的網(wǎng)癮行為。基于行為分析的綠色網(wǎng)絡(luò)系統(tǒng)中提取文本摘要子系統(tǒng)(下文稱綠網(wǎng)摘要提取系統(tǒng))采用智能的方法濃縮文本信息,從而使基于行為分析的綠色網(wǎng)絡(luò)系統(tǒng)能快速有效地識別過濾對青少年有不良影響的文本,保留青少年獲得感興趣并對他們身心有益的文本。
在如何快速準(zhǔn)確提取文本摘要這個問題上,不少學(xué)者進(jìn)行了大量有價值的研究。Baxendale提出引入句子位置判斷句子重要性的方法提取文本摘要[3]。Luhn列出高頻詞并打分,分?jǐn)?shù)高的句子被認(rèn)定為文本摘要句[4]。AONE C等提出基于TF-IDF樸素貝葉斯模型的算法提取文本摘要[5-7]。KUPIE C J等通過增加句長方法改進(jìn)樸素貝葉斯模型的算法提取文本摘要[8]。金立左等提取文本摘要使用基于最大熵模型,增加了先驗概率,從而優(yōu)于所有基于樸素貝葉斯模型的方法[9-11]。
針對文本摘要更新較快和多樣性的特點,本文提出通過條件隨機(jī)場模擬對句子進(jìn)行注解來達(dá)到提取文本摘要的方法。實驗表明該方法可有效地提取文本摘要,為綠色網(wǎng)絡(luò)系統(tǒng)是否過濾該文本提供依據(jù)。
1 綠網(wǎng)摘要提取系統(tǒng)摘要主要特征
文本摘要具有三個基本的特征:源自文件、保留文本重要信息、長度短。因此要滿足以上特點,很多因素會影響一個句子是否被認(rèn)為是文本摘要句。影響分為兩大類,第一類是句子自身因素,也稱單句特征;第二類是文本上下文信息因素,稱為關(guān)聯(lián)特征。
1.1 句子自身特征
句子自身特征是指不涉及文本上下文信息也能體現(xiàn)出句子本身的特征。下文列舉出幾種句子自身因素。
(1)長度特征,由于文本摘要基本不會出現(xiàn)過短或過長的句子,先過濾掉句子中的停用詞,然后以詞為單位計算目標(biāo)句子的長度,最終本文算法選取最短和最長的閥值分別為38和6。
(2)位置特征,位置因素是文本預(yù)料的重要特征因素,首句、尾句、段首和段尾是最重要的影響提取文本摘要的幾個特征,本文采用了首段、尾句、段首和段尾的位置特征因素。標(biāo)記詞語特征,判斷摘要句的標(biāo)記詞語,例如“表示”等,統(tǒng)計表明,約有30%句子含有標(biāo)記詞語,本文算法利用這些詞語判斷摘要句。
(3)高頻詞特征,高頻詞是指出現(xiàn)在目標(biāo)文本頻率較高的句子,詞頻越高,證明該詞語的重要程度越大,所在的句子代表性越強(qiáng),本文算法在停用詞被過濾后,再度量使用高頻詞。
(4)時間、數(shù)字及專有名詞特征,文章的焦點基本是命名實體,算法選擇句子時決定使用時間、數(shù)字以及專有名詞。
1.2 上下文關(guān)聯(lián)特征
一個句子是否被綠網(wǎng)摘要提取系統(tǒng)選擇為摘要句,除了句子自身的特征影響外,受到上下文關(guān)聯(lián)特征的影響也是很大的。綠網(wǎng)摘要提取系統(tǒng)選擇兩種基本的關(guān)聯(lián)特征。
(1)與文本標(biāo)題相似度的關(guān)聯(lián)特征。文本信息包含在標(biāo)題中,研究發(fā)現(xiàn)句子與標(biāo)題相似度越大,則出現(xiàn)在摘要的可能性越大。
(2)與文本其他句子的相似度的關(guān)聯(lián)特征。實際開發(fā)中綠網(wǎng)摘要提取系統(tǒng)把使用該特征看作尋找“高頻句”的相似過程,原理與高頻詞原理相似,建模公式為:
其中,x為綠網(wǎng)摘要提取系統(tǒng)目標(biāo)文本;Length(x)為綠網(wǎng)摘要提取系統(tǒng)目標(biāo)文本的長度,即系統(tǒng)目標(biāo)文本所包含的句子數(shù)。
3 實驗測試結(jié)果及分析
3.1 實驗測試預(yù)料
本文實驗的測試數(shù)據(jù)來源于廣西軟件測試中心,從搜狐、新浪、網(wǎng)易以及鳳凰網(wǎng)4個網(wǎng)站上采集了35 220篇文本,其中既有不宜青少年閱讀的文本,也有適合青少年閱讀的文本,將這些平均分為5等份,4份用于訓(xùn)練,1份用于測試,測試使用交叉驗證方法。
3.2 實驗測試評測方法
為了更好地評價綠網(wǎng)摘要提取系統(tǒng)測試實驗效果,采用準(zhǔn)確率、召回率和F值3個標(biāo)準(zhǔn)指標(biāo)來衡量,其中F值是本次測試最重要的評價指標(biāo)。綠網(wǎng)摘要提取系統(tǒng)測試實驗結(jié)果的計算公式為:
從表1的實驗結(jié)果可以看出,綠網(wǎng)摘要提取系統(tǒng)使用基本條件隨機(jī)場模型的綜合效果(即F值)好于系統(tǒng)使用其他兩種模型,召回率不如系統(tǒng)使用樸素貝葉斯模型。算法設(shè)計小組觀察標(biāo)注的結(jié)果發(fā)現(xiàn),當(dāng)系統(tǒng)選取目標(biāo)文本過長時,使用條件隨機(jī)場提取摘要句子分布會過于分散,位于文本中部的句子其位置特征相對分散,導(dǎo)致誤判,從而綠網(wǎng)摘要提取系統(tǒng)使用基本條件隨機(jī)模型提取目標(biāo)文本的摘要的召回率低一些。算法設(shè)計小組對本次測試統(tǒng)計發(fā)現(xiàn),有54%的文本超過10句,24%的文本超過20句,文本越長,綠網(wǎng)摘要提取系統(tǒng)使用基本條件隨機(jī)模型提取目標(biāo)文本的摘要的效果越差。
表2 列出了第二組測試的實驗結(jié)果。
從表2實驗結(jié)果可以看出,綠網(wǎng)摘要提取系統(tǒng)使用合適的修正因子條件隨機(jī)場模型后,召回率提高了15.4%,綜合效果(F值)也提高了1.6%,在一定程度上提高了F值,取得更好的效果。
綠網(wǎng)摘要提取系統(tǒng)采用增加修正因子的方法改進(jìn)條件隨機(jī)模型可以克服目標(biāo)文本因文本過長所造成的影響。從實驗效果來看,使用修正因子可以提高提取摘要的效果,今后可重點考慮在算法模型中增加更多因素的修正因子,以提高模型算法的提取效果。
參考文獻(xiàn)
[1] 寧葵,龍瓏,覃曉,等.綠色網(wǎng)絡(luò)不良內(nèi)容語義分析方法研究[J].計算機(jī)應(yīng)用研究,2010,27(12):4643-4645.
[2] 龍瓏,鄧偉.綠色網(wǎng)絡(luò)智能文摘算法研究[J].計算機(jī)應(yīng)用, 2012,32(7):2030-2032.
[3] BAXENDALE P. Machine-made index for technical literature-an experiment[J]. IBM Journal of Research Development, 1958,2(4):354-361.
[4] LUHN H P. The automatic creation of literature abstracts[J]. IBM Journal of Research Development,1958,2(2):159-165.
[5] AONE C, OKUROWSKI M E, GORLINSKY J, et al. A trainable summarize with knowledge acquired from robust NLP techniques[C].In Mani, I.and Maybury,M. T., editors, Advances in Automatic Text Summarization, 71-80. MIT Press. 1999.
[6] PANG B,LEE L,VAITHYANTHAN S. Thumbs up? Sentiment classification using machine learning techniques[C]. Processdings of the Conference on Empirical Methods in Natural Language Processing. Stroudsburg: Association for Computational Linguistics, 2002:79-86.
[7] 何鳳英.基于語義理解的中文博文傾向性分析[J].計算機(jī)應(yīng)用,2011,31(8):2130-2137.
[8] KUPIEC J, PENDERSEN J, CHEN F. A trainable document summarizer[C]. Proceedings of SIGIR‘95, 68-73,New York, NY,USA,1995.
[9] 金立左,袁曉輝,趙一凡,等.二維模糊劃分最大熵圖像分割算法[J].電子與信息學(xué)院,2002,2(8):1040-1048.
[10] 張龍凱, 王厚峰. 文本摘要問題中的句子抽取方法研究[J].中文信息學(xué)報,2012,26(2):97-101.
[11] 屈志毅,李一偉,張延堂,等.一種基于關(guān)鍵重復(fù)語義的最大熵文本分類[J].廣西師范大學(xué)學(xué)報(自然科學(xué)版), 2007,25(4):204-207.