《電子技術應用》
您所在的位置:首頁 > 電源技術 > 設計應用 > 基于規則和詞典的用電安全領域命名實體識別
基于規則和詞典的用電安全領域命名實體識別
2022年電子技術應用第12期
袁金斗1,潘明明1,張 騰2,姜 玨1
1.中國電力科學研究院有限公司,北京100192;2.國網江蘇省電力有限公司,江蘇 南京210000
摘要: 在用電安全領域,存在著大量數據、知識未得到充分挖掘和利用,構建領域知識圖譜不僅可以實現用電安全知識的整合,還能極大地提高電力行業的工作效率。命名實體識別是構建知識圖譜的基礎性工作,研究了基于字典和規則的命名實體識別,通過領域實體詞典、構詞特征字符規則匹配和詞性組合特征規則匹配三種方法從非結構文本中準確地提取用電安全相關實體,為用電安全領域知識圖譜的構建提供高質量和高精度的實體。為優化識別流程、提高響應速度,將通用詞性標注任務交由邊緣節點進行處理,中心服務器僅需響應規則模板匹配等任務。在小規模測試實驗中,綜合使用三種方法對用電安全文本進行領域實體識別,F1值能達到85%以上。
中圖分類號: TP391.1
文獻標識碼: A
DOI:10.16157/j.issn.0258-7998.223323
中文引用格式: 袁金斗,潘明明,張騰,等. 基于規則和詞典的用電安全領域命名實體識別[J].電子技術應用,2022,48(12):22-27.
英文引用格式: Yuan Jindou,Pan Mingming,Zhang Teng,et al. Electricity safety domain named entity recognition based on rules and dictionaries[J]. Application of Electronic Technique,2022,48(12):22-27.
Electricity safety domain named entity recognition based on rules and dictionaries
Yuan Jindou1,Pan Mingming1,Zhang Teng2,Jiang Jue1
1.China Electric Power Research Institute,Beijing 100192,China; 2.State Grid Jiangsu Electric Power Co.,Ltd.,Nanjing 210000,China
Abstract: In the field of electricity safety, there are a lots of data and knowledge has not been excavated and utilized, constructing a knowledge graph in the electricity safety field can not only integrate power knowledge, but also greatly improve the efficiency of the power industry. Named entity recognition(NER) is the basis for constructing knowledge graph, this paper studies the named entity recognition based on dictionaries and rules, through three methods: the domain entity dictionary, the word-building feature character rule matching and the part-of-speech combination feature rule matching,to accurately extract electricity safety related entities from non-structured text, providing high-quality and high-precision entities for the construction of knowledge graph in the field of electricity safety. In order to optimize the recognition process and improve the response speed, the general part-of-speech tagging task is sent to the edge node for processing, and the central server processes the rule template matching task. Experimental results show that using the three methods comprehensively to recognition the domain entity of small-scale electricity safety text, the F1 score can reach more than 85%.
Key words : electricity safety domain;NER;domain dictionary;featured character rules;part-of-speech combination rules

0 引言

    命名實體識別[1-3](Named Entity Recognition,NER)在通用領域中主要是指識別文本中的人名、地名、機構名、時間、貨幣等具有特定意義的實體。目前,命名實體識別的主要方法包括三類:基于規則[4]和詞典[5-6]的方法、基于統計機器學習的方法[7]和基于深度神經網絡的方法[8]

    目前,用電安全領域缺乏權威數據集[9],命名實體識別研究工作首先需要對語料集進行序列標注,標記非結構文本中的相關實體、無關字符、詞性序列等,在此研究背景下,采用統計機器學習、深度神經網絡的方法較難獲取大規模的訓練語料集。因此,本文主要基于規則和詞典的方法對實體命名識別進行第一階段研究,發掘用電安全領域實體構詞規則及詞性特征,構建領域詞典及規則模板,進一步擴充語料庫,為后續用電安全領域命名實體識別的機器學習、神經網絡方法的研究奠定基礎。

    從技術角度分析,如果構建的領域詞典能夠覆蓋待識別文本中絕大多數相關實體,那么,基于詞典的命名實體識別方法將具有高準確度及高響應度。但是,領域實體的多樣性、復雜性、衍生性導致構建覆蓋全面的高質量詞典較為困難。因此,基于詞典的方法通常是基于規則方法的輔助補充手段[10]。基于規則的實體命名識別多采用人工歸納并構造規則模板,選用特征包括標點符號、關鍵字、指示詞和方向詞、位置詞(如前后綴)、中心詞等,以規則模板的正則匹配為主要手段[11]。當語料規模不大且提取的規則能比較精確地反映語言現象時,基于規則和詞典的方法其性能要優于基于統計的方法[12]

    另一方面,物聯網設備和數據的爆發式增長,使得基于云計算模型的聚合性服務逐漸顯露出其在實時性、網絡制約、資源開銷等方面的不足。為彌補集中式云計算的不足,本文采用邊緣計算架構,其優勢在于能夠在數據產生側快捷、高效地響應業務需求,減小服務對網絡的依賴,在離線狀態下也能夠提供基礎業務服務。




本文詳細內容請下載:http://www.viuna.cn/resource/share/2000005035




作者信息:

袁金斗1,潘明明1,張  騰2,姜  玨1

(1.中國電力科學研究院有限公司,北京100192;2.國網江蘇省電力有限公司,江蘇 南京210000)




wd.jpg

此內容為AET網站原創,未經授權禁止轉載。
主站蜘蛛池模板: 91精品在线视频观看 | 亚洲一区二区三区网站 | 国产欧美亚洲精品第二区首页 | 精品久久久久久久九九九精品 | 最近中文字幕在线 | 亚洲图片欧洲图片aⅴ | 久久久久久精 | 97视频在线观看免费播放 | 久久九九精品一区二区 | 免费久草视频 | 中文字幕日本一区 | 国产视频97 | 欧美人猛交日本人xxx | 精品国产免费人成在线观看 | 免费在线色 | 成人免费一级毛片在线播放视频 | 欧美一级看片免费观看视频在线 | 国产一区二区在线观看视频 | 琪琪午夜伦埋影院77 | 亚洲欧美日韩精品久久奇米色影视 | 天天艹夜夜 | 999精品在线 | 一插菊花综合 | 亚洲欧美不卡视频 | 狠狠色丁香婷婷综合欧美 | 18p爽视频在线观看免费 | 国产麻豆a一级毛片爽爽影院 | 99re热精品视频国产免费 | 成人免费手机在线看网站 | 一级a性色生活片毛片 | 99久久99| 日韩亚洲欧美在线观看 | 国产大片一区 | 最近的中文字幕大全免费8 最近的中文字幕2019更新 | 可以看的黄网 | 日日操夜夜草 | 亚洲欧美黄色片 | 久久综合精品不卡一区二区 | 国产一卡二卡 | 欧美精品免费在线观看 | 国产满18av精品免费观看视频 |