文獻標識碼: A
DOI:10.16157/j.issn.0258-7998.191130
中文引用格式: 楊維. 領域知識融合與共建研究[J].電子技術應用,2019,45(12):47-50.
英文引用格式: Yang Wei. Domain knowledge fusion and knowledge co-construction research[J]. Application of Electronic Technique,2019,45(12):47-50.
0 引言
近年來,隨著人工智能和自然語言處理方法的研究進一步深入和應用進一步落地,基于知識圖譜的對話系統及其衍生應用在越來越多的場景中開始發揮其作用。國家電網客服中心的人工智能研究中心AI Lab成立后,也就國網客服的相關場景做了很多知識圖譜和對話系統的相關研究。當前國網客服對話面臨的最大的困難即為傳統知識圖譜構建方法和架構均需大量相關優質數據支撐,而在實際生產情況下,只存在大量非結構化、清洗困難的異構數據。如何組織和處理這些數據就成為了國網客服的知識圖譜構建和對話系統建立的關鍵挑戰。
在解決痛點前,先要明確基于國網客服中心的對話系統[1]和知識圖譜的核心需求。在設計知識圖譜的架構時,本文考慮了對話類應用對知識圖譜[2]的下述需求:
(1)實例關聯需求:即語義解析獲得了相關解析結果后能夠將解析結果和圖譜中相應實體、屬性、關系等建立映射關系并消歧;
(2)答案獲取需求:即根據相應實例、關系和屬性等查詢相應值和答案;
(3)邏輯推理需求:即基于已知語義信息,根據推理邏輯規則獲取精準語義推理或運算結果;
(4)指導對話管理需求:即根據已知語義信息反哺對話管理,基于靜態的對話策略和動態的知識內容產生動態、可變化的圖譜對話。
前兩個需求在傳統KBQA[3]的相關研究中,基于RDF/OWL標準的事實圖譜,業界一般稱為知識圖譜,但由于本文需要區分和融合,根據其特征稱為事實圖譜。事實圖譜已經被大量的研究證實了其可用性和實用性,然而這種類型的圖譜對推理和指導對話管理的支持性能上均由于其本身知識組織形式的局限性,需要額外人工設計大量的規則,且由于基于預設好的邏輯規則,在靈活性和普適性上都很難有較好的表現。因此大數據時代以來,很多研究從數據出發,基于自底向上的思路,從實際圖譜推理和應用的角度做了一些探索,提出了依托事件挖掘算法構建的事理圖譜,并利用事理圖譜的相關架構在金融、法律等領域實現了一些應用,有很不錯的表現,得到了業內研究人員的高度認可。但也不得不承認,由于其本身基于統計學習算法、概率分布計算關系概率,且以抽象泛化后的事理為元數據,因此,實例映射、消歧和答案獲取等功能的精準性和可解釋性就遠低于事實圖譜。因此,本文從目標應用即垂直領域任務型對話的角度出發,考慮兩類圖譜架構的相關特性,結合實際研究和工作中的經驗,提出了融合事實圖譜和事理的思路,來發揮兩類圖譜的優勢,從而提升任務型對話性能的目標。
1 事實圖譜和事理圖譜
要解決事實圖譜的融合和事理圖譜的融合,需要先簡單介紹其概念、研究現狀等內容。
1.1 事實圖譜
事實圖譜是一種描述事實知識內容的知識庫,一般節點代表概念,邊代表概念的相關性質。本文構建標準為RDF/RDFS標準。這兩類標準是用來表現萬維網上各類資源的信息的一種語言,RDF通過類、屬性和值來描述資源。RDF Schema(RDFS)是對RDF的一種擴展,應用程序專用的類和屬性必須使用對RDF的擴展來定義。RDF Schema就是這樣一種擴展。RDFS不提供實際的應用程序專用的類和屬性,而是提供了描述應用程序專用的類和屬性的框架。RDFS中的類與面向對象編程語言中的類非常相似,這就使得資源能夠作為類的實例和類的子類來被定義。
事實圖譜的知識獲取有很多成果卓然的研究,從實體級的實體挖掘[4]、實體發現、實體鏈接,到關系抽取[5],主要目標是找到各類事實知識信息,并將它們按照三元組的結構組織起來,用以描述事物本身性質及其相關關系,在國網客服場景下,利用實際生產中的機房、設備、人員、應用功能、服務等既定事實構建了事實圖譜。
圖1展示了一個局部場景的事實圖譜。
1.2 事理圖譜
事理圖譜[6]是一種描述事件之間的演化規律和模式的邏輯知識庫。從結構上來說事理圖譜是一個有向有環圖,節點代表事件,有向邊代表事件之間的順承、因果等關系。
事理圖譜的構建方法也有不少相關研究,主要是基于大規模事件密集型數據(例如:新聞)的抽取和泛化,并計算相關邊的轉移概率,最后生成相應事理的拓撲圖。因此,在國網場景中,本文將指導性文檔中的操作步驟、方法、故障實例等涉及大量實踐且事件具有一定邏輯關系的知識內容形成了事理圖譜。圖2是某業務流程的事理圖譜表示。
2 圖譜架構和融合方法
在垂直領域下,常常很難有大量事件密集型數據,尤其是基于具體行業、公司場景下,往往只有一些規范性文檔、操作手冊作為基礎數據來源。因此,獲得的事理圖譜和事實圖譜在常規融合的情況下,往往會出現大量孤島節點,實現不了在對話過程中支撐對話知識的作用。因此,在垂直領域特定場景下的知識融合和知識共建是相互耦合的,需要以專家知識的種子圖譜為基礎,融合事理圖譜,并在融合過程中讓事理和事實互相校驗互相補充,才能不斷豐富圖譜內容,保證圖譜對整個對話支持[7]的性能。
圖譜融合實際上就是節點消歧并建立鏈接。為了對事實圖譜和事理圖譜建立相互鏈接,使之融合成為一個大圖譜,本文提出下述架構:
以實體粒度的知識為核心,將語義角色中的實體、謂詞、事件等關系鏈接成網絡狀態,其中實體稱之為概念(concept),通常為名詞和領域核心詞等事實知識內容,以父類-類-實體的形式來組織上下位關系,概念通過謂詞關系鏈接到相關事件上,具體的類和大類鏈接到具體泛化事理上。
這樣的架構既可以實現從知識圖譜中獲得的詳細的語義信息、實體、詳細事件,也可以根據實體上下文關系及其事理的邏輯推理,指導對話管理。
這樣架構有下述優點:
(1)最大限度利用問句中的語義信息;
(2)最大限度地利用知識圖譜中的上下位信息;
(3)只需要定義較少的事理邏輯推理和上下位邏輯推理,即可實現對對話的引導和跟蹤;
(4)能夠獲取精準的當前語義事件(如:買蘋果,而非買水果);
(5)構建過程中實體挖掘、事件挖掘、事件泛化等算法的相互校驗提高整個圖譜的知識的精準性;
(6)概念相匹配的謂詞體系校驗語義解析結果,輔助解析結果的重排序。
總言之,這樣的框架是從應用的角度出發,從構建過程中融合兩類圖譜,將更多更精準的關系和語義信息融入知識圖譜中,并利用在融合共建中產生的謂詞、實體、事件等資源輔助識別、檢索、排序等算法。其架構如圖3所示。
如圖3所示,在事實圖譜中,實體和類展現了核心的上下位關系;事理圖譜中通過事件到事理的泛化,體現事件的上下位關系。事實圖譜中的類和子類通過謂詞關系連接到事理圖譜中的具體事理中,事實圖譜中的實體通過謂詞關系連接到具體事件上,將兩類圖譜有機地連接起來。
所以融合本質就是通過謂詞關系,將事理圖譜和對應概念的事實圖譜鏈接成一個語義內容和邏輯關系更豐富的知識圖譜。顯然,融合過程中可以利用已有信息不斷補充和反向校驗其他信息,所以知識融合的過程也是一個不斷互相補充互相完善的過程。
首先,在構建過程中需要一些通用資源,例如:中文動詞詞典、同義詞典、來自于通用知識庫(例如:wikipedia、freebase等)的同義詞、語義上下位關系等資源。
其次,用以構建的數據源主要是兩類,一類是功能文檔、產品文檔等帶有場景和邏輯順承關系的文檔類數據;另一類是問答對話類帶有大量領域關鍵詞和謂詞邏輯關系的數據。事實圖譜和事理圖譜的分別建立也都是基于這類數據。
這里主要介紹在已建立了基礎的事實圖譜和事理圖譜,融合和共建新架構圖譜的流程:
(1)利用動詞詞典,構造謂詞關系集。
(2)利用事實同義詞典,從事理圖譜中發現相關實體并篩選。
例如:事實圖譜中存在Class=(員工),事理圖譜中存在Event=<通知相關人員>,利用同義詞“員工:人員,發現,<通知相關人員>-[通知]-(員工)”這樣的連接關系,并關聯。
(3)孤島事件中挖掘新實體,并歸類新類。
(4)篩選事實-謂詞組合,產生新的事件/事理。
例如:事實:(服務器)(交換機)(刀片機)…結合謂詞:
“重啟”,產生新的事件,<重啟服務器><重啟交換機>
<重啟刀片機>
(5)事件泛化找到新的事理。
例如:事實:(服務器),在Class=設備,<重啟服務器>,
泛化為<重啟設備>
(6)計算事理間的邏輯關系。
3 研究成果
本文實驗基于國網客服人工智能中心和清華大學智能技術與系統國家重點實驗室聯合構建知識圖譜和對應對話系統,其中基礎事實圖譜數據和事理圖譜數據分別由國網培訓文檔、標準運維解決方案文檔、故障分析報告、客服常見問答問題等文檔數據構造。實驗最后獲得如表1所示成果。
圖4展示了局部融合圖譜。
本文在該知識圖譜和清華語義平臺的基礎上建立了針對客服系統的相應知識管理及對話系統,在客服應答、故障查修、運維狀態跟蹤等場景下均獲得了較好的應用效果。
4 結論
本文提出了一套基于事實圖譜和事理圖譜融合的新型知識圖譜構建框架,該框架不僅包含了相關垂直領域的各類知識信息,還將基礎語義信息和推理信息融入其中。該框架構建過程中能夠不斷鏈接映射并互相補充,達到圖譜動態擴展的目標,有效提高了圖譜構建效率,降低了圖譜構建的人工成本。最后成功建設了一個較為完善的垂直領域混合型圖譜,并在相關問答知識類應用中對其性能進行了較好的驗證。
參考文獻
[1] MCTEAR M F.Spoken dialogue technology:enabling the conversational user interface[J].ACM Computing Surveys,2002,34(1):90-169.
[2] 代文韜,林詩璐,朱小燕,等.基于知識圖譜的保險領域對話系統構建[J].電子技術應用,2019,45(9):18-21,27.
[3] LEE C,JUNG S,KIM K,et al.Recent approaches to dialog management for spoken dialog systems[J].Journal of Computing Science and Engineering,2010,4(1):1-22.
[4] 李剛,黃永峰.一種面向微博文本的命名實體識別方法[J].電子技術應用,2018,44(1):118-120,124.
[5] 金鵬,楊忠良,黃永峰.基于卷積神經網絡的詩詞隱寫檢測方法[J].電子技術應用,2018,44(10):114-117,126.
[6] Ding Xiao,Qin Bing,Liu Ting. Building Chinese event type paradigm based on trigger clustering[C].Proceedings of the 6th International Joint Conference on Natural LanguageProcessing(IJCNLP),2013:311-319.
[7] HUANG M,ZHU X,HAO Y,et al.Discovering patterns to extract protein-protein interactions from full texts[J].Bioinformatics,2004,20(18):3604-3612.
作者信息:
楊 維
(國家電網客服中心 信息技術部,天津300000)