文獻標(biāo)識碼: A
DOI:10.16157/j.issn.0258-7998.191130
中文引用格式: 楊維. 領(lǐng)域知識融合與共建研究[J].電子技術(shù)應(yīng)用,2019,45(12):47-50.
英文引用格式: Yang Wei. Domain knowledge fusion and knowledge co-construction research[J]. Application of Electronic Technique,2019,45(12):47-50.
0 引言
近年來,隨著人工智能和自然語言處理方法的研究進一步深入和應(yīng)用進一步落地,基于知識圖譜的對話系統(tǒng)及其衍生應(yīng)用在越來越多的場景中開始發(fā)揮其作用。國家電網(wǎng)客服中心的人工智能研究中心AI Lab成立后,也就國網(wǎng)客服的相關(guān)場景做了很多知識圖譜和對話系統(tǒng)的相關(guān)研究。當(dāng)前國網(wǎng)客服對話面臨的最大的困難即為傳統(tǒng)知識圖譜構(gòu)建方法和架構(gòu)均需大量相關(guān)優(yōu)質(zhì)數(shù)據(jù)支撐,而在實際生產(chǎn)情況下,只存在大量非結(jié)構(gòu)化、清洗困難的異構(gòu)數(shù)據(jù)。如何組織和處理這些數(shù)據(jù)就成為了國網(wǎng)客服的知識圖譜構(gòu)建和對話系統(tǒng)建立的關(guān)鍵挑戰(zhàn)。
在解決痛點前,先要明確基于國網(wǎng)客服中心的對話系統(tǒng)[1]和知識圖譜的核心需求。在設(shè)計知識圖譜的架構(gòu)時,本文考慮了對話類應(yīng)用對知識圖譜[2]的下述需求:
(1)實例關(guān)聯(lián)需求:即語義解析獲得了相關(guān)解析結(jié)果后能夠?qū)⒔馕鼋Y(jié)果和圖譜中相應(yīng)實體、屬性、關(guān)系等建立映射關(guān)系并消歧;
(2)答案獲取需求:即根據(jù)相應(yīng)實例、關(guān)系和屬性等查詢相應(yīng)值和答案;
(3)邏輯推理需求:即基于已知語義信息,根據(jù)推理邏輯規(guī)則獲取精準(zhǔn)語義推理或運算結(jié)果;
(4)指導(dǎo)對話管理需求:即根據(jù)已知語義信息反哺對話管理,基于靜態(tài)的對話策略和動態(tài)的知識內(nèi)容產(chǎn)生動態(tài)、可變化的圖譜對話。
前兩個需求在傳統(tǒng)KBQA[3]的相關(guān)研究中,基于RDF/OWL標(biāo)準(zhǔn)的事實圖譜,業(yè)界一般稱為知識圖譜,但由于本文需要區(qū)分和融合,根據(jù)其特征稱為事實圖譜。事實圖譜已經(jīng)被大量的研究證實了其可用性和實用性,然而這種類型的圖譜對推理和指導(dǎo)對話管理的支持性能上均由于其本身知識組織形式的局限性,需要額外人工設(shè)計大量的規(guī)則,且由于基于預(yù)設(shè)好的邏輯規(guī)則,在靈活性和普適性上都很難有較好的表現(xiàn)。因此大數(shù)據(jù)時代以來,很多研究從數(shù)據(jù)出發(fā),基于自底向上的思路,從實際圖譜推理和應(yīng)用的角度做了一些探索,提出了依托事件挖掘算法構(gòu)建的事理圖譜,并利用事理圖譜的相關(guān)架構(gòu)在金融、法律等領(lǐng)域?qū)崿F(xiàn)了一些應(yīng)用,有很不錯的表現(xiàn),得到了業(yè)內(nèi)研究人員的高度認(rèn)可。但也不得不承認(rèn),由于其本身基于統(tǒng)計學(xué)習(xí)算法、概率分布計算關(guān)系概率,且以抽象泛化后的事理為元數(shù)據(jù),因此,實例映射、消歧和答案獲取等功能的精準(zhǔn)性和可解釋性就遠低于事實圖譜。因此,本文從目標(biāo)應(yīng)用即垂直領(lǐng)域任務(wù)型對話的角度出發(fā),考慮兩類圖譜架構(gòu)的相關(guān)特性,結(jié)合實際研究和工作中的經(jīng)驗,提出了融合事實圖譜和事理的思路,來發(fā)揮兩類圖譜的優(yōu)勢,從而提升任務(wù)型對話性能的目標(biāo)。
1 事實圖譜和事理圖譜
要解決事實圖譜的融合和事理圖譜的融合,需要先簡單介紹其概念、研究現(xiàn)狀等內(nèi)容。
1.1 事實圖譜
事實圖譜是一種描述事實知識內(nèi)容的知識庫,一般節(jié)點代表概念,邊代表概念的相關(guān)性質(zhì)。本文構(gòu)建標(biāo)準(zhǔn)為RDF/RDFS標(biāo)準(zhǔn)。這兩類標(biāo)準(zhǔn)是用來表現(xiàn)萬維網(wǎng)上各類資源的信息的一種語言,RDF通過類、屬性和值來描述資源。RDF Schema(RDFS)是對RDF的一種擴展,應(yīng)用程序?qū)S玫念惡蛯傩员仨毷褂脤DF的擴展來定義。RDF Schema就是這樣一種擴展。RDFS不提供實際的應(yīng)用程序?qū)S玫念惡蛯傩?,而是提供了描述?yīng)用程序?qū)S玫念惡蛯傩缘目蚣堋DFS中的類與面向?qū)ο缶幊陶Z言中的類非常相似,這就使得資源能夠作為類的實例和類的子類來被定義。
事實圖譜的知識獲取有很多成果卓然的研究,從實體級的實體挖掘[4]、實體發(fā)現(xiàn)、實體鏈接,到關(guān)系抽取[5],主要目標(biāo)是找到各類事實知識信息,并將它們按照三元組的結(jié)構(gòu)組織起來,用以描述事物本身性質(zhì)及其相關(guān)關(guān)系,在國網(wǎng)客服場景下,利用實際生產(chǎn)中的機房、設(shè)備、人員、應(yīng)用功能、服務(wù)等既定事實構(gòu)建了事實圖譜。
圖1展示了一個局部場景的事實圖譜。
1.2 事理圖譜
事理圖譜[6]是一種描述事件之間的演化規(guī)律和模式的邏輯知識庫。從結(jié)構(gòu)上來說事理圖譜是一個有向有環(huán)圖,節(jié)點代表事件,有向邊代表事件之間的順承、因果等關(guān)系。
事理圖譜的構(gòu)建方法也有不少相關(guān)研究,主要是基于大規(guī)模事件密集型數(shù)據(jù)(例如:新聞)的抽取和泛化,并計算相關(guān)邊的轉(zhuǎn)移概率,最后生成相應(yīng)事理的拓?fù)鋱D。因此,在國網(wǎng)場景中,本文將指導(dǎo)性文檔中的操作步驟、方法、故障實例等涉及大量實踐且事件具有一定邏輯關(guān)系的知識內(nèi)容形成了事理圖譜。圖2是某業(yè)務(wù)流程的事理圖譜表示。
2 圖譜架構(gòu)和融合方法
在垂直領(lǐng)域下,常常很難有大量事件密集型數(shù)據(jù),尤其是基于具體行業(yè)、公司場景下,往往只有一些規(guī)范性文檔、操作手冊作為基礎(chǔ)數(shù)據(jù)來源。因此,獲得的事理圖譜和事實圖譜在常規(guī)融合的情況下,往往會出現(xiàn)大量孤島節(jié)點,實現(xiàn)不了在對話過程中支撐對話知識的作用。因此,在垂直領(lǐng)域特定場景下的知識融合和知識共建是相互耦合的,需要以專家知識的種子圖譜為基礎(chǔ),融合事理圖譜,并在融合過程中讓事理和事實互相校驗互相補充,才能不斷豐富圖譜內(nèi)容,保證圖譜對整個對話支持[7]的性能。
圖譜融合實際上就是節(jié)點消歧并建立鏈接。為了對事實圖譜和事理圖譜建立相互鏈接,使之融合成為一個大圖譜,本文提出下述架構(gòu):
以實體粒度的知識為核心,將語義角色中的實體、謂詞、事件等關(guān)系鏈接成網(wǎng)絡(luò)狀態(tài),其中實體稱之為概念(concept),通常為名詞和領(lǐng)域核心詞等事實知識內(nèi)容,以父類-類-實體的形式來組織上下位關(guān)系,概念通過謂詞關(guān)系鏈接到相關(guān)事件上,具體的類和大類鏈接到具體泛化事理上。
這樣的架構(gòu)既可以實現(xiàn)從知識圖譜中獲得的詳細的語義信息、實體、詳細事件,也可以根據(jù)實體上下文關(guān)系及其事理的邏輯推理,指導(dǎo)對話管理。
這樣架構(gòu)有下述優(yōu)點:
(1)最大限度利用問句中的語義信息;
(2)最大限度地利用知識圖譜中的上下位信息;
(3)只需要定義較少的事理邏輯推理和上下位邏輯推理,即可實現(xiàn)對對話的引導(dǎo)和跟蹤;
(4)能夠獲取精準(zhǔn)的當(dāng)前語義事件(如:買蘋果,而非買水果);
(5)構(gòu)建過程中實體挖掘、事件挖掘、事件泛化等算法的相互校驗提高整個圖譜的知識的精準(zhǔn)性;
(6)概念相匹配的謂詞體系校驗語義解析結(jié)果,輔助解析結(jié)果的重排序。
總言之,這樣的框架是從應(yīng)用的角度出發(fā),從構(gòu)建過程中融合兩類圖譜,將更多更精準(zhǔn)的關(guān)系和語義信息融入知識圖譜中,并利用在融合共建中產(chǎn)生的謂詞、實體、事件等資源輔助識別、檢索、排序等算法。其架構(gòu)如圖3所示。
如圖3所示,在事實圖譜中,實體和類展現(xiàn)了核心的上下位關(guān)系;事理圖譜中通過事件到事理的泛化,體現(xiàn)事件的上下位關(guān)系。事實圖譜中的類和子類通過謂詞關(guān)系連接到事理圖譜中的具體事理中,事實圖譜中的實體通過謂詞關(guān)系連接到具體事件上,將兩類圖譜有機地連接起來。
所以融合本質(zhì)就是通過謂詞關(guān)系,將事理圖譜和對應(yīng)概念的事實圖譜鏈接成一個語義內(nèi)容和邏輯關(guān)系更豐富的知識圖譜。顯然,融合過程中可以利用已有信息不斷補充和反向校驗其他信息,所以知識融合的過程也是一個不斷互相補充互相完善的過程。
首先,在構(gòu)建過程中需要一些通用資源,例如:中文動詞詞典、同義詞典、來自于通用知識庫(例如:wikipedia、freebase等)的同義詞、語義上下位關(guān)系等資源。
其次,用以構(gòu)建的數(shù)據(jù)源主要是兩類,一類是功能文檔、產(chǎn)品文檔等帶有場景和邏輯順承關(guān)系的文檔類數(shù)據(jù);另一類是問答對話類帶有大量領(lǐng)域關(guān)鍵詞和謂詞邏輯關(guān)系的數(shù)據(jù)。事實圖譜和事理圖譜的分別建立也都是基于這類數(shù)據(jù)。
這里主要介紹在已建立了基礎(chǔ)的事實圖譜和事理圖譜,融合和共建新架構(gòu)圖譜的流程:
(1)利用動詞詞典,構(gòu)造謂詞關(guān)系集。
(2)利用事實同義詞典,從事理圖譜中發(fā)現(xiàn)相關(guān)實體并篩選。
例如:事實圖譜中存在Class=(員工),事理圖譜中存在Event=<通知相關(guān)人員>,利用同義詞“員工:人員,發(fā)現(xiàn),<通知相關(guān)人員>-[通知]-(員工)”這樣的連接關(guān)系,并關(guān)聯(lián)。
(3)孤島事件中挖掘新實體,并歸類新類。
(4)篩選事實-謂詞組合,產(chǎn)生新的事件/事理。
例如:事實:(服務(wù)器)(交換機)(刀片機)…結(jié)合謂詞:
“重啟”,產(chǎn)生新的事件,<重啟服務(wù)器><重啟交換機>
<重啟刀片機>
(5)事件泛化找到新的事理。
例如:事實:(服務(wù)器),在Class=設(shè)備,<重啟服務(wù)器>,
泛化為<重啟設(shè)備>
(6)計算事理間的邏輯關(guān)系。
3 研究成果
本文實驗基于國網(wǎng)客服人工智能中心和清華大學(xué)智能技術(shù)與系統(tǒng)國家重點實驗室聯(lián)合構(gòu)建知識圖譜和對應(yīng)對話系統(tǒng),其中基礎(chǔ)事實圖譜數(shù)據(jù)和事理圖譜數(shù)據(jù)分別由國網(wǎng)培訓(xùn)文檔、標(biāo)準(zhǔn)運維解決方案文檔、故障分析報告、客服常見問答問題等文檔數(shù)據(jù)構(gòu)造。實驗最后獲得如表1所示成果。
圖4展示了局部融合圖譜。
本文在該知識圖譜和清華語義平臺的基礎(chǔ)上建立了針對客服系統(tǒng)的相應(yīng)知識管理及對話系統(tǒng),在客服應(yīng)答、故障查修、運維狀態(tài)跟蹤等場景下均獲得了較好的應(yīng)用效果。
4 結(jié)論
本文提出了一套基于事實圖譜和事理圖譜融合的新型知識圖譜構(gòu)建框架,該框架不僅包含了相關(guān)垂直領(lǐng)域的各類知識信息,還將基礎(chǔ)語義信息和推理信息融入其中。該框架構(gòu)建過程中能夠不斷鏈接映射并互相補充,達到圖譜動態(tài)擴展的目標(biāo),有效提高了圖譜構(gòu)建效率,降低了圖譜構(gòu)建的人工成本。最后成功建設(shè)了一個較為完善的垂直領(lǐng)域混合型圖譜,并在相關(guān)問答知識類應(yīng)用中對其性能進行了較好的驗證。
參考文獻
[1] MCTEAR M F.Spoken dialogue technology:enabling the conversational user interface[J].ACM Computing Surveys,2002,34(1):90-169.
[2] 代文韜,林詩璐,朱小燕,等.基于知識圖譜的保險領(lǐng)域?qū)υ捪到y(tǒng)構(gòu)建[J].電子技術(shù)應(yīng)用,2019,45(9):18-21,27.
[3] LEE C,JUNG S,KIM K,et al.Recent approaches to dialog management for spoken dialog systems[J].Journal of Computing Science and Engineering,2010,4(1):1-22.
[4] 李剛,黃永峰.一種面向微博文本的命名實體識別方法[J].電子技術(shù)應(yīng)用,2018,44(1):118-120,124.
[5] 金鵬,楊忠良,黃永峰.基于卷積神經(jīng)網(wǎng)絡(luò)的詩詞隱寫檢測方法[J].電子技術(shù)應(yīng)用,2018,44(10):114-117,126.
[6] Ding Xiao,Qin Bing,Liu Ting. Building Chinese event type paradigm based on trigger clustering[C].Proceedings of the 6th International Joint Conference on Natural LanguageProcessing(IJCNLP),2013:311-319.
[7] HUANG M,ZHU X,HAO Y,et al.Discovering patterns to extract protein-protein interactions from full texts[J].Bioinformatics,2004,20(18):3604-3612.
作者信息:
楊 維
(國家電網(wǎng)客服中心 信息技術(shù)部,天津300000)